Matrice de confusion

Un article de Wikipédia, l'encyclopédie libre.

La matrice de confusion, dans la terminologie de l'apprentissage supervisé, est un outil servant à mesurer la qualité d'un système de classification.

Chaque colonne de la matrice représente le nombre d'occurrences d'une classe estimée, tandis que chaque ligne représente le nombre d'occurrences d'une classe réelle.

Un des intérêts de la matrice de confusion est qu'elle montre rapidement si le système parvient à classifier correctement.

[modifier] Exemple

On considère un système de classification dont le but est de classer du courrier électronique en deux classes : courriels normaux et courriels spam. On va vouloir savoir combien de courriels normaux seront faussement estimés comme du spam (fausses alarmes) et combien de spams ne seront pas estimés comme tels (non détections). On va supposer qu'on a testé notre classificateur avec 100 courriels normaux et 100 courriels de spam. Ainsi, la matrice suivante se lit comme suit :

  • sur les 100 courriels normaux, 95 seront estimés comme tels et 5 seront estimés comme du spam ;
  • sur les 100 spams, 3 seront estimés comme courriels normaux, et 97 seront estimés comme du spam ;
  • sur les 98 courriels que le système a estimé comme normaux, 3 sont en fait du spam ;
  • sur les 102 courriels que le système a estimé comme spam, 5 sont en fait des courriels normaux.
Classe estimée
normal spam
Classe réelle normal 95 5
spam 3 97

Cette notion peut bien sûr s'étendre à un nombre quelconque de classes. On peut bien sûr normaliser cette matrice pour en simplifier la lecture : dans ce cas, un système de classification sera d'autant meilleur que sa matrice de confusion s'approchera de la matrice identité.

Autres langues