Iconographie des corrélations

Un article de Wikipédia, l'encyclopédie libre.

L’iconographie des corrélations, une des méthodes d’analyse de données, consiste à remplacer une matrice de corrélation par un schéma où les corrélations « remarquables » sont représentées par un trait plein (corrélation positive), ou un trait pointillé (corrélation négative).

Représentation de la proximité des profils alimentaires en Europe.
Représentation de la proximité des profils alimentaires en Europe.

Sommaire

[modifier] Qu’est-ce qu’une corrélation « remarquable » ?

Une forte corrélation n’a pas de sens isolément. Réciproquement une faible corrélation n’implique pas l’absence de lien.

Exemple 1 : Les variables A et C sont fortement corrélées parce que leurs variations sont toutes les deux liées à une variable X. En réalité il n’y a pas de lien AC, mais le lien XA et le lien XC. En d’autres termes, la corrélation entre A et C est redondante, et elle disparaît, lorsque X est maintenu constant (on parle de « corrélation partielle » faible par rapport à X). D’où le schéma des seules corrélations remarquables :


Image: LinkCorrelation1.png


Exemple 2 : La variable Y dépend de plusieurs variables C, D, E, F et G indépendantes. Aussi la corrélation de Y avec chacune d'entre elles, prise séparément, est faible (non « significative » au sens probabiliste du terme). En réalité, il existe les liens rigoureux CY, DY, EY, FY et GY. D’où le schéma des corrélations remarquables :


Image: LinkCorrelation2.png


[modifier] Sélection des liens remarquables

Illustrons-la sur un petit exemple : Lors d’un contrôle mathématique d'un niveau de classe de troisième, huit élèves de la sixième à la terminale, dont nous connaissons le poids, l'âge et l’assiduité, ont obtenu les notes suivantes :

Données originelles :

élève Poids Age Assiduité Note
e1 52 12 12 5
e2 59 12,5 9 5
e3 55 13 15 9
e4 58 14,5 5 5
e5 66 15,5 11 13,5
e6 62 16 15 18
e7 63 17 12 18
e8 69 18 9 18


Matrice de corrélation
Poids Age Assiduité Note
Poids 1
Age 0,885 1
Assiduité -0,160 -0,059 1
Note 0,774 0,893 0,383 1


Plaçons nos quatre variables au hasard sur le papier, et traçons un trait entre deux d’entre elles chaque fois que leur corrélation est supérieure au seuil 0,3 en valeur absolue.


Image: LinkCorrelation3.png


Au vu de ce schéma, la corrélation (poids,note) = 0.774, relativement forte, donne à penser que le poids a plus d’influence sur la note que l’assiduité ! Mais, d’autre part, nous avons les corrélations (poids,âge) = 0,885, et (âge,note) = 0,893.

A partir de ces 3 coefficients de « corrélation totale », la formule de la « corrélation partielle » donne : Corrélation (poids,note) à âge constant : = -0,08

La corrélation entre note et poids, à âge constant a fortement baissé (elle est même légèrement négative) ! En d’autre terme le poids n’a pas d’influence sur la note. Cela n’est guère surprenant. Effaçons le lien entre poids et note :


Image: LinkCorrelation4.png


En définitive, un lien n’est pas tracé,

  • soit parce que sa corrélation totale est inférieure au seuil, en valeur absolue,
  • soit parce qu’il existe au moins une corrélation partielle inférieure au seuil, en valeur absolue, ou de signe contraire à la corrélation totale.

Il n’y a pas lieu, ici, d’effacer d’autres liens, comme on le vérifie à partir des valeurs des autres corrélations partielles :

Corrélation (poids,note) à assiduité constante : = 0,92
Corrélation (âge,poids) à note constante : = 0,68
Corrélation (âge,poids) à assiduité constante : = 0,89
Corrélation (âge,note) à poids constant : = 0,71
Corrélation (assiduité,poids) à note constante : = -0,78
Corrélation (assiduité,poids) à âge constant : = -0,23
Corrélation (assiduité,note) à poids constant : = 0,81
Corrélation (assiduité,note) à âge constant : = 0,97
Corrélation (assiduité,âge) à poids constant : = 0,18
Corrélation (assiduité,âge) à note constante : = -0,97

[modifier] Instants remarquables de l’analyse

Les données disponibles permettent de pousser plus loin l’analyse.

On peut considérer en effet chaque ligne comme un « instant » de l’analyse, caractérisé par une variable indicatrice, égale à 1 à l’instant de la ligne considérée, et à 0 sinon :


élève Poids Age Assiduité Note e1 e2 e3 e4 e5 e6 e7 e8
e1 52 12 12 5 1 0 0 0 0 0 0 0
e2 59 12,5 9 5 0 1 0 0 0 0 0 0
e3 55 13 15 9 0 0 1 0 0 0 0 0
e4 58 14,5 5 5 0 0 0 1 0 0 0 0
e5 66 15,5 11 13,5 0 0 0 0 1 0 0 0
e6 62 16 15 18 0 0 0 0 0 1 0 0
e7 63 17 12 18 0 0 0 0 0 0 1 0
e8 69 18 9 18 0 0 0 0 0 0 0 1


Bien que les « instants » portent les mêmes noms que les élèves, il faut se rappeler que les élèves sont des lignes (des observations), tandis que les instants sont des colonnes, qui font partie des « variables », au même titre que les 4 premières colonnes.

Nous pouvons donc adopter le même critère de tracé des liens pour les « instants » et les variables originelles. Toutefois, pour ne pas alourdir le schéma, dessinons seulement les « instants » liés à une variable au moins (« instants remarquables ») :


Image: LinkCorrelation5.png


Les « instants » sont représentés par un triangle, pour être mieux distingués des variables originelles, qui sont représentées par un carré.

  • Par rapport au schéma précédent, le lien entre note et assiduité a disparu, remplacé par les liens (Note,e6) et (Assiduité,e6) . Il était donc redondant : l’élève e6, très assidu et bien noté, explique à lui tout seul le lien (Note,Assiduité)..
  • L’élève e3 a une assiduité remarquablement forte, et l’élève e4 une assiduité remarquablement faible (trait pointillé).

Un lien est dit « remarquable » quand les autres liens présents sur la figure ne suffisent pas à l’expliquer.

  • L’élève e6 a en effet une note « remarquable » : 18/20.
  • Les élèves e7 et e8 qui ont, eux aussi, 18/20, ne sont pas remarquables : ils n’apparaissent pas sur le schéma, car, plus âgés, leur note est déjà expliquée par le lien (âge,note).


  • De la même façon, on peut vérifier sur les données, que e5 a un poids remarquablement fort pour son âge (par rapport aux 8 élèves de la population étudiée) ; tandis que l’élève e1 à un poids remarquablement faible pour son âge.


Les liens entre carrés (variables-variables) soulignent les lois générales; les liens carré-triangle (variable-instant) soulignent les événements rares.

[modifier] Algorithme de l’iconographie des corrélations

Le principe de l’Iconographie des corrélations est suffisamment simple pour permettre un tracé manuel, si le tableau de données est petit. Sinon, il faut recourir à un programme comportant, en entrée, la matrice de corrélation et le seuil choisi (par exemple 0,3). En voici l’algorithme :

Pour éviter les redondances, le lien AB est tracé si et seulement si la corrélation totale r(A,B) est supérieure au seuil en valeur absolue, et si les corrélations partielles r(A,B), par rapport à une variable Z, sont supérieures au seuil, en valeur absolue, et de même signe que la corrélation totale , pour tout Z parmi les variables disponibles, y compris les « instants ».

Ce critère de tracé est sévère, et garanti la sélection des liens les plus « solides ».

Les variables peuvent être quantitatives et/ou qualitatives (pourvu que ces dernières utilisent un codage disjonctif complet).


[modifier] Position des points sur le papier

L‘exemple ci-dessus a montré deux sortes de points : les variables (carrés), et les « instants » (triangles). Une fois trouvé les liens entre ces éléments, positifs (traits pleins) ou négatifs (traits pointillé), reste à les dessiner sur le papier.

Toute latitude de positionnement est laissée à l’analyste, puisque l’interprétation dépend des liens et non des positions.

Autant que possible, il faut éviter les croisements inutiles entre liens, gênant pour la lecture. Le schéma suivant, par exemple, est moins lisible que le précédent, bien que l’interprétation soit la même (liens identiques) :


Image: LinkCorrelation6bis.png


Plusieurs techniques peuvent être utilisées pour placer les points de façon automatique.

Une première approche consiste à projeter le nuage de points des variables sur les deux premiers axes d’une analyse en composantes principales. Mais les projections ne sont pas toujours adaptées à une bonne lisibilité lorsqu’il y a beaucoup de composantes principales statistiquement significatives, et particulièrement en cas de mélange de variables qualitatives et quantitatives.


Une autre approche consiste à tirer parti de l’interprétation géométrique du coefficient de corrélation (cosinus), et à dessiner le schéma à la surface d’une sphère à 3 dimensions.

L’arc-cosinus de la corrélation étant une distance angulaire, deux points seront d’autant plus proches sur la sphère qu’ils seront plus corrélés (positivement). Inversement la distance angulaire entre deux points corrélés négativement est un angle obtus ; si la corrélation vaut -1, les points sont opposés sur la sphère (angle 180°).
Il s’agit, bien entendu, d’un pis allé, car la sphère réelle n’est pas à 3 dimensions, mais à n dimensions. Si donc deux points très corrélés sont forcément proches sur le dessin, l’inverse n’est pas sûr : deux points très proches sur le dessin ne sont pas forcément corrélés. Toutefois, l’absence de lien tracé lève l’ambiguïté.


On pourrait envisager bien d’autres modes de choix des positions : le plus utilisé consiste à choisir comme distance angulaire l’arc-cosinus de la valeur absolue de la corrélation. Ainsi les points corrélés négativement ne sont pas opposés sur la sphère, et le lien pointillé est plus court et encombre moins le schéma.

En pratique, dans une approche logicielle, une première variable A est dessinée n'importe où sur la sphère. Puis la variable B la moins corrélée à cette première est posée sur la sphère à la distance arc-cosinus(r(A,B)) de la première. On place alors, par triangulation, la variable C la moins corrélée aux deux premières. Les autres points sont posés de proche en proche. Si la quatrième variable a une corrélation nulle avec les trois premières, il n'est matériellement pas possible de lui assigner une position exacte. Les distances sont recalculées de façon proportionnelle aux valeurs réelles. Au bout d'un certain temps, la position des premiers points est recalculée d'après les suivants. Etc... Ainsi, la figure est réajustée progressivement.

[modifier] Choix du seuil

Le seuil peut varier entre 0 et 1. Un lien n'est tracé que si, non seulement la corrélation totale, mais encore toutes les corrélations partielles correspondantes, sont supérieures au seuil en valeur absolue, et de même signe. Cette condition est sévère, et les liens qui subsistent sont, en général, riches d’information.

Augmenter la valeur du seuil diminue le nombre de liens, et clarifie la figure, mais diminue aussi l’information, surtout quand la variable d’intérêt dépend de plusieurs variables indépendantes.

Il est souvent préférable de prendre un seuil assez bas. Puis, si la figure complète est par trop touffue, de ne dessiner que les liens à la variable d’intérêt.


A titre d’exemple, lorsqu’on aborde de nouvelles données, et qu’on ne sait pas quel seuil choisir, on pourra commencer par :

  • un seuil = 0.3 pour une analyse de données ;
  • un seuil = 0.1 pour l’analyse des résultats d’un plan d’expériences. Dans ce cas en effet, tous les facteurs sont contrôlés, et l’on peut se permettre de ne pas dessiner les « instants » (a priori remarquables par construction du plan), ce qui allège la figure ;
  • un seuil = 0.01, ou moins, pourra même être choisi lorsque le tableau de données comprend plusieurs centaines d’observations.

Dans notre exemple, même au seuil nul, le lien (poids,note) n’est pas tracé, car la corrélation partielle par rapport à l’âge est de signe contraire à la corrélation totale. Mais le lien (assiduité,note) apparaît, et il y a plus d’instants remarquables.

[modifier] Organisation des liens

L’Iconographie des Corrélations vise à mettre en évidence l’organisation des liens, qui peut aussi bien être bouclée que hiérarchique ou continûment répartie.


Image: LinkCorrelation7.png


L’absence d’axe, quelle que soit la dimension du problème permet de remplacer une multitude de projections bidimensionnelles par une image unique, ou l’essentiel apparaît d’un coup d’œil.

Une succession de telles figures (éventuellement dessin animé) autorise la représentation graphique d’une organisation multidimensionnelle évolutive.

[modifier] Retrait d’une influence évidente

Il est courant, en analyse de données, de disposer d’une variable Z dont l’influence, prépondérante, et déjà bien connue, masque des phénomènes plus fins que l’on cherche à découvrir.

La solution consiste à tracer le schéma, non pas de la matrice de corrélation totale, mais de la matrice des corrélations partielles par rapport à Z, afin de retirer toute influence linéaire de Z sur les autres variables. Le schéma révèle alors une autre organisation, abstraction faite des variations de Z.

[modifier] Interactions logiques remarquables

De même que les « instants » sont rajoutés, ci-dessus, au tableau initial, comme de nouvelles colonnes, de même, on peut rajouter d’autres colonnes, par exemple des fonctions des variables initiales, en particulier des « interactions logiques », qui sont des couplages de variables.

Le nombre de colonnes supplémentaires importe peu, pourvu qu’on ne rajoute sur le schéma que celles qui seront liées à l’une au moins des variables initiales, afin de ne pas alourdir inutilement la figure.

Par exemple, suite à l’ajout de nouvelles colonnes correspondant au « & » logique entre deux variables quelconques, seule l’interaction « Age&Assiduité » apparaît directement liée à la note :


Image: LinkCorrelation8.png

L’interaction logique apporte quelque chose de plus à l’interprétation (compte tenu, bien sûr, du petit nombre de variables explicatives disponibles dans cet exemple) : pour obtenir une bonne note il ne suffit pas d’être plus âgé, il faut aussi être assidu au cours.

[modifier] Base de connaissance associée au schéma

Les liens du schéma peuvent être décrits de la manière suivante : à chaque lien tracé, associons une règle du type SI…ALORS …, suivie de la valeur du coefficient de corrélation totale, précédé d’une « * » si le lien est tracé, et de « ? » si le lien n’est pas tracé, car « douteux » (la valeur de la corrélation n’est supérieure au seuil qu’à cause d’une seule observation).

SI Poids ALORS Age *.885
SI Age ALORS Poids *.885
SI Age ALORS Note *.893
SI Note ALORS Age *.893
SI Assiduité ALORS Age&Assiduité ?.493
SI Note ALORS Age&Assiduité *.960
SI Age&Assiduité ALORS Note *.960
SI .e1 ALORS Poids *-.610
SI .e3 ALORS Assiduité *.484
SI .e4 ALORS Assiduité *-.726
SI .e5 ALORS Poids *.395
SI .e6 ALORS Age&Assiduité *.597
  • Les liens entre variables sont indiqués ici dans les deux sens, car la causalité n’est pas directement déductible de la corrélation.
  • Les liens « instants remarquables » - variables peuvent être indiqués dans un seul sens, car la variable découle de sa réalisation à l’instant considéré.

Une base de connaissance peut servir d’entrée à un système expert ; et l’utilisateur peut l’enrichir ou la préciser.

Par exemple, il est contraire au bon sens de dire qu’une bonne note peut causer l’âge. C’est l’inverse qui est possible. De même, les enfants prennent du poids en grandissant, mais ce n’est pas le poids qui fait le nombre des années. L’utilisateur peut donc supprimer les règles « SI Note ALORS Age *.893 », «  SI Note ALORS Age&Assiduité *.960 » et « SI Poids ALORS Age *.885 ».

La base de connaissance ainsi modifiée donne un schéma où certains liens sont désormais orientés. On peut lui appliquer la théorie des graphes et en tirer des flux d’informations.

[modifier] Voir aussi

[modifier] Références

[1] Lesty M. (1999) Une nouvelle approche dans le choix des régresseurs de la régression multiple en présence d’interactions et de colinéarités. La revue de Modulad, n°22, janvier 1999, pp. 41-77