Accueil🇫🇷Chercher

Matrice des liaisons

On se situe dans le cadre de l'analyse de données dans lesquelles un ensemble d'individus est décrit par un ensemble de variables. La matrice des liaisons rassemble les indicateurs de liaison entre les variables prises deux à deux. Elle généralise la matrice des corrélations au cas où l’on dispose simultanément de variables quantitatives et de variables qualitatives.

Contexte

En statistique, il est utile de mesurer l’intensité de la liaison entre deux variables par un indicateur. Le plus connu est le coefficient de corrélation, ou son carré noté classiquement , calculé entre deux variables quantitatives.
Entre une variable quantitative et une variable qualitative, l’intensité de la liaison est mesurée par le carré du rapport de corrélation (noté classiquement )[b 1].
Entre deux variables qualitatives, les deux indicateurs classiques sont le (noté ) et le coefficient de Cramer[b 2].

Lorsque l’on est en présence de plusieurs variables, il est utile de rassembler ces coefficients dans une matrice telle que, à l’intersection de la ligne et de la colonne on trouve la mesure d’intensité de la liaison entre les variables et . Ceci est fait couramment lorsque les variables sont toutes quantitatives, auquel cas on calcule la matrice des corrélations.

DĂ©finition

En présence de variables des deux types, une extension de la matrice des corrélations est la matrice des liaisons dans laquelle, à l’intersection de la ligne et de la colonne on trouve :

  1. si et sont quantitatives : .
  2. si est quantitative et qualitative : .
  3. si et sont qualitatives : .

La diagonale de cette matrice comporte la valeur 1 si la variable est quantitative et le nombre de modalités moins 1 si la variable est qualitative.

Exemple numérique

Six individus sont décrits par trois variables quantitatives et trois variables qualitatives ayant respectivement 3, 2 et 3 modalités. À partir des données du tableau 1, on calcule la matrice des liaisons du tableau 2.

Tableau 1. Données
24.54-A-B-C
54.54-C-B-C
312-B-B-B
412-B-B-B
111-A-A-A
612-C-A-A
Tableau 2. Matrice des liaisons associée au tableau 1.
10.000.050.910.000.00
0.0010.900.250.251.00
0.050.9010.130.400.93
0.910.250.1320.251.00
0.000.250.400.2511.00
0.001.000.931.001.002

Lecture

Variables quantitatives. Les variables et sont étroitement corrélées entre elles et non corrélés à .

Variables qualitatives. La variable n’est pratiquement pas liée à et est liée à . Les variables et sont liées .

Variables quantitatives et qualitatives. La variable est liée uniquement (et étroitement) à . Les variables et sont liées étroitement à ou et ne sont pas liées aux deux autres variables qualitatives .

Synthèse et visualisation

Tableau 3. Tableau 2 dont les lignes et les colonnes ont été réordonnées selon le premier axe de l'AFDM.

De même qu’une matrice des corrélations peut être utilement visualisée par l’Analyse en composantes principales (ACP), une matrice des liaisons peut être utilement visualisée par l’Analyse Factorielle des Données Mixtes (AFDM)[b 3]. En particulier l’AFDM fournit un graphique dit « carré des liaisons »[b 4], sur lequel les variables quantitatives et qualitatives sont simultanément représentées. Si l’on réordonne les variables selon le premier axe de l’AFDM, la matrice des liaisons fait apparaître des groupes de variables liées entre elles. Si l’on veut expliciter des groupes, il vaut mieux ne pas imposer à ces groupes d’être disjoints puisqu’une variable qualitative peut être parfaitement liée à deux variables quantitatives non corrélées.
Dans l’exemple, cela conduit au tableau 3 dans lequel on peut voir trois groupes de variables :
: ces trois variables caractérisent les individus et .
: ces deux variables caractérisent les individus et (on pourrait aussi ajouter , liée à mais pas à ).
: ces deux variables opposent les individus et .

Références

Ouvrages spécialisés

  1. Dagnélie 1998, p. 222 et suiv.
  2. Saporta 2006, p. 149 et suiv.
  3. Pagès 2002
  4. Pagès 2013, p. 72 et suiv.

Voir aussi

Bibliographie

  • (fr) Gilbert Saporta, ProbabilitĂ©s, analyse des donnĂ©es et statistique, Technip, Paris, 2006, 2e Ă©d. (1re Ă©d. 1990), 622 p. (ISBN 978-2-7108-0814-5, lire en ligne)
  • (fr) Pierre DagnĂ©lie, Statistique thĂ©orique et appliquĂ©e. Tome 2. InfĂ©rence statistique Ă  une et Ă  deux dimensions, Bruxelles/Paris, Bruxelles, De Boeck, 2011, 3e Ă©d. (1re Ă©d. 1998), 736 p. (ISBN 978-2-8041-6336-5)
  • (fr) JĂ©rĂ´me Pagès, « Analyse factorielle de donnĂ©es mixtes », Revue de Statistique appliquĂ©e, vol. 52, no 4,‎ , p. 93-111 (lire en ligne [PDF])
  • (fr) JĂ©rĂ´me Pagès, Analyse factorielle multiple avec R, Les Ulis, EDP sciences, Paris, , 253 p. (ISBN 978-2-7598-0963-9)


Cet article est issu de wikipedia. Text licence: CC BY-SA 4.0, Des conditions supplémentaires peuvent s’appliquer aux fichiers multimédias.