Accueil🇫🇷Chercher

Analyse factorielle

L'analyse factorielle est un terme qui désigne aujourd'hui plusieurs méthodes d'analyses de grands tableaux rectangulaires de données, visant à déterminer et à hiérarchiser des facteurs corrélés aux données placées en colonnes.

Au sens anglo-saxon du terme, l'analyse factorielle (factor analysis) dĂ©signe une mĂ©thode de la famille de la statistique multivariĂ©e, utilisĂ©e pour dĂ©crire un ensemble de variables observĂ©es, au moyen de variables latentes (non observĂ©es). Pour rĂ©duire le nombre de variables, la mĂ©thode calcule ces variables latentes comme combinaisons linĂ©aires des variables observĂ©es. CrĂ©Ă©e au dĂ©but du XXe siècle par Charles Spearman, cette mĂ©thode est utilisĂ©e en psychologie et particulièrement en psychomĂ©trie. Dans la mĂ©thodologie Q, Stephenson, un Ă©lève de Spearman, distingue l'analyse factorielle R, orientĂ©e sur les diffĂ©rences interindividuelles, et l'analyse factorielle Q, orientĂ©e sur les diffĂ©rences intraindividuelles [1] - [2]. En France, la terminologie « analyse factorielle Â» reprĂ©sente une autre famille de mĂ©thodes plus rĂ©centes et d'applications bien plus larges touchant la plupart des disciplines qui manipulent des grands tableaux de donnĂ©es[3]. Cette famille est composĂ©e principalement de l'analyse en composantes principales (ACP) et de l'analyse factorielle des correspondances (AFC), dĂ©veloppĂ©e par Jean-Paul BenzĂ©cri Ă  Rennes puis Ă  Paris Ă  partir des annĂ©es 1960.

DĂ©finition

Dans le langage des praticiens français, le terme analyse factorielle désigne une sous-famille de méthodes de l'analyse des données, aux côtés des méthodes de classification automatique. En analyse factorielle au sens français, on associe aux lignes et aux colonnes d’un tableau de données un nuage de points évoluant dans un espace de grande dimension. Plus précisément, si le tableau présente lignes et colonnes et a pour terme général (à l’intersection de la ligne et de la colonne ), on construit :

  • le nuage contenant points (un point reprĂ©sente une ligne) dans un espace Ă  dimensions notĂ© (une dimension par colonne). Les coordonnĂ©es du point sont les valeurs de la ligne soit {}. Lorsque , on est en prĂ©sence du graphique cartĂ©sien usuel (dit souvent graphique en x,y).
  • le nuage contenant points (un point reprĂ©sente une colonne) dans un espace Ă  dimensions notĂ© (une dimension par ligne). Les coordonnĂ©es du point sont les valeurs de la colonne soit {}.

L’analyse factorielle (au sens de l’école française) analyse les nuages et au moyen de représentations sur des axes et des plans de ces nuages qui respectent autant que possible les proximités et distances entre points. Ces représentations sont obtenues en projetant chacun de ces nuages sur ses directions principales d’inertie (appelées aussi « axes principaux »)[4]. Dans la plupart des cas, on se contente de la représentation sur les premières directions d’inertie, voire sur le premier plan (dit plan 1,2) où l'on observe la silhouette la plus étendue du nuage de points. Plus précisément, pour choisir le nombre d'axes ou de plans à observer, on s'appuie sur le pourcentage d'information qui est représenté sur chacune de ces projections. Les représentations obtenues montrent les éléments les plus importants de la diversité des données et permettent de rechercher les facteurs descriptifs principaux. Elles constituent une visualisation irremplaçable du tableau des données.

MĂ©thodes d'analyse factorielle

Les méthodes factorielles bénéficient d’une propriété remarquable connue sous le nom de dualité. Les coordonnées des points du nuage (dans ) obtenues par projection sur ses axes principaux sont liées aux coordonnées de (dans ) sur ses axes principaux. Les deux représentations (de et de ) doivent être étudiées ensemble (voire être représentées ensemble comme c’est le cas en AFC et ACM) et décrivent la même structure du tableau des données, l’une à partir des lignes et l’autre à partir des colonnes.

Les méthodes d'analyses factorielles sont complémentaires et ont été développées progressivement en parallèle avec la généralisation des moyens informatiques de calcul en fonction des différents besoins des disciplines et des équipes.

  • En analyse en composantes principales (ACP) ou en analyse factorielle des correspondances (AFC), les donnĂ©es sont des individus (en lignes) dĂ©crits par des variables (en colonnes) quantitatives ou qualitatives, mais traitĂ©es comme des nombres (0 ou 1). On parle d'un tableau individu x variables. La principale diffĂ©rence entre ces deux mĂ©thodes vient de la procĂ©dure de calcul des projections sur les axes et donc de la gestion de la dualitĂ© lignes x colonnes. L'ACP n'introduit pas de diffĂ©rence de masse entre les points lors du calcul des axes d'inertie, alors que l'AFC affecte Ă  chaque variable ou individu une masse qui est la somme des valeurs de la ligne ou de la colonne correspondante dans le tableau de donnĂ©es. Un des effets est qu'en ACP on doit observer deux familles de figures complĂ©mentaires, celles reprĂ©sentant les lignes et celles des colonnes, alors qu'en AFC tous les points aussi bien ceux reprĂ©sentatifs des lignes et des colonnes sont projetĂ©s sur les mĂŞmes figures.
  • L’analyse des correspondances multiples (ACM) est une simple gĂ©nĂ©ralisation de l'AFC, dĂ©diĂ©e aux tableaux individus x plusieurs variables qualitatives.
  • L’analyse factorielle de donnĂ©es mixtes (AFDM) traite des tableaux individus x variables dans lesquels les variables sont soit quantitatives soit qualitatives.
  • L’analyse factorielle multiple (AFM) traite des tableaux individus x variables dans lesquels les variables, quantitatives ou qualitatives, sont structurĂ©es en groupes (exemple d’une enquĂŞte dont le questionnaire est structurĂ© en thèmes). Moins connue que les deux premières, cette mĂ©thode a un potentiel d’application considĂ©rable, les variables Ă©tant en pratique très souvent structurĂ©es en groupe.
  • L’analyse factorielle multiple hiĂ©rarchique[5] (AFMH) gĂ©nĂ©ralise l’AFM aux cas oĂą les variables, quantitatives ou qualitatives, sont structurĂ©es selon une hiĂ©rarchie (exemple d’une enquĂŞte dont le questionnaire est structurĂ© en thèmes et en sous-thèmes). Moins connue que l’AFM, cette mĂ©thode a un potentiel d’application important, les utilisateurs voulant traiter des donnĂ©es toujours plus complexes.

L’analyse factorielle des correspondances mérite une mention particulière. Conçue au début des années 1960 par Jean-Paul Benzécri, alors professeur à la Faculté des sciences de Rennes, elle a été le point de cristallisation de l’École française d’analyse des données[6]. Dès le premier exposé de l’analyse factorielle des correspondances[7], l’accent est mis sur la géométrie : construction de nuages de points des lignes et des colonnes, définition d’une métrique (=distance : la fameuse distance du chi²) adaptée dans les espaces utilisés ( et ), représentation simultanée des lignes et des colonnes permise par la dualité, etc. Les présentations françaises de l'analyse en composantes principales doivent beaucoup à l’analyse factorielle des correspondances[8].

L’analyse factorielle au sens français est donc une famille de méthodes exploratoires : on aborde les données sans hypothèses a priori ; on examine ce que les données ont à dire.

En cela, elles s’opposent à l’analyse factorielle de Spearman, dite quelquefois confirmatoire. Certains considèrent que l'analyse factorielle confirmatoire est en quelque sorte l’étape qui succède à une analyse factorielle exploratoire. Elle sert, comme son nom le dit, à confirmer le modèle à l’étude. Il s’agit d’un cas particulier de la modélisation par équation structurelle. En pratique, les utilisateurs ne mettent jamais en œuvre les deux types de méthodes sur les mêmes données, chacun ayant ses propres options.

Enfin, la pratique de l’analyse factorielle au sens français va largement au-delà de la mise en œuvre d’une famille de méthodes. Au fil des temps, il s’est créé toute une méthodologie dont les éléments les plus remarquables sont la prise en compte d’éléments supplémentaires et l’enchaînement : analyse factorielle puis classification.

Voir aussi

Notes et références

  1. McKeown, Bruce., Q methodology, , 96 p. (ISBN 978-1-4522-4219-4 et 1452242194, OCLC 841672556, lire en ligne)
  2. (en) W. Stephenson, « Technique of Factor Analysis », Nature, vol. 136, no 3434,‎ , p. 297–297 (ISSN 0028-0836 et 1476-4687, DOI 10.1038/136297b0, lire en ligne, consulté le )
  3. L'ouvrage Escofier & Pagès 2008. représente bien le point de vue français sur l'analyse factorielle.
  4. Dans le livre Escofier & Pagès 2008. le chapitre 5 présente de façon détaillée ce tronc commun à toutes les méthodes factorielles.
  5. Un chapitre entier de Pagès 2013. est concacré à l'AFMH.
  6. Une date importante dans l'analyse des données à la française est 1973, date de la publication du traité de Benzécri et coll.
  7. Ce premier exposé est la thèse de Brigitte Escofier-Cordier, soutenue en 1965 à l’Université de Rennes. Cette thèse a été publié dans Escofier-Cordier 1969.
  8. C'est le cas des références déjà citées mais de bien d'autres ouvrages comme Husson, Lê & Pagès 2009.

Bibliographie

Jean-Paul Benzécri et al., L'Analyse des Données : 1 La Taxinomie, Paris, Dunod, , 615 p. (ISBN 2-04-003316-5)

Jean-Paul Benzécri et al., L'Analyse des Données : 2 L'Analyse des correspondances, Paris, Dunod, , 619 p. (ISBN 2-04-007335-3)

Brigitte Escofier-Cordier, « L'Analyse Factorielle des Correspondances », Cahiers du BURO (Bureau Universitaire de Recherche Opérationnelle), vol. 13,‎ , p. 25-59 (lire en ligne [PDF])

Brigitte Escofier et Jérôme Pagès, Analyses factorielles simples et multiples : objectifs, méthodes et interprétation, Paris, Dunod, Paris, , 318 p. (ISBN 978-2-10-051932-3)

François Husson, Sébastien Lê et Jérôme Pagès, Analyse des données avec R, Presses Universitaires de Rennes, , 224 p. (ISBN 978-2-7535-0938-2)

Jérôme Pagès, Analyse factorielle multiple avec R, Les Ulis, EDP sciences, Paris, , 253 p. (ISBN 978-2-7598-0963-9)

Liens externes

Cet article est issu de wikipedia. Text licence: CC BY-SA 4.0, Des conditions supplémentaires peuvent s’appliquer aux fichiers multimédias.