AccueilđŸ‡«đŸ‡·Chercher

Analyse discriminante

L’analyse factorielle discriminante (AFD) ou simplement analyse discriminante est une technique statistique qui vise Ă  dĂ©crire, expliquer et prĂ©dire l’appartenance Ă  des groupes prĂ©dĂ©finis (classes, modalitĂ©s de la variable Ă  prĂ©dire
) d’un ensemble d’observations (individus, exemples
) Ă  partir d’une sĂ©rie de variables prĂ©dictives (descripteurs, variables exogĂšnes
).

Analyse discriminante
Type
MĂ©thode statistique (d)

L’analyse discriminante est utilisĂ©e dans de nombreux domaines.

  • En mĂ©decine, par exemple pour dĂ©tecter les groupes Ă  hauts risques cardiaques Ă  partir de caractĂ©ristiques telles que l’alimentation, le fait de fumer ou non, les antĂ©cĂ©dents familiaux, etc.
  • Dans le domaine bancaire, lorsque l’on veut Ă©valuer la fiabilitĂ© d’un demandeur de crĂ©dit Ă  partir de ses revenus, du nombre de personnes Ă  charge, des encours de crĂ©dits qu’il dĂ©tient, etc.
  • En biologie, lorsque l’on veut affecter un objet Ă  sa famille d’appartenance Ă  partir de ses caractĂ©ristiques physiques. Les iris de Sir Ronald Fisher — qui est Ă  l'origine de cette mĂ©thode — en est un exemple, il s’agit de reconnaĂźtre le type d’iris (setosa, virginica, et versicolor) Ă  partir de la longueur/largeur de ses pĂ©tales et sĂ©pales.
  • En informatique, pour la reconnaissance optique de caractĂšres. L'analyse discriminante est utilisĂ©e pour reconnaĂźtre un caractĂšre imprimĂ© Ă  partir d'informations simples, comme la prĂ©sence ou non de symĂ©trie, le nombre d'extrĂ©mitĂ©s


L’analyse discriminante est une technique connue et reconnue, elle est dĂ©crite Ă  peu prĂšs de maniĂšre identique par les diffĂ©rentes communautĂ©s du traitement de donnĂ©es : en statistique exploratoire (exploratory data analysis), en analyse des donnĂ©es, en reconnaissance de formes (pattern recognition), en apprentissage automatique (machine learning), en fouille de donnĂ©es (data mining)


Tableau de données

Dans le fichier Flea Beetles Dataset[1], rĂ©fĂ©rencĂ© sur le site DASL (Data and Story Library)[2], nous observons trois familles de puces caractĂ©risĂ©es par l’angle et la largeur de leur Ă©dĂ©age, l'organe de reproduction mĂąle en entomologie.

Nous disposons de 74 observations dans ce fichier. La variable Species indique la famille d’appartenance de chaque puce, il en existe trois {Con – Concinna, Hei – Heikertingeri, Hep - Heptapotamica}. Les puces sont dĂ©crites Ă  l’aide de deux variables continues : la largeur (width) et l’angle de leur aedeagus.

Les donnĂ©es Ă©tant dĂ©crites par deux variables, il est possible de reprĂ©senter le nuage de points dans un graphique XY avec en abscisse la largeur (width) et en ordonnĂ©e l’angle (angle). Ça n’est plus possible lorsque le nombre de descripteurs est supĂ©rieur Ă  deux, un des rĂŽles de l’analyse discriminante est justement de proposer une reprĂ©sentation graphique appropriĂ©e dans un espace rĂ©duit.

ReprĂ©sentation graphique des donnĂ©es du fichier Flea Beetles Dataset. Nous distinguons bien les trois « blocs » associĂ©s Ă  chaque espĂšce de puce. À chaque nuage de points conditionnel correspond un centre de gravitĂ© conditionnel matĂ©rialisĂ© par la lettre G.

Des approches différentes selon les objectifs

On distingue généralement deux grandes approches :

  • L’analyse discriminante peut ĂȘtre une technique descriptive. On parle dans ce cas d’analyse factorielle discriminante (ou analyse discriminante descriptive). L’objectif est de proposer un nouveau systĂšme de reprĂ©sentation, des variables latentes formĂ©es Ă  partir de combinaisons linĂ©aires des variables prĂ©dictives, qui permettent de discerner le plus possible les groupes d’individus. En ce sens, elle se rapproche de l’analyse factorielle car elle permet de proposer une reprĂ©sentation graphique dans un espace rĂ©duit, plus particuliĂšrement de l’analyse en composantes principales calculĂ©e sur les centres de gravitĂ© conditionnels des nuages de points avec une mĂ©trique particuliĂšre. On parle Ă©galement d’analyse canonique discriminante, notamment dans les logiciels anglo-saxons.
  • L’analyse discriminante peut ĂȘtre prĂ©dictive. Il s’agit dans ce cas de construire une fonction de classement (rĂšgle d’affectation, 
) qui permet de prĂ©dire le groupe d’appartenance d’un individu Ă  partir des valeurs prises par les variables prĂ©dictives. En ce sens, cette technique se rapproche des techniques supervisĂ©es en apprentissage automatique telles que les arbres de dĂ©cision, les rĂ©seaux de neurones, 
 Elle repose sur un cadre probabiliste. Le plus connu est certainement l’hypothĂšse de distribution multinormale (loi normale). AdditionnĂ©e Ă  l’hypothĂšse d’homoscĂ©dasticitĂ©, les nuages de points conditionnels ont la mĂȘme forme, nous aboutissons Ă  l’analyse discriminante linĂ©aire. Elle est trĂšs sĂ©duisante dans la pratique car la fonction de classement s’exprime comme une combinaison linĂ©aire des variables prĂ©dictives, facile Ă  analyser et Ă  interprĂ©ter. Cette technique est, avec la rĂ©gression logistique, trĂšs utilisĂ©e dans le scoring, lorsque nous voulons par exemple caractĂ©riser l’appĂ©tence – la propension Ă  acheter – d’un client face Ă  un nouveau produit.

La distinction entre ces deux approches n’est pas aussi tranchĂ©e. Il est par exemple possible de dĂ©river des rĂšgles gĂ©omĂ©triques d’affectation Ă  partir de l’analyse factorielle discriminante.

Analyse discriminante descriptive

L’analyse discriminante descriptive (analyse factorielle discriminante, canonical discriminant analysis en anglais) est une technique de statistique exploratoire qui travaille sur un ensemble de observations dĂ©crites par variables, rĂ©parties en groupes. Elle vise Ă  produire un nouveau systĂšme de reprĂ©sentation, constituĂ© de combinaisons linĂ©aires des variables initiales, qui permet de sĂ©parer au mieux les catĂ©gories.

  • L’analyse discriminante descriptive est une technique descriptive car elle propose une reprĂ©sentation graphique qui permet de visualiser les proximitĂ©s entre les observations, appartenant au mĂȘme groupe ou non.
  • C’est aussi une technique explicative car nous avons la possibilitĂ© d’interprĂ©ter les axes factoriels, combinaisons linĂ©aires des variables initiales, et ainsi comprendre les caractĂ©ristiques qui distinguent les diffĂ©rents groupes.

Contrairement Ă  l’analyse discriminante prĂ©dictive, elle ne repose sur aucune hypothĂšse probabiliste. Il s’agit essentiellement d’une mĂ©thode gĂ©omĂ©trique.

Données et notations

Nous disposons d’un Ă©chantillon de observations rĂ©parties dans groupes d’effectifs .

Notons la variable définissant les groupes, elle prend ses valeurs dans . Nous disposons de variables .

Nous notons les centres de gravité des nuages de points conditionnels, leurs matrice de variance-covariance.

DĂ©marche

L’objectif de l’analyse discriminante est de produire un nouvel espace de reprĂ©sentation qui permet de distinguer le mieux les K groupes. La dĂ©marche consiste Ă  produire une suite de variables discriminantes , non corrĂ©lĂ©es deux Ă  deux, telles que des individus du mĂȘme groupe projetĂ©s sur ces axes soient le plus proche possible les uns des autres, et que des individus de groupes diffĂ©rents soient le plus Ă©loignĂ© possible.

  • La dispersion Ă  l’intĂ©rieur d’un groupe est dĂ©crite par la matrice de variance covariance . Nous pouvons en dĂ©duire (Ă  un facteur prĂšs) la matrice de dispersion intra-groupe
  • L’éloignement entre les groupes, entre les centres de gravitĂ© des groupes, est traduit par la matrice de variance covariance inter-groupes (Ă  un facteur prĂšs) , oĂč est le centre de gravitĂ© du nuage de points global.
  • La dispersion totale du nuage est obtenue par la matrice de variance covariance totale . En vertu du thĂ©orĂšme d’Huyghens (qui est la gĂ©nĂ©ralisation mutlidimensionnelle de la formule de dĂ©composition de la variance) :

Le premier axe factoriel sera donc défini par le vecteur directeur tel que l'on maximise la quantité . La variance inter-classes sur ce premier axe factoriel sera maximum.

Solution

La solution de ce problĂšme d’optimisation linĂ©aire passe par la rĂ©solution de l’équation . La rĂ©ponse nous est directement fournie par le calcul des valeurs propres et vecteurs propres de la matrice .

  • Le premier axe factoriel est donc obtenu Ă  l'aide du vecteur propre correspondant Ă  la plus grande valeur propre . Le second axe factoriel est dĂ©fini par le vecteur propre suivant, etc.
  • L'ensemble des axes factoriels est dĂ©terminĂ© par les valeurs propres non nulles de la matrice . Dans le cas usuel oĂč , nous obtenons axes factoriels.
  • Enfin, la variance inter-classes calculĂ©e sur l'axe factoriel , que l'on appelle Ă©galement pouvoir discriminant de l'axe, est Ă©gale Ă  la valeur propre associĂ©e.

Évaluation

L’évaluation se situe Ă  deux niveaux : Ă©valuer le pouvoir discriminant d’un axe factoriel ; Ă©valuer le pouvoir discriminant d’un ensemble d’axes factoriels. L’idĂ©e sous-jacente est de pouvoir dĂ©terminer le nombre d’axes suffisants pour distinguer les groupes d’observations dans le nouveau systĂšme de reprĂ©sentation.

Bien entendu, ces Ă©valuations n’ont de sens que si les groupes sont discernables dans l’espace de reprĂ©sentation initial. Il nous faut donc, dans un premier temps, apprĂ©cier dans quelle mesure les centres de gravitĂ© des groupes sont distincts. En d’autres termes, il s’agit de vĂ©rifier si la part de B dans l’équation V = B + W est assez importante pour que cela vaille la peine de la dĂ©composer par la suite.

Test MANOVA

Le test global s’apparente Ă  une analyse de variance multivariĂ©e Ă  un facteur. Dans ce cadre, nous introduisons l’hypothĂšse que les observations suivent une loi normale multidimensionnelle. Nous retrouvons Ă©galement ce test dans l’analyse discriminante prĂ©dictive (analyse discriminante linĂ©aire). La statistique du test est le Lambda de Wilks qui est Ă©gal au rapport (| | dĂ©signe le dĂ©terminant de la matrice). En utilisant la transformation de Rao qui suit une loi de Fisher, nous pouvons dĂ©terminer si nous devons accepter ou rĂ©futer l’hypothĂšse d’égalitĂ© des centres de gravitĂ© de groupes.

Proportion de variance expliquée

Chaque axe rapporte une partie de la variance inter-classes B. Une approche simple pour apprĂ©cier l’importance d’un axe est de calculer la part de variance expliquĂ©e qu’elle porte, traduite par la valeur propre. La proportion de valeur propre, c.-Ă -d. le rapport entre la valeur propre de l’axe et la somme totale des valeurs propres de l’ensemble des axes, nous donne une bonne indication sur le rĂŽle d’un axe.

Rapport de Corrélation

Une autre maniĂšre de rapporter l’importance d’un axe est de calculer le rapport de corrĂ©lation. Il s’appuie sur la formule de dĂ©composition de la variance. Pour un axe factoriel , il est Ă©gal au ratio (la somme des carrĂ©s inter-groupes divisĂ© par la somme des carrĂ©s totale, reprĂ©sente une observation).

Un axe sera d’autant plus intĂ©ressant qu’il prĂ©sente un rapport de corrĂ©lation Ă©levĂ©. Dans les logiciels anglo-saxons, la racine carrĂ©e du rapport de corrĂ©lation de l’axe est appelĂ©e la h-Ăšme corrĂ©lation canonique.

Test des racines successives

En introduisant de nouveau l’hypothĂšse de multinormalitĂ© et d’homoscĂ©dasticitĂ© (voir analyse discriminante prĂ©dictive), nous pouvons tester la nullitĂ© des derniers rapports de corrĂ©lation. Le test repose sur la statistique de Wilks . L’hypothĂšse nulle (nullitĂ© des rapports de corrĂ©lation) est infirmĂ©e pour les petites valeurs de .

Tout comme pour le test global, une transformation est mise en Ɠuvre pour retomber sur des lois de distribution d’usage courant. La transformation de Bartlett est souvent proposĂ©e dans les logiciels. Elle suit une loi du Khi-2 Ă  degrĂ©s de libertĂ©. L’hypothĂšse nulle est rejetĂ©e si la probabilitĂ© critique calculĂ©e est infĂ©rieure au risque de premiĂšre espĂšce (niveau de confiance) que l’on s’est fixĂ©.

Nous retombons sur le test MANOVA global ci-dessus (Lambda de Wilks) si nous testons la nullité des rapports de corrélation sur tous les axes factoriels. En d'autres termes, , ce qui est tout à fait naturel puisque cela revient à tester tous les axes.

Un exemple

Le fameux fichier IRIS permet d’illustrer la mĂ©thode. Il a Ă©tĂ© proposĂ© et utilisĂ© par Fisher lui-mĂȘme pour illustrer l’analyse discriminante. Il comporte 150 fleurs dĂ©crites par 4 variables (longueur et largeur des pĂ©tales et sĂ©pales) et regroupĂ©es en 3 catĂ©gories (Setosa, Versicolor et Virginica).

L’objectif est de produire un plan factoriel (3 catĂ©gories ⇒ 2 axes) permettant de distinguer au mieux ces catĂ©gories, puis d’expliquer leurs positionnements respectifs.

Axes factoriels

Le calcul produit les résultats suivants.

Axe Val. propre Proportion Canonical R Wilks KHI-2 D.D.L. p-value
1 32.272 0.991 0.985 0.024 545.58 8 0.0
2 0.277 1.0 0.466 0.783 35.6 3 0.0

Les deux axes sont globalement significatifs. En effet, le lambda de Wilks de nullité des deux axes est égal à 0.023525 ( ici). Le KHI-2 de Bartlett est égal à 545.57, avec un degré de liberté égal à (2 x (4-3+2+1)) = 8, il est trÚs hautement significatif (p-value trÚs petite).

Nous constatons nĂ©anmoins que le premier axe traduit 99,1 % de la variance expliquĂ©e. Nous pouvons lĂ©gitimement nous demander si le second axe est pertinent pour la discrimination des groupes. Il suffit pour cela de tester la nullitĂ© du dernier axe (). Le lambda est plus Ă©levĂ© (0.78), ce qui se traduit par un KHI-2 plus faible (35.64) Ă  (1 x (4-3+1+1)) = 3 degrĂ©s de libertĂ©, il reste nĂ©anmoins significatif si l’on se fixe un niveau de confiance Ă  5 %.

Partant de ce résultat, nous serions amenés à conserver les deux axes. Nous verrons plus bas que ce résultat est à relativiser.

Représentation graphique

En projetant les points dans le plan factoriel, nous obtenons le positionnement suivant.

Plan factoriel -- Analyse discriminante descriptive
Plan factoriel -- Analyse discriminante descriptive

Nous distinguons bien les trois catĂ©gories de fleurs. Nous constatons Ă©galement que le premier axe permet dĂ©jĂ  de les isoler convenablement. Sur le second axe, mĂȘme si les centres de gravitĂ© des groupes semblent distincts, la diffĂ©renciation n’est pas aussi tranchĂ©e.

Nous retrouvons bien dans ce graphique ce que l’on pressentait avec la proportion de variance expliquĂ©e. Le premier axe suffit largement pour discriminer les groupes. Le second axe, mĂȘme s’il est statistiquement significatif, n’apporte pas un rĂ©el complĂ©ment d’informations.

TrÚs souvent, les techniques visuelles emmÚnent un contrepoint trÚs pertinent aux résultats numériques bruts.

Projection des individus supplémentaires

Pour projeter des observations supplĂ©mentaires dans le plan factoriel, les logiciels fournissent les Ă©quations des fonctions discriminantes. Il suffit de les appliquer sur la description de l’individu Ă  classer pour obtenir ses coordonnĂ©es dans le nouveau repĂšre.

Dans l’exemple IRIS, nous obtenons les coefficients suivants.

Variables Axe 1 Axe 2
Sepal Length -0.819 -0.033
Sepal Width -1.548 -2.155
Petal Length 2.185 0.930
Petal Width 2.854 -2.806
Constante -2.119 6.640

Interprétation des axes

Dernier point, et non des moindres, il nous faut comprendre le positionnement relatif des groupes, c'est-Ă -dire expliquer Ă  l’aide de variables initiales l’appartenance aux catĂ©gories.

Pour cela, Ă  l’instar des techniques factorielles telles que l’analyse en composantes principales (ACP) -- l’analyse factorielle discriminante peut ĂȘtre vue comme un cas particulier de l’ACP d’ailleurs -- les logiciels fournissent la matrice de corrĂ©lation. À la diffĂ©rence de l’ACP, trois types de corrĂ©lations peuvent ĂȘtre produits : la corrĂ©lation globale entre les axes et les variables initiales ; la corrĂ©lation intra-classes, calculĂ©e Ă  l’intĂ©rieur des groupes ; la corrĂ©lation inter-classes calculĂ©e Ă  partir des centres de gravitĂ© des groupes pondĂ©rĂ©s par leurs frĂ©quences.

Dans l’exemple IRIS, si nous nous en tenons au premier axe, nous obtenons les corrĂ©lations suivantes.

Variables Total Intra-groupes Inter-groupes
Sep Length 0.792 0.222 0.992
Sep Width -0.523 -0.116 -0.822
Pet Length 0.985 0.705 1.000
Pet Width 0.973 0.632 0.994

La corrĂ©lation inter-classes qui traduit le positionnement des groupes sur les axes indique ici que les Virginica ont plutĂŽt des longueurs de sĂ©pales, des longueurs et des largeurs de pĂ©tales importantes. Les Setosa possĂšdent Ă  l’inverse des longueurs de sĂ©pales, des longueurs et des largeurs de pĂ©tales rĂ©duites. Les Versicolor occupent une position intermĂ©diaire.

La lecture est inversée concernant la largeur des sépales.

Notes et références

Bibliographie

  • M. Bardos, Analyse Discriminante - Application au risque et scoring financier, Dunod, 2001.
  • Gilbert Saporta, ProbabilitĂ©s, Analyse des donnĂ©es et Statistiques, Paris, Éditions Technip, , 622 p. [dĂ©tail des Ă©ditions] (ISBN 978-2-7108-0814-5, prĂ©sentation en ligne)
  • L. Lebart, A. Morineau, M. Piron, Statistique Exploratoire Multidimensionnelle, Dunod, 2000.
  • M. Tenenhaus, MĂ©thodes Statistiques en Gestion, Dunod, 1996.
  • Michel Volle, Analyse des donnĂ©es, Economica, 4e Ă©dition, 1997, (ISBN 2-7178-3212-2)


Cet article est issu de wikipedia. Text licence: CC BY-SA 4.0, Des conditions supplĂ©mentaires peuvent s’appliquer aux fichiers multimĂ©dias.