Analyse discriminante
Lâanalyse factorielle discriminante (AFD) ou simplement analyse discriminante est une technique statistique qui vise Ă dĂ©crire, expliquer et prĂ©dire lâappartenance Ă des groupes prĂ©dĂ©finis (classes, modalitĂ©s de la variable Ă prĂ©direâŠ) dâun ensemble dâobservations (individus, exemplesâŠ) Ă partir dâune sĂ©rie de variables prĂ©dictives (descripteurs, variables exogĂšnesâŠ).
Type |
MĂ©thode statistique (d) |
---|
Lâanalyse discriminante est utilisĂ©e dans de nombreux domaines.
- En mĂ©decine, par exemple pour dĂ©tecter les groupes Ă hauts risques cardiaques Ă partir de caractĂ©ristiques telles que lâalimentation, le fait de fumer ou non, les antĂ©cĂ©dents familiaux, etc.
- Dans le domaine bancaire, lorsque lâon veut Ă©valuer la fiabilitĂ© dâun demandeur de crĂ©dit Ă partir de ses revenus, du nombre de personnes Ă charge, des encours de crĂ©dits quâil dĂ©tient, etc.
- En biologie, lorsque lâon veut affecter un objet Ă sa famille dâappartenance Ă partir de ses caractĂ©ristiques physiques. Les iris de Sir Ronald Fisher â qui est Ă l'origine de cette mĂ©thode â en est un exemple, il sâagit de reconnaĂźtre le type dâiris (setosa, virginica, et versicolor) Ă partir de la longueur/largeur de ses pĂ©tales et sĂ©pales.
- En informatique, pour la reconnaissance optique de caractĂšres. L'analyse discriminante est utilisĂ©e pour reconnaĂźtre un caractĂšre imprimĂ© Ă partir d'informations simples, comme la prĂ©sence ou non de symĂ©trie, le nombre d'extrĂ©mitĂ©sâŠ
Lâanalyse discriminante est une technique connue et reconnue, elle est dĂ©crite Ă peu prĂšs de maniĂšre identique par les diffĂ©rentes communautĂ©s du traitement de donnĂ©es : en statistique exploratoire (exploratory data analysis), en analyse des donnĂ©es, en reconnaissance de formes (pattern recognition), en apprentissage automatique (machine learning), en fouille de donnĂ©es (data mining)âŠ
Tableau de données
Dans le fichier Flea Beetles Dataset[1], rĂ©fĂ©rencĂ© sur le site DASL (Data and Story Library)[2], nous observons trois familles de puces caractĂ©risĂ©es par lâangle et la largeur de leur Ă©dĂ©age, l'organe de reproduction mĂąle en entomologie.
Nous disposons de 74 observations dans ce fichier. La variable Species indique la famille dâappartenance de chaque puce, il en existe trois {Con â Concinna, Hei â Heikertingeri, Hep - Heptapotamica}. Les puces sont dĂ©crites Ă lâaide de deux variables continues : la largeur (width) et lâangle de leur aedeagus.
Les donnĂ©es Ă©tant dĂ©crites par deux variables, il est possible de reprĂ©senter le nuage de points dans un graphique XY avec en abscisse la largeur (width) et en ordonnĂ©e lâangle (angle). Ăa nâest plus possible lorsque le nombre de descripteurs est supĂ©rieur Ă deux, un des rĂŽles de lâanalyse discriminante est justement de proposer une reprĂ©sentation graphique appropriĂ©e dans un espace rĂ©duit.
Des approches différentes selon les objectifs
On distingue généralement deux grandes approches :
- Lâanalyse discriminante peut ĂȘtre une technique descriptive. On parle dans ce cas dâanalyse factorielle discriminante (ou analyse discriminante descriptive). Lâobjectif est de proposer un nouveau systĂšme de reprĂ©sentation, des variables latentes formĂ©es Ă partir de combinaisons linĂ©aires des variables prĂ©dictives, qui permettent de discerner le plus possible les groupes dâindividus. En ce sens, elle se rapproche de lâanalyse factorielle car elle permet de proposer une reprĂ©sentation graphique dans un espace rĂ©duit, plus particuliĂšrement de lâanalyse en composantes principales calculĂ©e sur les centres de gravitĂ© conditionnels des nuages de points avec une mĂ©trique particuliĂšre. On parle Ă©galement dâanalyse canonique discriminante, notamment dans les logiciels anglo-saxons.
- Lâanalyse discriminante peut ĂȘtre prĂ©dictive. Il sâagit dans ce cas de construire une fonction de classement (rĂšgle dâaffectation, âŠ) qui permet de prĂ©dire le groupe dâappartenance dâun individu Ă partir des valeurs prises par les variables prĂ©dictives. En ce sens, cette technique se rapproche des techniques supervisĂ©es en apprentissage automatique telles que les arbres de dĂ©cision, les rĂ©seaux de neurones, ⊠Elle repose sur un cadre probabiliste. Le plus connu est certainement lâhypothĂšse de distribution multinormale (loi normale). AdditionnĂ©e Ă lâhypothĂšse dâhomoscĂ©dasticitĂ©, les nuages de points conditionnels ont la mĂȘme forme, nous aboutissons Ă lâanalyse discriminante linĂ©aire. Elle est trĂšs sĂ©duisante dans la pratique car la fonction de classement sâexprime comme une combinaison linĂ©aire des variables prĂ©dictives, facile Ă analyser et Ă interprĂ©ter. Cette technique est, avec la rĂ©gression logistique, trĂšs utilisĂ©e dans le scoring, lorsque nous voulons par exemple caractĂ©riser lâappĂ©tence â la propension Ă acheter â dâun client face Ă un nouveau produit.
La distinction entre ces deux approches nâest pas aussi tranchĂ©e. Il est par exemple possible de dĂ©river des rĂšgles gĂ©omĂ©triques dâaffectation Ă partir de lâanalyse factorielle discriminante.
Analyse discriminante descriptive
Lâanalyse discriminante descriptive (analyse factorielle discriminante, canonical discriminant analysis en anglais) est une technique de statistique exploratoire qui travaille sur un ensemble de observations dĂ©crites par variables, rĂ©parties en groupes. Elle vise Ă produire un nouveau systĂšme de reprĂ©sentation, constituĂ© de combinaisons linĂ©aires des variables initiales, qui permet de sĂ©parer au mieux les catĂ©gories.
- Lâanalyse discriminante descriptive est une technique descriptive car elle propose une reprĂ©sentation graphique qui permet de visualiser les proximitĂ©s entre les observations, appartenant au mĂȘme groupe ou non.
- Câest aussi une technique explicative car nous avons la possibilitĂ© dâinterprĂ©ter les axes factoriels, combinaisons linĂ©aires des variables initiales, et ainsi comprendre les caractĂ©ristiques qui distinguent les diffĂ©rents groupes.
Contrairement Ă lâanalyse discriminante prĂ©dictive, elle ne repose sur aucune hypothĂšse probabiliste. Il sâagit essentiellement dâune mĂ©thode gĂ©omĂ©trique.
Données et notations
Nous disposons dâun Ă©chantillon de observations rĂ©parties dans groupes dâeffectifs .
Notons la variable définissant les groupes, elle prend ses valeurs dans . Nous disposons de variables .
Nous notons les centres de gravité des nuages de points conditionnels, leurs matrice de variance-covariance.
DĂ©marche
Lâobjectif de lâanalyse discriminante est de produire un nouvel espace de reprĂ©sentation qui permet de distinguer le mieux les K groupes. La dĂ©marche consiste Ă produire une suite de variables discriminantes , non corrĂ©lĂ©es deux Ă deux, telles que des individus du mĂȘme groupe projetĂ©s sur ces axes soient le plus proche possible les uns des autres, et que des individus de groupes diffĂ©rents soient le plus Ă©loignĂ© possible.
- La dispersion Ă lâintĂ©rieur dâun groupe est dĂ©crite par la matrice de variance covariance . Nous pouvons en dĂ©duire (Ă un facteur prĂšs) la matrice de dispersion intra-groupe
- LâĂ©loignement entre les groupes, entre les centres de gravitĂ© des groupes, est traduit par la matrice de variance covariance inter-groupes (Ă un facteur prĂšs) , oĂč est le centre de gravitĂ© du nuage de points global.
- La dispersion totale du nuage est obtenue par la matrice de variance covariance totale . En vertu du thĂ©orĂšme dâHuyghens (qui est la gĂ©nĂ©ralisation mutlidimensionnelle de la formule de dĂ©composition de la variance) :
Le premier axe factoriel sera donc défini par le vecteur directeur tel que l'on maximise la quantité . La variance inter-classes sur ce premier axe factoriel sera maximum.
Solution
La solution de ce problĂšme dâoptimisation linĂ©aire passe par la rĂ©solution de lâĂ©quation . La rĂ©ponse nous est directement fournie par le calcul des valeurs propres et vecteurs propres de la matrice .
- Le premier axe factoriel est donc obtenu à l'aide du vecteur propre correspondant à la plus grande valeur propre . Le second axe factoriel est défini par le vecteur propre suivant, etc.
- L'ensemble des axes factoriels est dĂ©terminĂ© par les valeurs propres non nulles de la matrice . Dans le cas usuel oĂč , nous obtenons axes factoriels.
- Enfin, la variance inter-classes calculée sur l'axe factoriel , que l'on appelle également pouvoir discriminant de l'axe, est égale à la valeur propre associée.
Ăvaluation
LâĂ©valuation se situe Ă deux niveaux : Ă©valuer le pouvoir discriminant dâun axe factoriel ; Ă©valuer le pouvoir discriminant dâun ensemble dâaxes factoriels. LâidĂ©e sous-jacente est de pouvoir dĂ©terminer le nombre dâaxes suffisants pour distinguer les groupes dâobservations dans le nouveau systĂšme de reprĂ©sentation.
Bien entendu, ces Ă©valuations nâont de sens que si les groupes sont discernables dans lâespace de reprĂ©sentation initial. Il nous faut donc, dans un premier temps, apprĂ©cier dans quelle mesure les centres de gravitĂ© des groupes sont distincts. En dâautres termes, il sâagit de vĂ©rifier si la part de B dans lâĂ©quation V = B + W est assez importante pour que cela vaille la peine de la dĂ©composer par la suite.
Test MANOVA
Le test global sâapparente Ă une analyse de variance multivariĂ©e Ă un facteur. Dans ce cadre, nous introduisons lâhypothĂšse que les observations suivent une loi normale multidimensionnelle. Nous retrouvons Ă©galement ce test dans lâanalyse discriminante prĂ©dictive (analyse discriminante linĂ©aire). La statistique du test est le Lambda de Wilks qui est Ă©gal au rapport (| | dĂ©signe le dĂ©terminant de la matrice). En utilisant la transformation de Rao qui suit une loi de Fisher, nous pouvons dĂ©terminer si nous devons accepter ou rĂ©futer lâhypothĂšse dâĂ©galitĂ© des centres de gravitĂ© de groupes.
Proportion de variance expliquée
Chaque axe rapporte une partie de la variance inter-classes B. Une approche simple pour apprĂ©cier lâimportance dâun axe est de calculer la part de variance expliquĂ©e quâelle porte, traduite par la valeur propre. La proportion de valeur propre, c.-Ă -d. le rapport entre la valeur propre de lâaxe et la somme totale des valeurs propres de lâensemble des axes, nous donne une bonne indication sur le rĂŽle dâun axe.
Rapport de Corrélation
Une autre maniĂšre de rapporter lâimportance dâun axe est de calculer le rapport de corrĂ©lation. Il sâappuie sur la formule de dĂ©composition de la variance. Pour un axe factoriel , il est Ă©gal au ratio (la somme des carrĂ©s inter-groupes divisĂ© par la somme des carrĂ©s totale, reprĂ©sente une observation).
Un axe sera dâautant plus intĂ©ressant quâil prĂ©sente un rapport de corrĂ©lation Ă©levĂ©. Dans les logiciels anglo-saxons, la racine carrĂ©e du rapport de corrĂ©lation de lâaxe est appelĂ©e la h-Ăšme corrĂ©lation canonique.
Test des racines successives
En introduisant de nouveau lâhypothĂšse de multinormalitĂ© et dâhomoscĂ©dasticitĂ© (voir analyse discriminante prĂ©dictive), nous pouvons tester la nullitĂ© des derniers rapports de corrĂ©lation. Le test repose sur la statistique de Wilks . LâhypothĂšse nulle (nullitĂ© des rapports de corrĂ©lation) est infirmĂ©e pour les petites valeurs de .
Tout comme pour le test global, une transformation est mise en Ćuvre pour retomber sur des lois de distribution dâusage courant. La transformation de Bartlett est souvent proposĂ©e dans les logiciels. Elle suit une loi du Khi-2 Ă degrĂ©s de libertĂ©. LâhypothĂšse nulle est rejetĂ©e si la probabilitĂ© critique calculĂ©e est infĂ©rieure au risque de premiĂšre espĂšce (niveau de confiance) que lâon sâest fixĂ©.
Nous retombons sur le test MANOVA global ci-dessus (Lambda de Wilks) si nous testons la nullité des rapports de corrélation sur tous les axes factoriels. En d'autres termes, , ce qui est tout à fait naturel puisque cela revient à tester tous les axes.
Un exemple
Le fameux fichier IRIS permet dâillustrer la mĂ©thode. Il a Ă©tĂ© proposĂ© et utilisĂ© par Fisher lui-mĂȘme pour illustrer lâanalyse discriminante. Il comporte 150 fleurs dĂ©crites par 4 variables (longueur et largeur des pĂ©tales et sĂ©pales) et regroupĂ©es en 3 catĂ©gories (Setosa, Versicolor et Virginica).
Lâobjectif est de produire un plan factoriel (3 catĂ©gories â 2 axes) permettant de distinguer au mieux ces catĂ©gories, puis dâexpliquer leurs positionnements respectifs.
Axes factoriels
Le calcul produit les résultats suivants.
Axe | Val. propre | Proportion | Canonical R | Wilks | KHI-2 | D.D.L. | p-value |
---|---|---|---|---|---|---|---|
1 | 32.272 | 0.991 | 0.985 | 0.024 | 545.58 | 8 | 0.0 |
2 | 0.277 | 1.0 | 0.466 | 0.783 | 35.6 | 3 | 0.0 |
Les deux axes sont globalement significatifs. En effet, le lambda de Wilks de nullité des deux axes est égal à 0.023525 ( ici). Le KHI-2 de Bartlett est égal à 545.57, avec un degré de liberté égal à (2 x (4-3+2+1)) = 8, il est trÚs hautement significatif (p-value trÚs petite).
Nous constatons nĂ©anmoins que le premier axe traduit 99,1 % de la variance expliquĂ©e. Nous pouvons lĂ©gitimement nous demander si le second axe est pertinent pour la discrimination des groupes. Il suffit pour cela de tester la nullitĂ© du dernier axe (). Le lambda est plus Ă©levĂ© (0.78), ce qui se traduit par un KHI-2 plus faible (35.64) Ă (1 x (4-3+1+1)) = 3 degrĂ©s de libertĂ©, il reste nĂ©anmoins significatif si lâon se fixe un niveau de confiance Ă 5 %.
Partant de ce résultat, nous serions amenés à conserver les deux axes. Nous verrons plus bas que ce résultat est à relativiser.
Représentation graphique
En projetant les points dans le plan factoriel, nous obtenons le positionnement suivant.
Nous distinguons bien les trois catĂ©gories de fleurs. Nous constatons Ă©galement que le premier axe permet dĂ©jĂ de les isoler convenablement. Sur le second axe, mĂȘme si les centres de gravitĂ© des groupes semblent distincts, la diffĂ©renciation nâest pas aussi tranchĂ©e.
Nous retrouvons bien dans ce graphique ce que lâon pressentait avec la proportion de variance expliquĂ©e. Le premier axe suffit largement pour discriminer les groupes. Le second axe, mĂȘme sâil est statistiquement significatif, nâapporte pas un rĂ©el complĂ©ment dâinformations.
TrÚs souvent, les techniques visuelles emmÚnent un contrepoint trÚs pertinent aux résultats numériques bruts.
Projection des individus supplémentaires
Pour projeter des observations supplĂ©mentaires dans le plan factoriel, les logiciels fournissent les Ă©quations des fonctions discriminantes. Il suffit de les appliquer sur la description de lâindividu Ă classer pour obtenir ses coordonnĂ©es dans le nouveau repĂšre.
Dans lâexemple IRIS, nous obtenons les coefficients suivants.
Variables | Axe 1 | Axe 2 |
---|---|---|
Sepal Length | -0.819 | -0.033 |
Sepal Width | -1.548 | -2.155 |
Petal Length | 2.185 | 0.930 |
Petal Width | 2.854 | -2.806 |
Constante | -2.119 | 6.640 |
Interprétation des axes
Dernier point, et non des moindres, il nous faut comprendre le positionnement relatif des groupes, c'est-Ă -dire expliquer Ă lâaide de variables initiales lâappartenance aux catĂ©gories.
Pour cela, Ă lâinstar des techniques factorielles telles que lâanalyse en composantes principales (ACP) -- lâanalyse factorielle discriminante peut ĂȘtre vue comme un cas particulier de lâACP dâailleurs -- les logiciels fournissent la matrice de corrĂ©lation. Ă la diffĂ©rence de lâACP, trois types de corrĂ©lations peuvent ĂȘtre produits : la corrĂ©lation globale entre les axes et les variables initiales ; la corrĂ©lation intra-classes, calculĂ©e Ă lâintĂ©rieur des groupes ; la corrĂ©lation inter-classes calculĂ©e Ă partir des centres de gravitĂ© des groupes pondĂ©rĂ©s par leurs frĂ©quences.
Dans lâexemple IRIS, si nous nous en tenons au premier axe, nous obtenons les corrĂ©lations suivantes.
Variables | Total | Intra-groupes | Inter-groupes |
---|---|---|---|
Sep Length | 0.792 | 0.222 | 0.992 |
Sep Width | -0.523 | -0.116 | -0.822 |
Pet Length | 0.985 | 0.705 | 1.000 |
Pet Width | 0.973 | 0.632 | 0.994 |
La corrĂ©lation inter-classes qui traduit le positionnement des groupes sur les axes indique ici que les Virginica ont plutĂŽt des longueurs de sĂ©pales, des longueurs et des largeurs de pĂ©tales importantes. Les Setosa possĂšdent Ă lâinverse des longueurs de sĂ©pales, des longueurs et des largeurs de pĂ©tales rĂ©duites. Les Versicolor occupent une position intermĂ©diaire.
La lecture est inversée concernant la largeur des sépales.
Notes et références
Bibliographie
- M. Bardos, Analyse Discriminante - Application au risque et scoring financier, Dunod, 2001.
- Gilbert Saporta, ProbabilitĂ©s, Analyse des donnĂ©es et Statistiques, Paris, Ăditions Technip, , 622 p. [dĂ©tail des Ă©ditions] (ISBN 978-2-7108-0814-5, prĂ©sentation en ligne)
- L. Lebart, A. Morineau, M. Piron, Statistique Exploratoire Multidimensionnelle, Dunod, 2000.
- M. Tenenhaus, MĂ©thodes Statistiques en Gestion, Dunod, 1996.
- Michel Volle, Analyse des données, Economica, 4e édition, 1997, (ISBN 2-7178-3212-2)