Analyse discriminante linéaire
En statistique, lâanalyse discriminante linĂ©aire ou ADL (en anglais, linear discriminant analysis ou LDA) fait partie des techniques dâanalyse discriminante prĂ©dictive. Il sâagit dâexpliquer et de prĂ©dire lâappartenance dâun individu Ă une classe (groupe) prĂ©dĂ©finie Ă partir de ses caractĂ©ristiques mesurĂ©es Ă lâaide de variables prĂ©dictives.
Dans lâexemple de l'article Analyse discriminante, le fichier Flea Beetles, lâobjectif est de dĂ©terminer lâappartenance de puces Ă telle ou telle espĂšce Ă partir de la largeur et de lâangle de son Ă©dĂ©age (partie des organes gĂ©nitaux mĂąles de l'insecte.)
La variable à prédire est forcément catégorielle (discrÚte), elle possÚde 3 modalités dans notre exemple. Les variables prédictives sont a priori toutes continues. Il est néanmoins possible de traiter les variables prédictives discrÚtes moyennant une préparation adéquate des données.
Lâanalyse discriminante linĂ©aire peut ĂȘtre comparĂ©e aux mĂ©thodes supervisĂ©es dĂ©veloppĂ©es en apprentissage automatique et Ă la rĂ©gression logistique dĂ©veloppĂ©e en statistique.
HypothĂšses et Formules
Nous disposons dâun Ă©chantillon de observations rĂ©parties dans groupes dâeffectifs .
Notons la variable Ă prĂ©dire, elle prend ses valeurs dans lâensemble des classes. Nous disposons de variables prĂ©dictives .
Nous notons les centres de gravité des nuages de points conditionnels et leurs matrice de variance-covariance.
La rĂšgle bayesienne
Lâobjectif est de produire une rĂšgle dâaffectation qui permet de prĂ©dire, pour une observation donnĂ©e, sa valeur associĂ©e de Y Ă partir des valeurs prises par X.
La rĂšgle bayesienne consiste Ă produire une estimation de la probabilitĂ© a posteriori dâaffectation
est la probabilitĂ© a priori dâappartenance Ă une classe. reprĂ©sente la fonction de densitĂ© des X conditionnellement Ă la classe .
La rĂšgle dâaffectation pour un individu Ă classer devient alors . Toute la problĂ©matique de lâanalyse discriminante revient alors Ă proposer une estimation de la quantitĂ©
L'analyse discriminante paramétrique - L'hypothÚse de multinormalité
On distingue principalement deux approches pour estimer correctement la distribution :
- Lâapproche non-paramĂ©trique nâeffectue aucune hypothĂšse sur cette distribution mais propose une procĂ©dure dâestimation locale des probabilitĂ©s, au voisinage de lâobservation Ă classer. Les procĂ©dures les plus connues sont la mĂ©thode d'estimation par noyau et la mĂ©thode des plus proches voisins. La principale difficultĂ© est de dĂ©finir de maniĂšre adĂ©quate le voisinage.
- La seconde approche effectue une hypothĂšse sur la distribution des nuages de points conditionnels, on parle dans ce cas dâanalyse discriminante paramĂ©trique. LâhypothĂšse la plus communĂ©ment utilisĂ©e est sans aucun doute lâhypothĂšse de multinormalitĂ© (voir loi normale).
Dans le cas de la loi normale multidimensionnelle, la distribution des nuages de points conditionnels sâĂ©crit :
oĂč reprĂ©sente le dĂ©terminant de la matrice de variance covariance conditionnellement Ă .
Lâobjectif Ă©tant de dĂ©terminer le maximum de la probabilitĂ© a posteriori dâaffectation, nous pouvons nĂ©gliger tout ce qui ne dĂ©pend pas de . En appliquant le logarithme Ă la relation de Bayes, nous obtenons le score discriminant proportionnel Ă :
La rĂšgle dâaffectation devient donc .
Si lâon dĂ©veloppe complĂštement le score discriminant, nous constatons quâil sâexprime en fonction du carrĂ© et du produit croisĂ© entre les variables prĂ©dictives. On parle alors dâanalyse discriminante quadratique. TrĂšs utilisĂ©e en recherche car elle se comporte trĂšs bien, en matiĂšre de performances, par rapport aux autres mĂ©thodes, elle est moins rĂ©pandue auprĂšs des praticiens. En effet, lâexpression du score discriminant Ă©tant assez complexe, il est difficile de discerner clairement le sens de la causalitĂ© entre les variables prĂ©dictives et la classe dâappartenance. Il est notamment malaisĂ© de distinguer les variables rĂ©ellement dĂ©terminantes dans le classement, lâinterprĂ©tation des rĂ©sultats est assez pĂ©rilleuse.
Lâanalyse discriminante linĂ©aire â LâhypothĂšse dâhomoscĂ©dasticitĂ©
Une seconde hypothĂšse permet de simplifier encore les calculs, câest lâhypothĂšse dâhomoscĂ©dasticitĂ© : les matrices de variances covariances sont identiques dâun groupe Ă lâautre. GĂ©omĂ©triquement, cela veut dire que les nuages de points ont la mĂȘme forme (et volume) dans lâespace de reprĂ©sentation.
La matrice de variance covariance estimĂ©e est dans ce cas la matrice de variance covariance intra-classes calculĂ©e Ă lâaide de lâexpression suivante :
De nouveau, nous pouvons évacuer du score discriminant tout ce qui ne dépend plus de , il devient :
Fonction de classement linéaire
En dĂ©veloppant lâexpression du score discriminant aprĂšs introduction de lâhypothĂšse dâhomoscĂ©dasticitĂ©, on constate quâelle sâexprime linĂ©airement par rapport aux variables prĂ©dictives.
Nous disposons donc dâautant de fonctions de classement que de modalitĂ©s de la variable Ă prĂ©dire, ce sont des combinaisons linĂ©aires de la forme suivante :
Cette prĂ©sentation est sĂ©duisante Ă plus dâun titre. Il est possible, en Ă©tudiant la valeur et le signe des coefficients, de dĂ©terminer le sens des causalitĂ©s dans le classement. De mĂȘme, il devient possible, comme nous le verrons plus loin, dâĂ©valuer le rĂŽle significatif des variables dans la prĂ©diction.
Robustesse
Les hypothĂšses de multinormalitĂ© et dâhomoscĂ©dasticitĂ© peuvent sembler trop contraignantes, restreignant la portĂ©e de lâanalyse discriminante linĂ©aire dans la pratique.
La notion clĂ© quâil faut retenir en statistique est la notion de robustesse. MĂȘme si les hypothĂšses de dĂ©part ne sont pas trop respectĂ©es, une mĂ©thode peut quand mĂȘme sâappliquer. Câest le cas de lâanalyse discriminante linĂ©aire. Le plus important est de le considĂ©rer comme un sĂ©parateur linĂ©aire. Dans ce cas, si les nuages de points sont sĂ©parables linĂ©airement dans lâespace de reprĂ©sentation, elle peut fonctionner correctement.
Par rapport aux autres techniques linĂ©aires telles que la rĂ©gression logistique, lâanalyse discriminante prĂ©sente des performances comparables. Elle peut ĂȘtre lĂ©sĂ©e nĂ©anmoins lorsque lâhypothĂšse dâhomoscĂ©dasticitĂ© est trĂšs fortement violĂ©e.
Ăvaluation
Taux dâerreur
De maniĂšre classique en apprentissage supervisĂ©, pour Ă©valuer les performances d'une fonction de classement, nous confrontons ses prĂ©dictions avec les vraies valeurs de la variable Ă prĂ©dire sur un fichier de donnĂ©es. Le tableau croisĂ© qui en rĂ©sulte sâappelle une matrice de confusion avec : en ligne les vraies classes dâappartenance, en colonne les classes dâappartenance prĂ©dites. Le taux dâerreur ou taux de mauvais classement est tout simplement le nombre de mauvais classement, lorsque la prĂ©diction ne coĂŻncide pas avec la vraie valeur, rapportĂ© Ă lâeffectif du fichier de donnĂ©es.
Le taux dâerreur a de sĂ©duisant quâil est dâinterprĂ©tation aisĂ©e, il sâagit dâun estimateur de la probabilitĂ© de se tromper si lâon applique la fonction de classement dans la population.
Attention cependant, on parle de taux biaisĂ© ou taux d'erreur en rĂ©substitution, le taux dâerreur mesurĂ© sur les donnĂ©es qui ont servi Ă construire la fonction de classement. Tout simplement parce que les donnĂ©es sont juges et parties dans ce schĂ©ma. La bonne procĂ©dure serait de construire la fonction de classement sur une fraction des donnĂ©es, dites d'apprentissage ; puis de lâĂ©valuer sur une autre fraction de donnĂ©es, dite de test. Le taux dâerreur en test ainsi mesurĂ© est un indicateur digne de foi.
La pratique veut que la rĂ©partition des donnĂ©es en apprentissage et test soit de 2/3 â 1/3. Mais en rĂ©alitĂ©, il nây a pas de rĂšgle vĂ©ritable. Le plus important est de concilier deux exigences contradictoires : en avoir suffisamment en test pour obtenir une estimation stable de lâerreur, tout en rĂ©servant suffisamment en apprentissage pour ne pas pĂ©naliser la mĂ©thode dâapprentissage.
Lorsque les effectifs sont faibles, et que le partage apprentissage-test des donnĂ©es nâest pas possible, il existe des mĂ©thodes de rĂ©-Ă©chantillonnage telles que la validation croisĂ©e ou le bootstrap pour Ă©valuer lâerreur de classement.
SĂ©parabilitĂ© - Ăvaluation globale
Le taux dâerreur permet dâĂ©valuer et de comparer des mĂ©thodes, quelles que soient leurs hypothĂšses sous-jacentes. Dans le cas de lâanalyse discriminante linĂ©aire, nous pouvons exploiter le modĂšle probabiliste pour rĂ©aliser des tests dâhypothĂšses.
Un premier test permet de rĂ©pondre Ă la question suivante : est-il possible de discerner les nuages de points dans lâespace de reprĂ©sentation. RapportĂ© dans le cadre multinormal, cela revient Ă vĂ©rifier si les centres de gravitĂ© conditionnels sont confondus (hypothĂšse nulle) ou si un au moins de ces centres de gravitĂ© sâĂ©carte significativement des autres (hypothĂšse alternative).
La statistique du test est le de Wilks, son expression est la suivante :
oĂč reprĂ©sente le dĂ©terminant de la matrice de variance covariance intra-classes, le dĂ©terminant de la matrice de variance covariance globale.
La table des valeurs critiques de la loi de Wilks Ă©tant rarement disponible dans les logiciels, on utilise couramment les transformations de Bartlett et de Rao qui suivent respectivement une loi du KHI-2 et de Fisher.
Avec un prisme diffĂ©rent, nous constatons que ce test peut sâexprimer comme une gĂ©nĂ©ralisation multidimensionnelle de lâanalyse de variance Ă un facteur (ANOVA), on parle dans ce cas de MANOVA (Multidimensional Analysis of Variance).
Ăvaluation individuelle des variables prĂ©dictives
Comme dans toutes les mĂ©thodes linĂ©aires, il est possible dâĂ©valuer individuellement chaque variable prĂ©dictive, et Ă©ventuellement dâĂ©liminer celles qui ne sont pas significatives dans la discrimination.
La statistique du test sâappuie sur la variation du Lambda de Wilks lors de l'adjonction de la (J+1)-iĂšme variable dans le modĂšle de prĂ©diction. Sa formule est la suivante :
Elle suit une loi de Fisher à degrés de liberté.
Un exemple
Lecture des résultats
Une analyse discriminante linéaire a été lancée sur les Flea Beetles décrites dans l'article analyse discriminante. Les résultats sont les suivants.
- La matrice de confusion indique qu'une seule erreur a été commise, un « Concinna » a été classé en « Heikertingeri ». Le taux d'erreur associé est de 1,35 %. Ce résultat est à relativiser, il a été établi sur les données ayant servi à l'apprentissage.
- Les centres de gravité des trois nuages de points s'écartent significativement. C'est ce que nous indique la statistique de Wilks dans la section MANOVA. Les probabilités critiques associées, transformation de Bartlett et de Rao, sont proches de 0. Ce résultat numérique confirme l'impression visuelle laissée par la projection des nuages de points dans l'espace de représentation (voir Analyse discriminante).
- La variable à prédire comportant 3 modalités, nous obtenons 3 fonctions de classement linéaires. L'évaluation individuelle des variables dans la discrimination indique qu'elles sont toutes les deux trÚs significatives (p-value proches de 0).
DĂ©ploiement
Pour classer une nouvelle observation avec les coordonnées (Width = 150 et Angle = 15), nous appliquons les fonctions de la maniÚre suivante.
- Con :
- Hei :
- Hep :
Sur la base de ces calculs, nous affectons à cette observation la classe « Concinna ».
Voir aussi
Références
- M. Bardos, Analyse discriminante - Application au risque et scoring financier, Dunod, 2001.
- G. Celeux, J.-P. Nakache, Analyse discriminante sur variables qualitatives, Polytechnica, 1994.