AccueilđŸ‡«đŸ‡·Chercher

Analyse discriminante linéaire

En statistique, l’analyse discriminante linĂ©aire ou ADL (en anglais, linear discriminant analysis ou LDA) fait partie des techniques d’analyse discriminante prĂ©dictive. Il s’agit d’expliquer et de prĂ©dire l’appartenance d’un individu Ă  une classe (groupe) prĂ©dĂ©finie Ă  partir de ses caractĂ©ristiques mesurĂ©es Ă  l’aide de variables prĂ©dictives.

Dans l’exemple de l'article Analyse discriminante, le fichier Flea Beetles, l’objectif est de dĂ©terminer l’appartenance de puces Ă  telle ou telle espĂšce Ă  partir de la largeur et de l’angle de son Ă©dĂ©age (partie des organes gĂ©nitaux mĂąles de l'insecte.)

La variable à prédire est forcément catégorielle (discrÚte), elle possÚde 3 modalités dans notre exemple. Les variables prédictives sont a priori toutes continues. Il est néanmoins possible de traiter les variables prédictives discrÚtes moyennant une préparation adéquate des données.

L’analyse discriminante linĂ©aire peut ĂȘtre comparĂ©e aux mĂ©thodes supervisĂ©es dĂ©veloppĂ©es en apprentissage automatique et Ă  la rĂ©gression logistique dĂ©veloppĂ©e en statistique.

HypothĂšses et Formules

Nous disposons d’un Ă©chantillon de observations rĂ©parties dans groupes d’effectifs .

Notons la variable Ă  prĂ©dire, elle prend ses valeurs dans l’ensemble des classes. Nous disposons de variables prĂ©dictives .

Nous notons les centres de gravité des nuages de points conditionnels et leurs matrice de variance-covariance.

La rĂšgle bayesienne

L’objectif est de produire une rĂšgle d’affectation qui permet de prĂ©dire, pour une observation donnĂ©e, sa valeur associĂ©e de Y Ă  partir des valeurs prises par X.

La rĂšgle bayesienne consiste Ă  produire une estimation de la probabilitĂ© a posteriori d’affectation

est la probabilitĂ© a priori d’appartenance Ă  une classe. reprĂ©sente la fonction de densitĂ© des X conditionnellement Ă  la classe .

La rĂšgle d’affectation pour un individu Ă  classer devient alors . Toute la problĂ©matique de l’analyse discriminante revient alors Ă  proposer une estimation de la quantitĂ©

L'analyse discriminante paramétrique - L'hypothÚse de multinormalité

On distingue principalement deux approches pour estimer correctement la distribution :

  • L’approche non-paramĂ©trique n’effectue aucune hypothĂšse sur cette distribution mais propose une procĂ©dure d’estimation locale des probabilitĂ©s, au voisinage de l’observation Ă  classer. Les procĂ©dures les plus connues sont la mĂ©thode d'estimation par noyau et la mĂ©thode des plus proches voisins. La principale difficultĂ© est de dĂ©finir de maniĂšre adĂ©quate le voisinage.
  • La seconde approche effectue une hypothĂšse sur la distribution des nuages de points conditionnels, on parle dans ce cas d’analyse discriminante paramĂ©trique. L’hypothĂšse la plus communĂ©ment utilisĂ©e est sans aucun doute l’hypothĂšse de multinormalitĂ© (voir loi normale).


Dans le cas de la loi normale multidimensionnelle, la distribution des nuages de points conditionnels s’écrit :

oĂč reprĂ©sente le dĂ©terminant de la matrice de variance covariance conditionnellement Ă  .

L’objectif Ă©tant de dĂ©terminer le maximum de la probabilitĂ© a posteriori d’affectation, nous pouvons nĂ©gliger tout ce qui ne dĂ©pend pas de . En appliquant le logarithme Ă  la relation de Bayes, nous obtenons le score discriminant proportionnel Ă   :

La rùgle d’affectation devient donc .

Si l’on dĂ©veloppe complĂštement le score discriminant, nous constatons qu’il s’exprime en fonction du carrĂ© et du produit croisĂ© entre les variables prĂ©dictives. On parle alors d’analyse discriminante quadratique. TrĂšs utilisĂ©e en recherche car elle se comporte trĂšs bien, en matiĂšre de performances, par rapport aux autres mĂ©thodes, elle est moins rĂ©pandue auprĂšs des praticiens. En effet, l’expression du score discriminant Ă©tant assez complexe, il est difficile de discerner clairement le sens de la causalitĂ© entre les variables prĂ©dictives et la classe d’appartenance. Il est notamment malaisĂ© de distinguer les variables rĂ©ellement dĂ©terminantes dans le classement, l’interprĂ©tation des rĂ©sultats est assez pĂ©rilleuse.

L’analyse discriminante linĂ©aire – L’hypothĂšse d’homoscĂ©dasticitĂ©

Une seconde hypothĂšse permet de simplifier encore les calculs, c’est l’hypothĂšse d’homoscĂ©dasticitĂ© : les matrices de variances covariances sont identiques d’un groupe Ă  l’autre. GĂ©omĂ©triquement, cela veut dire que les nuages de points ont la mĂȘme forme (et volume) dans l’espace de reprĂ©sentation.

La matrice de variance covariance estimĂ©e est dans ce cas la matrice de variance covariance intra-classes calculĂ©e Ă  l’aide de l’expression suivante :

De nouveau, nous pouvons Ă©vacuer du score discriminant tout ce qui ne dĂ©pend plus de , il devient :

Fonction de classement linéaire

En dĂ©veloppant l’expression du score discriminant aprĂšs introduction de l’hypothĂšse d’homoscĂ©dasticitĂ©, on constate qu’elle s’exprime linĂ©airement par rapport aux variables prĂ©dictives.

Nous disposons donc d’autant de fonctions de classement que de modalitĂ©s de la variable Ă  prĂ©dire, ce sont des combinaisons linĂ©aires de la forme suivante :


Cette prĂ©sentation est sĂ©duisante Ă  plus d’un titre. Il est possible, en Ă©tudiant la valeur et le signe des coefficients, de dĂ©terminer le sens des causalitĂ©s dans le classement. De mĂȘme, il devient possible, comme nous le verrons plus loin, d’évaluer le rĂŽle significatif des variables dans la prĂ©diction.

Robustesse

Les hypothĂšses de multinormalitĂ© et d’homoscĂ©dasticitĂ© peuvent sembler trop contraignantes, restreignant la portĂ©e de l’analyse discriminante linĂ©aire dans la pratique.

La notion clĂ© qu’il faut retenir en statistique est la notion de robustesse. MĂȘme si les hypothĂšses de dĂ©part ne sont pas trop respectĂ©es, une mĂ©thode peut quand mĂȘme s’appliquer. C’est le cas de l’analyse discriminante linĂ©aire. Le plus important est de le considĂ©rer comme un sĂ©parateur linĂ©aire. Dans ce cas, si les nuages de points sont sĂ©parables linĂ©airement dans l’espace de reprĂ©sentation, elle peut fonctionner correctement.

Par rapport aux autres techniques linĂ©aires telles que la rĂ©gression logistique, l’analyse discriminante prĂ©sente des performances comparables. Elle peut ĂȘtre lĂ©sĂ©e nĂ©anmoins lorsque l’hypothĂšse d’homoscĂ©dasticitĂ© est trĂšs fortement violĂ©e.

Évaluation

Taux d’erreur

De maniĂšre classique en apprentissage supervisĂ©, pour Ă©valuer les performances d'une fonction de classement, nous confrontons ses prĂ©dictions avec les vraies valeurs de la variable Ă  prĂ©dire sur un fichier de donnĂ©es. Le tableau croisĂ© qui en rĂ©sulte s’appelle une matrice de confusion avec : en ligne les vraies classes d’appartenance, en colonne les classes d’appartenance prĂ©dites. Le taux d’erreur ou taux de mauvais classement est tout simplement le nombre de mauvais classement, lorsque la prĂ©diction ne coĂŻncide pas avec la vraie valeur, rapportĂ© Ă  l’effectif du fichier de donnĂ©es.

Le taux d’erreur a de sĂ©duisant qu’il est d’interprĂ©tation aisĂ©e, il s’agit d’un estimateur de la probabilitĂ© de se tromper si l’on applique la fonction de classement dans la population.

Attention cependant, on parle de taux biaisĂ© ou taux d'erreur en rĂ©substitution, le taux d’erreur mesurĂ© sur les donnĂ©es qui ont servi Ă  construire la fonction de classement. Tout simplement parce que les donnĂ©es sont juges et parties dans ce schĂ©ma. La bonne procĂ©dure serait de construire la fonction de classement sur une fraction des donnĂ©es, dites d'apprentissage ; puis de l’évaluer sur une autre fraction de donnĂ©es, dite de test. Le taux d’erreur en test ainsi mesurĂ© est un indicateur digne de foi.

La pratique veut que la rĂ©partition des donnĂ©es en apprentissage et test soit de 2/3 – 1/3. Mais en rĂ©alitĂ©, il n’y a pas de rĂšgle vĂ©ritable. Le plus important est de concilier deux exigences contradictoires : en avoir suffisamment en test pour obtenir une estimation stable de l’erreur, tout en rĂ©servant suffisamment en apprentissage pour ne pas pĂ©naliser la mĂ©thode d’apprentissage.

Lorsque les effectifs sont faibles, et que le partage apprentissage-test des donnĂ©es n’est pas possible, il existe des mĂ©thodes de rĂ©-Ă©chantillonnage telles que la validation croisĂ©e ou le bootstrap pour Ă©valuer l’erreur de classement.

SĂ©parabilitĂ© - Évaluation globale

Le taux d’erreur permet d’évaluer et de comparer des mĂ©thodes, quelles que soient leurs hypothĂšses sous-jacentes. Dans le cas de l’analyse discriminante linĂ©aire, nous pouvons exploiter le modĂšle probabiliste pour rĂ©aliser des tests d’hypothĂšses.

Un premier test permet de rĂ©pondre Ă  la question suivante : est-il possible de discerner les nuages de points dans l’espace de reprĂ©sentation. RapportĂ© dans le cadre multinormal, cela revient Ă  vĂ©rifier si les centres de gravitĂ© conditionnels sont confondus (hypothĂšse nulle) ou si un au moins de ces centres de gravitĂ© s’écarte significativement des autres (hypothĂšse alternative).

La statistique du test est le de Wilks, son expression est la suivante :

oĂč reprĂ©sente le dĂ©terminant de la matrice de variance covariance intra-classes, le dĂ©terminant de la matrice de variance covariance globale.

La table des valeurs critiques de la loi de Wilks étant rarement disponible dans les logiciels, on utilise couramment les transformations de Bartlett et de Rao qui suivent respectivement une loi du KHI-2 et de Fisher.


Avec un prisme diffĂ©rent, nous constatons que ce test peut s’exprimer comme une gĂ©nĂ©ralisation multidimensionnelle de l’analyse de variance Ă  un facteur (ANOVA), on parle dans ce cas de MANOVA (Multidimensional Analysis of Variance).

Évaluation individuelle des variables prĂ©dictives

Comme dans toutes les mĂ©thodes linĂ©aires, il est possible d’évaluer individuellement chaque variable prĂ©dictive, et Ă©ventuellement d’éliminer celles qui ne sont pas significatives dans la discrimination.

La statistique du test s’appuie sur la variation du Lambda de Wilks lors de l'adjonction de la (J+1)-iĂšme variable dans le modĂšle de prĂ©diction. Sa formule est la suivante :

Elle suit une loi de Fisher à degrés de liberté.

Un exemple

Lecture des résultats

Une analyse discriminante linéaire a été lancée sur les Flea Beetles décrites dans l'article analyse discriminante. Les résultats sont les suivants.



  • La matrice de confusion indique qu'une seule erreur a Ă©tĂ© commise, un « Concinna » a Ă©tĂ© classĂ© en « Heikertingeri ». Le taux d'erreur associĂ© est de 1,35 %. Ce rĂ©sultat est Ă  relativiser, il a Ă©tĂ© Ă©tabli sur les donnĂ©es ayant servi Ă  l'apprentissage.
  • Les centres de gravitĂ© des trois nuages de points s'Ă©cartent significativement. C'est ce que nous indique la statistique de Wilks dans la section MANOVA. Les probabilitĂ©s critiques associĂ©es, transformation de Bartlett et de Rao, sont proches de 0. Ce rĂ©sultat numĂ©rique confirme l'impression visuelle laissĂ©e par la projection des nuages de points dans l'espace de reprĂ©sentation (voir Analyse discriminante).
  • La variable Ă  prĂ©dire comportant 3 modalitĂ©s, nous obtenons 3 fonctions de classement linĂ©aires. L'Ă©valuation individuelle des variables dans la discrimination indique qu'elles sont toutes les deux trĂšs significatives (p-value proches de 0).

Déploiement

Pour classer une nouvelle observation avec les coordonnées (Width = 150 et Angle = 15), nous appliquons les fonctions de la maniÚre suivante.

  • Con :
  • Hei :
  • Hep :

Sur la base de ces calculs, nous affectons à cette observation la classe « Concinna ».

Voir aussi

Analyse en composantes principales

Références

  • M. Bardos, Analyse discriminante - Application au risque et scoring financier, Dunod, 2001.
  • G. Celeux, J.-P. Nakache, Analyse discriminante sur variables qualitatives, Polytechnica, 1994.
Cet article est issu de wikipedia. Text licence: CC BY-SA 4.0, Des conditions supplĂ©mentaires peuvent s’appliquer aux fichiers multimĂ©dias.