AccueilđŸ‡«đŸ‡·Chercher

Analyse discriminante linéaire

En statistique, l’analyse discriminante linĂ©aire ou ADL (en anglais, linear discriminant analysis ou LDA) fait partie des techniques d’analyse discriminante prĂ©dictive. Il s’agit d’expliquer et de prĂ©dire l’appartenance d’un individu Ă  une classe (groupe) prĂ©dĂ©finie Ă  partir de ses caractĂ©ristiques mesurĂ©es Ă  l’aide de variables prĂ©dictives.

Dans l’exemple de l'article Analyse discriminante, le fichier Flea Beetles, l’objectif est de dĂ©terminer l’appartenance de puces Ă  telle ou telle espĂšce Ă  partir de la largeur et de l’angle de son Ă©dĂ©age (partie des organes gĂ©nitaux mĂąles de l'insecte.)

La variable à prédire est forcément catégorielle (discrÚte), elle possÚde 3 modalités dans notre exemple. Les variables prédictives sont a priori toutes continues. Il est néanmoins possible de traiter les variables prédictives discrÚtes moyennant une préparation adéquate des données.

L’analyse discriminante linĂ©aire peut ĂȘtre comparĂ©e aux mĂ©thodes supervisĂ©es dĂ©veloppĂ©es en apprentissage automatique et Ă  la rĂ©gression logistique dĂ©veloppĂ©e en statistique.

HypothĂšses et Formules

Nous disposons d’un Ă©chantillon de observations rĂ©parties dans groupes d’effectifs .

Notons la variable Ă  prĂ©dire, elle prend ses valeurs dans l’ensemble des classes. Nous disposons de variables prĂ©dictives .

Nous notons les centres de gravité des nuages de points conditionnels et leurs matrice de variance-covariance.

La rĂšgle bayesienne

L’objectif est de produire une rĂšgle d’affectation qui permet de prĂ©dire, pour une observation donnĂ©e, sa valeur associĂ©e de Y Ă  partir des valeurs prises par X.

La rĂšgle bayesienne consiste Ă  produire une estimation de la probabilitĂ© a posteriori d’affectation

est la probabilitĂ© a priori d’appartenance Ă  une classe. reprĂ©sente la fonction de densitĂ© des X conditionnellement Ă  la classe .

La rĂšgle d’affectation pour un individu Ă  classer devient alors . Toute la problĂ©matique de l’analyse discriminante revient alors Ă  proposer une estimation de la quantitĂ©

L'analyse discriminante paramétrique - L'hypothÚse de multinormalité

On distingue principalement deux approches pour estimer correctement la distribution :

  • L’approche non-paramĂ©trique n’effectue aucune hypothĂšse sur cette distribution mais propose une procĂ©dure d’estimation locale des probabilitĂ©s, au voisinage de l’observation Ă  classer. Les procĂ©dures les plus connues sont la mĂ©thode d'estimation par noyau et la mĂ©thode des plus proches voisins. La principale difficultĂ© est de dĂ©finir de maniĂšre adĂ©quate le voisinage.
  • La seconde approche effectue une hypothĂšse sur la distribution des nuages de points conditionnels, on parle dans ce cas d’analyse discriminante paramĂ©trique. L’hypothĂšse la plus communĂ©ment utilisĂ©e est sans aucun doute l’hypothĂšse de multinormalitĂ© (voir loi normale).


Dans le cas de la loi normale multidimensionnelle, la distribution des nuages de points conditionnels s’écrit :

oĂč reprĂ©sente le dĂ©terminant de la matrice de variance covariance conditionnellement Ă  .

L’objectif Ă©tant de dĂ©terminer le maximum de la probabilitĂ© a posteriori d’affectation, nous pouvons nĂ©gliger tout ce qui ne dĂ©pend pas de . En appliquant le logarithme Ă  la relation de Bayes, nous obtenons le score discriminant proportionnel Ă   :

La rùgle d’affectation devient donc .

Si l’on dĂ©veloppe complĂštement le score discriminant, nous constatons qu’il s’exprime en fonction du carrĂ© et du produit croisĂ© entre les variables prĂ©dictives. On parle alors d’analyse discriminante quadratique. TrĂšs utilisĂ©e en recherche car elle se comporte trĂšs bien, en matiĂšre de performances, par rapport aux autres mĂ©thodes, elle est moins rĂ©pandue auprĂšs des praticiens. En effet, l’expression du score discriminant Ă©tant assez complexe, il est difficile de discerner clairement le sens de la causalitĂ© entre les variables prĂ©dictives et la classe d’appartenance. Il est notamment malaisĂ© de distinguer les variables rĂ©ellement dĂ©terminantes dans le classement, l’interprĂ©tation des rĂ©sultats est assez pĂ©rilleuse.

L’analyse discriminante linĂ©aire – L’hypothĂšse d’homoscĂ©dasticitĂ©

Une seconde hypothĂšse permet de simplifier encore les calculs, c’est l’hypothĂšse d’homoscĂ©dasticitĂ© : les matrices de variances covariances sont identiques d’un groupe Ă  l’autre. GĂ©omĂ©triquement, cela veut dire que les nuages de points ont la mĂȘme forme (et volume) dans l’espace de reprĂ©sentation.

La matrice de variance covariance estimĂ©e est dans ce cas la matrice de variance covariance intra-classes calculĂ©e Ă  l’aide de l’expression suivante :

De nouveau, nous pouvons Ă©vacuer du score discriminant tout ce qui ne dĂ©pend plus de , il devient :

Fonction de classement linéaire

En dĂ©veloppant l’expression du score discriminant aprĂšs introduction de l’hypothĂšse d’homoscĂ©dasticitĂ©, on constate qu’elle s’exprime linĂ©airement par rapport aux variables prĂ©dictives.

Nous disposons donc d’autant de fonctions de classement que de modalitĂ©s de la variable Ă  prĂ©dire, ce sont des combinaisons linĂ©aires de la forme suivante :


Cette prĂ©sentation est sĂ©duisante Ă  plus d’un titre. Il est possible, en Ă©tudiant la valeur et le signe des coefficients, de dĂ©terminer le sens des causalitĂ©s dans le classement. De mĂȘme, il devient possible, comme nous le verrons plus loin, d’évaluer le rĂŽle significatif des variables dans la prĂ©diction.

Robustesse

Les hypothĂšses de multinormalitĂ© et d’homoscĂ©dasticitĂ© peuvent sembler trop contraignantes, restreignant la portĂ©e de l’analyse discriminante linĂ©aire dans la pratique.

La notion clĂ© qu’il faut retenir en statistique est la notion de robustesse. MĂȘme si les hypothĂšses de dĂ©part ne sont pas trop respectĂ©es, une mĂ©thode peut quand mĂȘme s’appliquer. C’est le cas de l’analyse discriminante linĂ©aire. Le plus important est de le considĂ©rer comme un sĂ©parateur linĂ©aire. Dans ce cas, si les nuages de points sont sĂ©parables linĂ©airement dans l’espace de reprĂ©sentation, elle peut fonctionner correctement.

Par rapport aux autres techniques linĂ©aires telles que la rĂ©gression logistique, l’analyse discriminante prĂ©sente des performances comparables. Elle peut ĂȘtre lĂ©sĂ©e nĂ©anmoins lorsque l’hypothĂšse d’homoscĂ©dasticitĂ© est trĂšs fortement violĂ©e.

Évaluation

Taux d’erreur

De maniĂšre classique en apprentissage supervisĂ©, pour Ă©valuer les performances d'une fonction de classement, nous confrontons ses prĂ©dictions avec les vraies valeurs de la variable Ă  prĂ©dire sur un fichier de donnĂ©es. Le tableau croisĂ© qui en rĂ©sulte s’appelle une matrice de confusion avec : en ligne les vraies classes d’appartenance, en colonne les classes d’appartenance prĂ©dites. Le taux d’erreur ou taux de mauvais classement est tout simplement le nombre de mauvais classement, lorsque la prĂ©diction ne coĂŻncide pas avec la vraie valeur, rapportĂ© Ă  l’effectif du fichier de donnĂ©es.

Le taux d’erreur a de sĂ©duisant qu’il est d’interprĂ©tation aisĂ©e, il s’agit d’un estimateur de la probabilitĂ© de se tromper si l’on applique la fonction de classement dans la population.

Attention cependant, on parle de taux biaisĂ© ou taux d'erreur en rĂ©substitution, le taux d’erreur mesurĂ© sur les donnĂ©es qui ont servi Ă  construire la fonction de classement. Tout simplement parce que les donnĂ©es sont juges et parties dans ce schĂ©ma. La bonne procĂ©dure serait de construire la fonction de classement sur une fraction des donnĂ©es, dites d'apprentissage ; puis de l’évaluer sur une autre fraction de donnĂ©es, dite de test. Le taux d’erreur en test ainsi mesurĂ© est un indicateur digne de foi.

La pratique veut que la rĂ©partition des donnĂ©es en apprentissage et test soit de 2/3 – 1/3. Mais en rĂ©alitĂ©, il n’y a pas de rĂšgle vĂ©ritable. Le plus important est de concilier deux exigences contradictoires : en avoir suffisamment en test pour obtenir une estimation stable de l’erreur, tout en rĂ©servant suffisamment en apprentissage pour ne pas pĂ©naliser la mĂ©thode d’apprentissage.

Lorsque les effectifs sont faibles, et que le partage apprentissage-test des donnĂ©es n’est pas possible, il existe des mĂ©thodes de rĂ©-Ă©chantillonnage telles que la validation croisĂ©e ou le bootstrap pour Ă©valuer l’erreur de classement.

SĂ©parabilitĂ© - Évaluation globale

Le taux d’erreur permet d’évaluer et de comparer des mĂ©thodes, quelles que soient leurs hypothĂšses sous-jacentes. Dans le cas de l’analyse discriminante linĂ©aire, nous pouvons exploiter le modĂšle probabiliste pour rĂ©aliser des tests d’hypothĂšses.

Un premier test permet de rĂ©pondre Ă  la question suivante : est-il possible de discerner les nuages de points dans l’espace de reprĂ©sentation. RapportĂ© dans le cadre multinormal, cela revient Ă  vĂ©rifier si les centres de gravitĂ© conditionnels sont confondus (hypothĂšse nulle) ou si un au moins de ces centres de gravitĂ© s’écarte significativement des autres (hypothĂšse alternative).

La statistique du test est le de Wilks, son expression est la suivante :

oĂč reprĂ©sente le dĂ©terminant de la matrice de variance covariance intra-classes, le dĂ©terminant de la matrice de variance covariance globale.

La table des valeurs critiques de la loi de Wilks Ă©tant rarement disponible dans les logiciels, on utilise couramment les transformations de Bartlett et de Rao qui suivent respectivement une loi du KHI-2 et de Fisher.


Avec un prisme diffĂ©rent, nous constatons que ce test peut s’exprimer comme une gĂ©nĂ©ralisation multidimensionnelle de l’analyse de variance Ă  un facteur (ANOVA), on parle dans ce cas de MANOVA (Multidimensional Analysis of Variance).

Évaluation individuelle des variables prĂ©dictives

Comme dans toutes les mĂ©thodes linĂ©aires, il est possible d’évaluer individuellement chaque variable prĂ©dictive, et Ă©ventuellement d’éliminer celles qui ne sont pas significatives dans la discrimination.

La statistique du test s’appuie sur la variation du Lambda de Wilks lors de l'adjonction de la (J+1)-iĂšme variable dans le modĂšle de prĂ©diction. Sa formule est la suivante :

Elle suit une loi de Fisher à degrés de liberté.

Un exemple

Lecture des résultats

Une analyse discriminante linéaire a été lancée sur les Flea Beetles décrites dans l'article analyse discriminante. Les résultats sont les suivants.



  • La matrice de confusion indique qu'une seule erreur a Ă©tĂ© commise, un « Concinna » a Ă©tĂ© classĂ© en « Heikertingeri ». Le taux d'erreur associĂ© est de 1,35 %. Ce rĂ©sultat est Ă  relativiser, il a Ă©tĂ© Ă©tabli sur les donnĂ©es ayant servi Ă  l'apprentissage.
  • Les centres de gravitĂ© des trois nuages de points s'Ă©cartent significativement. C'est ce que nous indique la statistique de Wilks dans la section MANOVA. Les probabilitĂ©s critiques associĂ©es, transformation de Bartlett et de Rao, sont proches de 0. Ce rĂ©sultat numĂ©rique confirme l'impression visuelle laissĂ©e par la projection des nuages de points dans l'espace de reprĂ©sentation (voir Analyse discriminante).
  • La variable Ă  prĂ©dire comportant 3 modalitĂ©s, nous obtenons 3 fonctions de classement linĂ©aires. L'Ă©valuation individuelle des variables dans la discrimination indique qu'elles sont toutes les deux trĂšs significatives (p-value proches de 0).

DĂ©ploiement

Pour classer une nouvelle observation avec les coordonnées (Width = 150 et Angle = 15), nous appliquons les fonctions de la maniÚre suivante.

  • Con :
  • Hei :
  • Hep :

Sur la base de ces calculs, nous affectons à cette observation la classe « Concinna ».

Voir aussi

Analyse en composantes principales

Références

  • M. Bardos, Analyse discriminante - Application au risque et scoring financier, Dunod, 2001.
  • G. Celeux, J.-P. Nakache, Analyse discriminante sur variables qualitatives, Polytechnica, 1994.
Cet article est issu de wikipedia. Text licence: CC BY-SA 4.0, Des conditions supplĂ©mentaires peuvent s’appliquer aux fichiers multimĂ©dias.