AccueilđŸ‡«đŸ‡·Chercher

RĂ©gression (statistiques)

En mathĂ©matiques, la rĂ©gression recouvre plusieurs mĂ©thodes d’analyse statistique permettant d’approcher une variable Ă  partir d’autres qui lui sont corrĂ©lĂ©es. Par extension, le terme est aussi utilisĂ© pour certaines mĂ©thodes d’ajustement de courbe.

RĂ©gression
Type
Méthode statistique (d), analyse des données
Inventeur
Nommé en référence à
Regression Towards Mediocrity in Hereditary Stature (d)
Aspect de

En apprentissage automatique, on distingue les problĂšmes de rĂ©gression des problĂšmes de classification. Ainsi, on considĂšre que les problĂšmes de prĂ©diction d'une variable quantitative sont des problĂšmes de rĂ©gression tandis que les problĂšmes de prĂ©diction d'une variable qualitative sont des problĂšmes de classification. Certaines mĂ©thodes, comme la rĂ©gression logistique, sont Ă  la fois des mĂ©thodes de rĂ©gression au sens oĂč il s'agit de prĂ©dire la probabilitĂ© d'appartenir Ă  chacune des classes et des mĂ©thodes de classification[1].

Histoire

Le terme provient de la rĂ©gression vers la moyenne observĂ©e par Francis Galton au XIXe siĂšcle : les enfants de personnes de grande taille avaient eux-mĂȘmes une taille supĂ©rieure Ă  celle de la population en moyenne, mais infĂ©rieure Ă  celle de leurs parents (toujours en moyenne), sans que la dispersion de taille au sein de la population totale soit rĂ©duite pour autant[2] - [3]. Les techniques dĂ©veloppĂ©es pour quantifier ce phĂ©nomĂšne ont engendrĂ© des outils de mesure prĂ©cieux dans tous les champs d’application des statistiques.

Contexte

On considĂšre une population d’individus (ĂȘtres humains, animaux, pays, biens de consommation
) qui peuvent ĂȘtre dĂ©crits selon plusieurs critĂšres appelĂ©s variables. Il peut s’agir de variables quantitatives (grandeurs numĂ©riques telles que la taille, l’ñge, le prix, un pourcentage
) ou qualitatives (sexe, catĂ©gorie socio-professionnelle, saison, type de produit
)

Certaines variables peuvent ĂȘtre plus difficiles Ă  mesurer que d’autres, pour des raisons techniques, des raisons d’accĂšs (donnĂ©es publiques contre donnĂ©es privĂ©es), ou encore du fait d’un dĂ©lai important entre la mise en place d’une expĂ©rience et son aboutissement. Il arrive donc que l’on souhaite estimer ces variables (dites expliquĂ©es) Ă  partir des donnĂ©es plus faciles Ă  obtenir (dites explicatives). On trouve aussi parfois les appellations variables dĂ©pendantes et indĂ©pendantes, mais elles prĂ©sentent des risques de confusion avec la notion d’indĂ©pendance en probabilitĂ©s, or les variables explicatives ne sont pas forcĂ©ment mutuellement indĂ©pendantes[4].

La construction de la rĂ©gression repose d’une part sur une modĂ©lisation des variables statistiques par des variables alĂ©atoires (rĂ©elles ou non), d’autre part sur un recueil de donnĂ©es croisĂ©es, c’est-Ă -dire que pour un mĂȘme Ă©chantillon de population, on dispose d’observations des diffĂ©rentes variables mesurĂ©es avec une imprĂ©cision Ă©ventuelle.

La rĂ©gression consiste alors Ă  formuler un indicateur sur les valeurs de la variable expliquĂ©e dĂ©pendant uniquement des valeurs des variables explicatives. Cet indicateur pourra ensuite ĂȘtre utilisĂ© sur une population pour laquelle on ne connait que les valeurs des variables explicatives, afin d’estimer les valeurs de la variable expliquĂ©e.

Principe général

On distingue essentiellement deux cas selon la nature de la variable expliquĂ©e, reprĂ©sentĂ©e ici par une variable alĂ©atoire Y. Les variables explicatives seront notĂ©es X1, 
 , Xn. Si certaines d’entre elles sont qualitatives, il est parfois judicieux de vectoriser leurs modalitĂ©s[5] en distinguant une modalitĂ© de rĂ©fĂ©rence reprĂ©sentĂ©e par le vecteur nul, et en reprĂ©sentant les autres modalitĂ©s par les vecteurs de base d’un espace euclidien. Sous certaines conditions, on peut aussi quantifier les modalitĂ©s de ces variables.

Cas quantitatif

Pour une variable expliquĂ©e quantitative, c’est-Ă -dire lorsque Y est une variable alĂ©atoire rĂ©elle, la fonction de rĂ©gression est dĂ©finie par un indicateur de la loi de Y conditionnellement aux valeurs des autres variables. Il s’agit le plus souvent de l’espĂ©rance conditionnelle[6] , mais on peut aussi considĂ©rer d’autres indicateurs de distribution conditionnelle comme la mĂ©diane ou d’autres quantiles, le mode, la variance[7]...

C’est donc une fonction numĂ©rique, dont les arguments sont des valeurs possibles des variables explicatives. Il est possible d’étendre cette dĂ©finition au cas oĂč certaines variables explicatives admettent une fonction de densitĂ©[8] conjointe avec la variable expliquĂ©e.

Cependant, la dĂ©finition probabiliste ne suffit pas en gĂ©nĂ©ral pour dĂ©crire la construction de l’indicateur Ă  partir d’un jeu de donnĂ©es statistiques. En effet, les observations ne fournissent pas toujours toutes les combinaisons de modalitĂ©s dans le cas de variables explicatives discrĂštes, et ne peuvent ĂȘtre exhaustives dans le cas de variables explicatives continues. La rĂ©gression s’appuie alors sur un modĂšle de fonction avec un ou plusieurs paramĂštres, par exemple une fonction affine dans le cas de la rĂ©gression linĂ©aire ou multilinĂ©aire. Mais d’autres modĂšles sont possibles.

On parle de modĂšle linĂ©aire lorsque les paramĂštres apparaissent comme les coefficients d’une combinaison linĂ©aire de fonctions de rĂ©fĂ©rence, comme dans le cas de la rĂ©gression polynomiale ou pour des fonctions puissances ou exponentielles, quitte Ă  passer par un changement de variable[9]
 Mais certains modĂšles ne sont pas rĂ©ductibles Ă  un modĂšle linĂ©aire et leur Ă©valuation peut nĂ©cessiter des algorithmes spĂ©cifiques, voire recourir Ă  une estimation non paramĂ©trique[10].

Cas qualitatif

Pour une variable expliquĂ©e qualitative, la rĂ©gression s’apparente aux problĂšmes de classification, au sens oĂč l’on cherche Ă  dĂ©terminer une modalitĂ© Ă  partir des valeurs des autres variables.

La fonction de rĂ©gression correspond dans ce cas Ă  un partage de l’espace des valeurs des variables explicatives, par des mĂ©thodes gĂ©omĂ©triques ou par rĂ©gression logistique.

Qualité de la régression

La variable expliquĂ©e ne s’identifie Ă  la fonction de rĂ©gression que dans le cas particulier d’une dĂ©pendance fonctionnelle. Dans le cas gĂ©nĂ©ral, on peut interprĂ©ter la diffĂ©rence[11] comme une erreur alĂ©atoire, souvent notĂ©e avec la lettre grecque Δ (epsilon) : .

Si la fonction de rĂ©gression est dĂ©finie par l’espĂ©rance conditionnelle, le thĂ©orĂšme de l'espĂ©rance totale assure alors que l’erreur est centrĂ©e. Le thĂ©orĂšme de la variance totale donne l’égalitĂ© , ce qui permet de montrer que le rapport de corrĂ©lation dĂ©fini par est infĂ©rieur Ă  1, et d’autant plus proche de 1 que la variance de Y conditionnellement Ă  X est faible en moyenne, ce qui en fait un bon indicateur de la qualitĂ© de la rĂ©gression. Inversement, lorsque le rapport de corrĂ©lation est proche de 0, cela signifie que la fonction de rĂ©gression est pratiquement constante, donc que les variables explicatives apportent peu d’information sur l’espĂ©rance de la variable expliquĂ©e.

Le cas particulier d’une fonction de rĂ©gression affine (avec une seule variable X) correspond Ă  l’égalitĂ© entre le rapport de corrĂ©lation et le coefficient de corrĂ©lation linĂ©aire .

Principaux modÚles de régression

Le modÚle de régression le plus connu est le modÚle de régression linéaire.

Lorsque le modÚle n'est pas linéaire, on peut effectuer une régression approchée par des algorithmes itératifs, on parle de régression non linéaire.

Si on s'intéresse au quantile conditionnel de la distribution de la variable aléatoire sachant le vecteur de variables aléatoires , on utilise un modÚle de régression quantile[12] - [13].

Si la variable expliquée est une variable aléatoire binomiale, il est courant d'utiliser une régression logistique ou un modÚle probit.

Si la forme fonctionnelle de la régression est inconnue, on peut utiliser un modÚle de régression non paramétrique.

Voir aussi

Références

  1. James et al. 2013, p. 28
  2. (en) Robert G. Mogull, Second-Semester Applied Statistics, Kendall/Hunt Publishing Company, (ISBN 0-7575-1181-3), p. 59
  3. Galton 1989
  4. Saporta 2011, p. 407
  5. Saporta 2011, §18.4 Discrimination sur variables quantitatives, p. 461
  6. Saporta 2011, p. 72
  7. Manski 1991
  8. Saporta 2011, §3.2 Extension à des variables quelconques, p. 77
  9. Saporta et 2011 p.389, §16.2 Ajustement sur des données
  10. Saporta 2011, §16.6 Régression non paramétrique, p. 404
  11. Dans certains cas, il est préférable de relier la variable expliquée avec la fonction de régression par un facteur multiplicatif, ce qui se ramÚne au cas additif par composition avec une fonction logarithme.
  12. (en) Roger Koenker et G. Bassett, « Regression quantiles », Econometrica,‎ , p. 33-50
  13. (en) Roger Koenker, Quantile Regression, Cambridge University Press,

Bibliographie

Cet article est issu de wikipedia. Text licence: CC BY-SA 4.0, Des conditions supplĂ©mentaires peuvent s’appliquer aux fichiers multimĂ©dias.