RĂ©gression (statistiques)
En mathĂ©matiques, la rĂ©gression recouvre plusieurs mĂ©thodes dâanalyse statistique permettant dâapprocher une variable Ă partir dâautres qui lui sont corrĂ©lĂ©es. Par extension, le terme est aussi utilisĂ© pour certaines mĂ©thodes dâajustement de courbe.
Type |
Méthode statistique (d), analyse des données |
---|---|
Inventeur | |
Nommé en référence à |
Regression Towards Mediocrity in Hereditary Stature (d) |
Aspect de |
En apprentissage automatique, on distingue les problĂšmes de rĂ©gression des problĂšmes de classification. Ainsi, on considĂšre que les problĂšmes de prĂ©diction d'une variable quantitative sont des problĂšmes de rĂ©gression tandis que les problĂšmes de prĂ©diction d'une variable qualitative sont des problĂšmes de classification. Certaines mĂ©thodes, comme la rĂ©gression logistique, sont Ă la fois des mĂ©thodes de rĂ©gression au sens oĂč il s'agit de prĂ©dire la probabilitĂ© d'appartenir Ă chacune des classes et des mĂ©thodes de classification[1].
Histoire
Le terme provient de la rĂ©gression vers la moyenne observĂ©e par Francis Galton au XIXe siĂšcle : les enfants de personnes de grande taille avaient eux-mĂȘmes une taille supĂ©rieure Ă celle de la population en moyenne, mais infĂ©rieure Ă celle de leurs parents (toujours en moyenne), sans que la dispersion de taille au sein de la population totale soit rĂ©duite pour autant[2] - [3]. Les techniques dĂ©veloppĂ©es pour quantifier ce phĂ©nomĂšne ont engendrĂ© des outils de mesure prĂ©cieux dans tous les champs dâapplication des statistiques.
Contexte
On considĂšre une population dâindividus (ĂȘtres humains, animaux, pays, biens de consommationâŠ) qui peuvent ĂȘtre dĂ©crits selon plusieurs critĂšres appelĂ©s variables. Il peut sâagir de variables quantitatives (grandeurs numĂ©riques telles que la taille, lâĂąge, le prix, un pourcentageâŠ) ou qualitatives (sexe, catĂ©gorie socio-professionnelle, saison, type de produitâŠ)
Certaines variables peuvent ĂȘtre plus difficiles Ă mesurer que dâautres, pour des raisons techniques, des raisons dâaccĂšs (donnĂ©es publiques contre donnĂ©es privĂ©es), ou encore du fait dâun dĂ©lai important entre la mise en place dâune expĂ©rience et son aboutissement. Il arrive donc que lâon souhaite estimer ces variables (dites expliquĂ©es) Ă partir des donnĂ©es plus faciles Ă obtenir (dites explicatives). On trouve aussi parfois les appellations variables dĂ©pendantes et indĂ©pendantes, mais elles prĂ©sentent des risques de confusion avec la notion dâindĂ©pendance en probabilitĂ©s, or les variables explicatives ne sont pas forcĂ©ment mutuellement indĂ©pendantes[4].
La construction de la rĂ©gression repose dâune part sur une modĂ©lisation des variables statistiques par des variables alĂ©atoires (rĂ©elles ou non), dâautre part sur un recueil de donnĂ©es croisĂ©es, câest-Ă -dire que pour un mĂȘme Ă©chantillon de population, on dispose dâobservations des diffĂ©rentes variables mesurĂ©es avec une imprĂ©cision Ă©ventuelle.
La rĂ©gression consiste alors Ă formuler un indicateur sur les valeurs de la variable expliquĂ©e dĂ©pendant uniquement des valeurs des variables explicatives. Cet indicateur pourra ensuite ĂȘtre utilisĂ© sur une population pour laquelle on ne connait que les valeurs des variables explicatives, afin dâestimer les valeurs de la variable expliquĂ©e.
Principe général
On distingue essentiellement deux cas selon la nature de la variable expliquĂ©e, reprĂ©sentĂ©e ici par une variable alĂ©atoire Y. Les variables explicatives seront notĂ©es X1, ⊠, Xn. Si certaines dâentre elles sont qualitatives, il est parfois judicieux de vectoriser leurs modalitĂ©s[5] en distinguant une modalitĂ© de rĂ©fĂ©rence reprĂ©sentĂ©e par le vecteur nul, et en reprĂ©sentant les autres modalitĂ©s par les vecteurs de base dâun espace euclidien. Sous certaines conditions, on peut aussi quantifier les modalitĂ©s de ces variables.
Cas quantitatif
Pour une variable expliquĂ©e quantitative, câest-Ă -dire lorsque Y est une variable alĂ©atoire rĂ©elle, la fonction de rĂ©gression est dĂ©finie par un indicateur de la loi de Y conditionnellement aux valeurs des autres variables. Il sâagit le plus souvent de lâespĂ©rance conditionnelle[6] , mais on peut aussi considĂ©rer dâautres indicateurs de distribution conditionnelle comme la mĂ©diane ou dâautres quantiles, le mode, la variance[7]...
Câest donc une fonction numĂ©rique, dont les arguments sont des valeurs possibles des variables explicatives. Il est possible dâĂ©tendre cette dĂ©finition au cas oĂč certaines variables explicatives admettent une fonction de densitĂ©[8] conjointe avec la variable expliquĂ©e.
Cependant, la dĂ©finition probabiliste ne suffit pas en gĂ©nĂ©ral pour dĂ©crire la construction de lâindicateur Ă partir dâun jeu de donnĂ©es statistiques. En effet, les observations ne fournissent pas toujours toutes les combinaisons de modalitĂ©s dans le cas de variables explicatives discrĂštes, et ne peuvent ĂȘtre exhaustives dans le cas de variables explicatives continues. La rĂ©gression sâappuie alors sur un modĂšle de fonction avec un ou plusieurs paramĂštres, par exemple une fonction affine dans le cas de la rĂ©gression linĂ©aire ou multilinĂ©aire. Mais dâautres modĂšles sont possibles.
On parle de modĂšle linĂ©aire lorsque les paramĂštres apparaissent comme les coefficients dâune combinaison linĂ©aire de fonctions de rĂ©fĂ©rence, comme dans le cas de la rĂ©gression polynomiale ou pour des fonctions puissances ou exponentielles, quitte Ă passer par un changement de variable[9]⊠Mais certains modĂšles ne sont pas rĂ©ductibles Ă un modĂšle linĂ©aire et leur Ă©valuation peut nĂ©cessiter des algorithmes spĂ©cifiques, voire recourir Ă une estimation non paramĂ©trique[10].
Cas qualitatif
Pour une variable expliquĂ©e qualitative, la rĂ©gression sâapparente aux problĂšmes de classification, au sens oĂč lâon cherche Ă dĂ©terminer une modalitĂ© Ă partir des valeurs des autres variables.
La fonction de rĂ©gression correspond dans ce cas Ă un partage de lâespace des valeurs des variables explicatives, par des mĂ©thodes gĂ©omĂ©triques ou par rĂ©gression logistique.
Qualité de la régression
La variable expliquĂ©e ne sâidentifie Ă la fonction de rĂ©gression que dans le cas particulier dâune dĂ©pendance fonctionnelle. Dans le cas gĂ©nĂ©ral, on peut interprĂ©ter la diffĂ©rence[11] comme une erreur alĂ©atoire, souvent notĂ©e avec la lettre grecque Δ (epsilon) : .
Si la fonction de rĂ©gression est dĂ©finie par lâespĂ©rance conditionnelle, le thĂ©orĂšme de l'espĂ©rance totale assure alors que lâerreur est centrĂ©e. Le thĂ©orĂšme de la variance totale donne lâĂ©galitĂ© , ce qui permet de montrer que le rapport de corrĂ©lation dĂ©fini par est infĂ©rieur Ă 1, et dâautant plus proche de 1 que la variance de Y conditionnellement Ă X est faible en moyenne, ce qui en fait un bon indicateur de la qualitĂ© de la rĂ©gression. Inversement, lorsque le rapport de corrĂ©lation est proche de 0, cela signifie que la fonction de rĂ©gression est pratiquement constante, donc que les variables explicatives apportent peu dâinformation sur lâespĂ©rance de la variable expliquĂ©e.
Le cas particulier dâune fonction de rĂ©gression affine (avec une seule variable X) correspond Ă lâĂ©galitĂ© entre le rapport de corrĂ©lation et le coefficient de corrĂ©lation linĂ©aire .
Principaux modÚles de régression
Le modÚle de régression le plus connu est le modÚle de régression linéaire.
Lorsque le modÚle n'est pas linéaire, on peut effectuer une régression approchée par des algorithmes itératifs, on parle de régression non linéaire.
Si on s'intéresse au quantile conditionnel de la distribution de la variable aléatoire sachant le vecteur de variables aléatoires , on utilise un modÚle de régression quantile[12] - [13].
Si la variable expliquée est une variable aléatoire binomiale, il est courant d'utiliser une régression logistique ou un modÚle probit.
Si la forme fonctionnelle de la régression est inconnue, on peut utiliser un modÚle de régression non paramétrique.
Voir aussi
- Interaction (statistiques)
- Régression linéaire
- Régression linéaire multiple
- RĂ©gression polynomiale
- RĂ©gression logistique
- ModÚle linéaire généralisé
- Régression non paramétrique
- ModÚles de régression multiple postulés et non postulés
- RĂ©gression circulaire
- RĂ©gression elliptique
- RĂ©gression locale
Références
- James et al. 2013, p. 28
- (en) Robert G. Mogull, Second-Semester Applied Statistics, Kendall/Hunt Publishing Company, (ISBN 0-7575-1181-3), p. 59
- Galton 1989
- Saporta 2011, p. 407
- Saporta 2011, §18.4 Discrimination sur variables quantitatives, p. 461
- Saporta 2011, p. 72
- Manski 1991
- Saporta 2011, §3.2 Extension à des variables quelconques, p. 77
- Saporta et 2011 p.389, §16.2 Ajustement sur des données
- Saporta 2011, §16.6 Régression non paramétrique, p. 404
- Dans certains cas, il est préférable de relier la variable expliquée avec la fonction de régression par un facteur multiplicatif, ce qui se ramÚne au cas additif par composition avec une fonction logarithme.
- (en) Roger Koenker et G. Bassett, « Regression quantiles », Econometrica,â , p. 33-50
- (en) Roger Koenker, Quantile Regression, Cambridge University Press,
Bibliographie
- (en) Francis Galton, « Kinship and Correlation (reprinted 1989) », Statistical Science, Institute of Mathematical Statistics, vol. 4, no 2,â , p. 80â86 (DOI 10.1214/ss/1177012581, JSTOR 2245330)
- (en) Charles Manski, « Regression », Journal of Economic Literature, vol. 29, no 1,â , p. 34-50 (lire en ligne, consultĂ© le )
- (en) Gareth James, Daniela Witten, Trevor Hastie et Robert Tibshirani, An Introduction to Statistical Learning, Springer Verlag, coll. « Springer Texts in Statistics »,
- Gilbert Saporta, Probabilités, analyse de données et Statistique, Paris, TECHNIP, , 622 p. (ISBN 978-2-7108-0980-7, lire en ligne), chapitres 16 à 18