RĂ©gression logistique
En statistiques, la régression logistique ou modÚle logit est un modÚle de régression binomiale. Comme pour tous les modÚles de régression binomiale, il s'agit d'expliquer au mieux une variable binaire (la présence ou l'absence d'une caractéristique donnée) par des observations réelles nombreuses, grùce à un modÚle mathématique. En d'autres termes d'associer une variable aléatoire de Bernoulli (génériquement notée ) à un vecteur de variables aléatoires . La régression logistique constitue un cas particulier de modÚle linéaire généralisé. Elle est largement utilisée en apprentissage automatique.
Type |
ModÚle de régression (d), modÚle linéaire généralisé, modÚle discriminatif |
---|---|
Inventeur | |
Aspect de |
Histoire
D'aprĂšs de Palma et Thisse, la premiĂšre mention du modĂšle logit vient de Joseph Berkson en 1944[1] et 1951[2] - [3].
Applications
La régression logistique est largement répandue dans de nombreux domaines. On peut citer de façon non exhaustive :
- En médecine, elle permet par exemple de trouver les facteurs qui caractérisent un groupe de sujets malades par rapport à des sujets sains.
- Dans le domaine des assurances, elle permet de cibler une fraction de la clientĂšle qui sera sensible Ă une police dâassurance sur tel ou tel risque particulier.
- Dans le domaine bancaire, pour dĂ©tecter les groupes Ă risque lors de la souscription dâun crĂ©dit.
- En économétrie, pour expliquer une variable discrÚte. Par exemple, les intentions de vote aux élections.
Par exemple, Vincent Loonis utilise un modÚle de régression logistique pour étudier les déterminants de la réélection des députés français depuis les débuts de la IIIe République[4].
ModĂšle
Notations
Soit la variable à prédire (variable expliquée) et les variables prédictives (variables explicatives).
Dans le cadre de la régression logistique binaire, la variable prend deux modalités possibles . Les variables sont exclusivement continues ou binaires.
- Soit un ensemble de échantillons, comportant (resp. ) observations correspondant à la modalité (resp. ) de .
- (resp. ) est la probabilité a priori pour que (resp. ). Pour simplifier, cela sera par la suite noté (resp. ).
- (resp. ) est la distribution conditionnelle des sachant la valeur prise par
- La probabilité a posteriori d'obtenir la modalité de (resp. ) sachant la valeur prise par est notée (resp. ).
HypothĂšse fondamentale
La rĂ©gression logistique repose sur lâhypothĂšse fondamentale suivante, oĂč l'on reconnaĂźt la mesure nommĂ©e « Ă©vidence » popularisĂ©e par I.J. Good, E.T Jaynes et Myron Tribus pour les besoins de l'infĂ©rence bayĂ©sienne en Ă©vitant des renormalisations continuelles sur [0,1] :
oĂč reprĂ©sentent les valeurs prises respectivement par les variables .
Une vaste classe de distributions rĂ©pondent Ă cette spĂ©cification, la distribution multinormale dĂ©crite en analyse discriminante linĂ©aire par exemple, mais Ă©galement dâautres distributions, notamment celles oĂč les variables explicatives sont boolĂ©ennes (0/1).
Par rapport Ă lâanalyse discriminante toujours, ce ne sont plus les densitĂ©s conditionnelles et qui sont modĂ©lisĂ©es mais le rapport de ces densitĂ©s. La restriction introduite par l'hypothĂšse est moins forte.
ModĂšle LOGIT
La spĂ©cification ci-dessus peut ĂȘtre Ă©crite de maniĂšre diffĂ©rente. On dĂ©signe par le terme LOGIT de lâexpression suivante
- Il sâagit bien dâune « rĂ©gression » car on veut montrer une relation de dĂ©pendance entre une variable Ă expliquer et une sĂ©rie de variables explicatives.
- Il sâagit dâune rĂ©gression « logistique » car la loi de probabilitĂ© est modĂ©lisĂ©e Ă partir dâune loi logistique.
En effet, aprĂšs transformation de lâĂ©quation ci-dessus, nous obtenons
Remarque : Ăquivalence des expressions
Nous sommes partis de deux expressions différentes pour aboutir au modÚle logistique. Nous observons ici la concordance entre les coefficients et . Reprenons le LOGIT
Nous constatons que
Estimation â Principe du maximum de vraisemblance
Ă partir dâun fichier de donnĂ©es, nous devons estimer les coefficients de la fonction LOGIT. Il est trĂšs rare de disposer pour chaque combinaison possible des , mĂȘme si ces variables sont toutes binaires, de suffisamment dâobservations pour disposer dâune estimation fiable des probabilitĂ©s et . La mĂ©thode des moindres carrĂ©s ordinaire est exclue. La solution passe par une autre approche : la maximisation de la vraisemblance.
La probabilitĂ© dâappartenance dâun individu Ă un groupe, que nous pouvons Ă©galement voir comme une contribution Ă la vraisemblance, peut ĂȘtre dĂ©crite de la maniĂšre suivante
La vraisemblance dâun Ă©chantillon sâĂ©crit alors :
Les paramÚtres qui maximisent cette quantité sont les estimateurs du maximum de vraisemblance de la régression logistique.
Estimation dans la pratique
Dans la pratique, les logiciels utilisent une procĂ©dure approchĂ©e pour obtenir une solution satisfaisante de la maximisation ci-dessus. Ce qui explique dâailleurs pourquoi ils ne fournissent pas toujours des coefficients strictement identiques. Les rĂ©sultats dĂ©pendent de lâalgorithme utilisĂ© et de la prĂ©cision adoptĂ©e lors du paramĂ©trage du calcul.
Dans ce qui suit, nous notons le vecteur des paramĂštres Ă estimer. La procĂ©dure la plus connue est la mĂ©thode Newton-Raphson qui est une mĂ©thode itĂ©rative du gradient (voir Algorithme d'optimisation). Elle sâappuie sur la relation suivante :
- est la solution courante Ă l'Ă©tape . est une initialisation possible ;
- est le vecteur des dérivées partielles premiÚres de la vraisemblance ;
- est la matrice des dérivées partielles secondes de la vraisemblance ;
- les itérations sont interrompues lorsque la différence entre deux vecteurs de solutions successifs est négligeable.
Cette derniĂšre matrice, dite matrice hessienne, est intĂ©ressante car son inverse reprĂ©sente lâestimation de la matrice de variance covariance de . Elle sera mise en contribution dans les diffĂ©rents tests dâhypothĂšses pour Ă©valuer la significativitĂ© des coefficients.
Sous forme matricielle :
Ăvaluation
Matrice de confusion
Lâobjectif Ă©tant de produire un modĂšle permettant de prĂ©dire avec le plus de prĂ©cision possible les valeurs prises par une variable catĂ©gorielle , une approche privilĂ©giĂ©e pour Ă©valuer la qualitĂ© du modĂšle serait de confronter les valeurs prĂ©dites avec les vraies valeurs prises par : câest le rĂŽle de la matrice de confusion. On en dĂ©duit alors un indicateur simple, le taux dâerreur ou le taux de mauvais classement, qui est le rapport entre le nombre de mauvaises prĂ©dictions et la taille de lâĂ©chantillon.
Lorsque la matrice de confusion est construite sur les donnĂ©es qui ont servi Ă Ă©laborer le modĂšle, le taux dâerreur est souvent trop optimiste, ne reflĂ©tant pas les performances rĂ©elles du modĂšle dans la population. Pour que lâĂ©valuation ne soit pas biaisĂ©e, il est conseillĂ© de construire cette matrice sur un Ă©chantillon Ă part, dit Ă©chantillon de test. Par opposition Ă lâĂ©chantillon dâapprentissage, il nâaura pas participĂ© Ă la construction du modĂšle.
Le principal intĂ©rĂȘt de cette mĂ©thode est quâelle permet de comparer nâimporte quelle mĂ©thode de classement et sĂ©lectionner ainsi celle qui sâavĂšre ĂȘtre la plus performante face Ă un problĂšme donnĂ©.
Ăvaluation statistique de la rĂ©gression
Il est possible dâexploiter un schĂ©ma probabiliste pour effectuer des tests dâhypothĂšses sur la validitĂ© du modĂšle. Ces tests reposent sur la distribution asymptotique des estimateurs du maximum de vraisemblance.
Pour vĂ©rifier la significativitĂ© globale du modĂšle, nous pouvons introduire un test analogue Ă lâĂ©valuation de la rĂ©gression linĂ©aire multiple. LâhypothĂšse nulle sâĂ©crit , que lâon oppose Ă lâhypothĂšse alternative : un des coefficients au moins est non nul
La statistique du rapport de vraisemblance sâĂ©crit , elle suit une loi du Ă degrĂ©s de libertĂ©s.
- est le logarithme de la vraisemblance du modĂšle avec lâensemble des variables (donc J+1 coefficients en comptant la constante) et,
- le logarithme de la vraisemblance du modÚle réduit à la seule constante.
Si la probabilitĂ© critique (la p-value) est infĂ©rieure au niveau de signification que lâon sâest fixĂ©, on peut considĂ©rer que le modĂšle est globalement significatif. Reste Ă savoir quelles sont les variables qui jouent rĂ©ellement un rĂŽle dans cette relation.
Ăvaluation individuelle des coefficients
Dans le cas oĂč lâon cherche Ă tester le rĂŽle significatif dâune variable. Nous rĂ©alisons le test suivant , contre .
La statistique de WALD rĂ©pond Ă ce test, elle sâĂ©crit , elle suit une loi du Ă degrĂ© de libertĂ©.
N.B. : La variance estimĂ©e du coefficient est lue dans lâinverse de la matrice hessienne vue prĂ©cĂ©demment.
Ăvaluation d'un bloc de coefficients
Les deux tests ci-dessus sont des cas particuliers du test de significativitĂ© dâun bloc de coefficients. Ils dĂ©coulent du critĂšre de la « dĂ©viance » qui compare la vraisemblance entre le modĂšle courant et le modĂšle saturĂ© (le modĂšle dans lequel nous avons tous les paramĂštres).
LâhypothĂšse nulle sâĂ©crit dans ce cas , oĂč reprĂ©sente un ensemble de coefficients simultanĂ©ment Ă zĂ©ro.
La statistique du test suit une loi du à degrés de libertés.
Ce test peut ĂȘtre trĂšs utile lorsque nous voulons tester le rĂŽle dâune variable explicative catĂ©gorielle Ă modalitĂ©s dans le modĂšle. AprĂšs recodage, nous introduisons effectivement variables indicatrices dans le modĂšle. Pour Ă©valuer le rĂŽle de la variable catĂ©gorielle prise dans son ensemble, quelle que soit la modalitĂ© considĂ©rĂ©e, nous devons tester simultanĂ©ment les coefficients associĂ©s aux variables indicatrices.
Autres Ă©valuations
Dâautres procĂ©dures dâĂ©valuation sont couramment citĂ©es sâagissant de la rĂ©gression logistique. Nous noterons entre autres le test de Hosmer-Lemeshow qui sâappuie sur le « score » (la probabilitĂ© dâaffectation Ă un groupe) pour ordonner les observations. En cela, elle se rapproche dâautres procĂ©dĂ©s dâĂ©valuation de lâapprentissage telles que les courbes ROC qui sont nettement plus riches dâinformations que la simple matrice de confusion et le taux dâerreur associĂ©.
Exemple
Ă partir des donnĂ©es disponibles sur le site du cours en ligne de RĂ©gression logistique (Paul-Marie Bernard, UniversitĂ© du QuĂ©bec â Chapitre 5), nous avons construit un modĂšle de prĂ©diction qui vise Ă expliquer le « Faible Poids (Oui/Non) » dâun bĂ©bĂ© Ă la naissance. Les variables explicatives sont : FUME (le fait de fumer ou pas pendant la grossesse), PREM (historique de prĂ©maturĂ©s aux accouchements antĂ©rieurs), HT (historique de lâhypertension), VISITE (nombre de visites chez le mĂ©decin durant le premier trimestre de grossesse), AGE (Ăąge de la mĂšre), PDSM (poids de la mĂšre durant les pĂ©riodes des derniĂšres menstruations), SCOL (niveau de scolaritĂ© de la mĂšre : =1: <12 ans, =2: 12-15 ans, =3: >15 ans).
Toutes les variables explicatives ont Ă©tĂ© considĂ©rĂ©es continues dans cette analyse. Dans certains cas, SCOL par exemple, il serait peut-ĂȘtre plus judicieux de les coder en variables indicatrices.
Lecture des résultats
Les résultats sont consignés dans le tableau suivant.
- Dans la matrice de confusion, nous lisons que sur les donnĂ©es en apprentissage, le modĂšle de prĂ©diction rĂ©alise 10 + 39 = 49 mauvaises prĂ©dictions. Le taux dâerreur en resubstitution est de 49/190 = 25,78 %
- La statistique du rapport de vraisemblance LAMBDA est égale à 31.77, la probabilité critique associée est 0. Le modÚle est donc globalement trÚs significatif, il existe bien une relation entre les variables explicatives et la variable expliquée.
- En Ă©tudiant individuellement les coefficients liĂ©s Ă chaque variable explicative, au risque de 5 %, nous constatons que FUME, PREM et HT sont nĂ©fastes au poids du bĂ©bĂ© Ă la naissance (entraĂźnent un faible poids du bĂ©bĂ©) ; PDSM et SCOL en revanche semblent jouer dans le sens dâun poids plus Ă©levĂ© du bĂ©bĂ©. VISITE et AGE ne semblent pas jouer de rĂŽle significatif dans cette analyse.
Cette premiĂšre analyse peut ĂȘtre affinĂ©e en procĂ©dant Ă une sĂ©lection de variables, en Ă©tudiant le rĂŽle concomitant de certaines variables, etc. Le succĂšs de la rĂ©gression logistique repose justement en grande partie sur la multiplicitĂ© des outils dâinterprĂ©tations quâelle propose. Avec les notions dâodds, dâodds ratios et de risque relatif, calculĂ©s sur les variables dichotomiques, continues ou sur des combinaisons de variables, le statisticien peut analyser finement les causalitĂ©s et mettre en Ă©vidence les facteurs qui pĂšsent rĂ©ellement sur la variable Ă expliquer.
DĂ©ploiement
Pour classer un nouvel individu , nous devons appliquer la rĂšgle de Bayes :
ssi
Qui est Ă©quivalent Ă
ssi
Si nous considĂ©rons la fonction LOGIT, cette procĂ©dure revient Ă sâappuyer sur la rĂšgle dâaffectation :
ssi
Prenons lâobservation suivante = (FUME = 1 « oui » ; PREM = 1 « un prĂ©maturĂ© dans lâhistorique de la mĂšre » ; HT = 0 « non » ; VISITE = 0 « pas de visite chez le mĂ©decin pendant le premier trimestre de grossesse » ; AGE = 28 ; PDSM = 54.55 ; SCOL = 2 « entre 12 et 15 ans »).
En appliquant lâĂ©quation ci-dessus, nous trouvons . Le modĂšle donc prĂ©dit un bĂ©bĂ© de faible poids pour cette personne.
Ce qui est justifiĂ© puisquâil sâagit de lâobservation n°131 de notre fichier, et elle a donnĂ© lieu effectivement Ă la naissance dâun enfant de faible poids.
Redressement
La rĂšgle dâaffectation ci-dessus est valide si lâĂ©chantillon est issu dâun tirage au hasard dans la population. Ce nâest pas toujours le cas. Dans de nombreux domaines, nous fixons au prĂ©alable les effectifs des classes et , puis nous procĂ©dons au recueil des donnĂ©es dans chacun des groupes. On parle alors de tirage rĂ©trospectif. Il est dĂšs lors nĂ©cessaire de procĂ©der Ă un redressement. Si les coefficients associĂ©s aux variables de la fonction logit ne sont pas modifiĂ©s, la constante en revanche doit ĂȘtre corrigĂ©e en tenant compte des effectifs dans chaque classe ( et ) et des vraies probabilitĂ©s a priori et (cf. les rĂ©fĂ©rences ci-dessous).
Variantes
La rĂ©gression logistique sâapplique directement lorsque les variables explicatives sont continues ou dichotomiques. Lorsquâelles sont catĂ©gorielles, il est nĂ©cessaire de procĂ©der Ă un recodage. Le plus simple est le codage binaire. Prenons lâexemple dâune variable habitat prenons trois modalitĂ©s {ville, pĂ©riphĂ©rie, autres}. Nous crĂ©erons alors deux variables binaires : « habitat_ville », « habitat_pĂ©riphĂ©rie ». La derniĂšre modalitĂ© se dĂ©duit des deux autres, lorsque les deux variables prennent simultanĂ©ment la valeur 0, cela indique que lâobservation correspond à « habitat = autres ».
Enfin, il est possible de rĂ©aliser une rĂ©gression logistique pour prĂ©dire les valeurs dâune variable catĂ©gorielle comportant K (K > 2) modalitĂ©s. On parle de rĂ©gression logistique polytomique. La procĂ©dure repose sur la dĂ©signation dâun groupe de rĂ©fĂ©rence, elle produit alors (K-1) combinaisons linĂ©aires pour la prĂ©diction. LâinterprĂ©tation des coefficients est moins Ă©vidente dans ce cas.
Notes et références
- (en) Joseph Berkson, « Application of the Logistic Function to Bio-Essay », Journal of the American Statistical Association, vol. 39,â , p. 357-365
- (en) Joseph Berkson, « Why I Prefer Logits to Probits », Biometrics, vol. 7,â , p. 327-329
- AndrĂ© de Palma et Jacques-François Thisse, « Les modĂšles de choix discrets », Annales d'Economie et de Statistique,â (lire en ligne)
- Vincent Loonis, « Les dĂ©terminants de la rĂ©Ă©lection des dĂ©putĂ©s français de 1871 Ă 2002 », Histoire & Mesure, vol. 21, no 1,â (lire en ligne, consultĂ© le )
Voir aussi
Bibliographie
- Ricco Rakotomalala, Pratique de la régression logistique
- M. Bardos, Analyse Discriminante - Application au risque et scoring financier, Dunod, 2001. (chapitre 3)
- Bernard, P.-M., "Analyse des tableaux de contingence en épidémiologie", Les Presses de l'Université du Québec, 2004
- Bouyer J., HĂ©mon D., Cordier S., Derriennic F., StĂŒcker I., Stengel B., Clavel J., ĂpidĂ©miologie - Principes et mĂ©thodes quantitatives, Les Ăditions INSERM, 1993
- Hosmer D.W., Lemeshow S., Applied logistic regression, Wiley Series in Probability and Mathematical Statistics, 2000
- Kleinbaum D.G., Logistic regression. A self-learning text, Springer-Verlag, 1994.
- Kleinbaum D.G., Kupper L.L., Muller E.M., Applied regression analysis and other multivariate methods, PWS-KENT Publishing Company, Boston, 1988.
- J.P. Nakache, J. Confais, Statistique Explicative Appliquée, Technip, 2003 (Partie 2)
- Pierre-François Verhulst, « Recherches mathĂ©matiques sur la loi d'accroissement de la population », Nouveaux MĂ©moires de l'AcadĂ©mie Royale des Sciences et Belles-Lettres de Bruxelles, no 18,â , p. 1-42 (lire en ligne [PDF], consultĂ© le )
- AndrĂ© de Palma et Jacques-François Thisse, « Les modĂšles de choix discrets », Annales d'Economie et de Statistique,â (lire en ligne)
- (en) Thierry Magnac, « logit models of individual choice », dans Steven Durlauf et Lawrence Blume, The New Palgrave Dictionary of Economics, Palgrave Macmillan, (lire en ligne)
- (en) Ken Train, Discrete Choice Methods with Simulation, Cambridge University Press, , 2e Ă©d., 408 p. (ISBN 978-0-521-74738-7, lire en ligne), p. 34-75 (Chapitre 3)
- (en) Andrew Gelman et Jennifer Hill, Data Analysis Using Regression And Multilevel/Hierarchical Models, Cambridge University Press, coll. « Analytical Methods for Social Research », , 1re éd., 648 p. (ISBN 978-0-521-68689-1, lire en ligne) (Chapitre 5)