AccueilđŸ‡«đŸ‡·Chercher

RĂ©gression logistique

En statistiques, la régression logistique ou modÚle logit est un modÚle de régression binomiale. Comme pour tous les modÚles de régression binomiale, il s'agit d'expliquer au mieux une variable binaire (la présence ou l'absence d'une caractéristique donnée) par des observations réelles nombreuses, grùce à un modÚle mathématique. En d'autres termes d'associer une variable aléatoire de Bernoulli (génériquement notée ) à un vecteur de variables aléatoires . La régression logistique constitue un cas particulier de modÚle linéaire généralisé. Elle est largement utilisée en apprentissage automatique.

RĂ©gression logistique

Histoire

D'aprĂšs de Palma et Thisse, la premiĂšre mention du modĂšle logit vient de Joseph Berkson en 1944[1] et 1951[2] - [3].

Applications

La régression logistique est largement répandue dans de nombreux domaines. On peut citer de façon non exhaustive :

  • En mĂ©decine, elle permet par exemple de trouver les facteurs qui caractĂ©risent un groupe de sujets malades par rapport Ă  des sujets sains.
  • Dans le domaine des assurances, elle permet de cibler une fraction de la clientĂšle qui sera sensible Ă  une police d’assurance sur tel ou tel risque particulier.
  • Dans le domaine bancaire, pour dĂ©tecter les groupes Ă  risque lors de la souscription d’un crĂ©dit.
  • En Ă©conomĂ©trie, pour expliquer une variable discrĂšte. Par exemple, les intentions de vote aux Ă©lections.

Par exemple, Vincent Loonis utilise un modÚle de régression logistique pour étudier les déterminants de la réélection des députés français depuis les débuts de la IIIe République[4].

ModĂšle

Notations

Soit la variable à prédire (variable expliquée) et les variables prédictives (variables explicatives).

Dans le cadre de la régression logistique binaire, la variable prend deux modalités possibles . Les variables sont exclusivement continues ou binaires.

  • Soit un ensemble de Ă©chantillons, comportant (resp. ) observations correspondant Ă  la modalitĂ© (resp. ) de .
  • (resp. ) est la probabilitĂ© a priori pour que (resp. ). Pour simplifier, cela sera par la suite notĂ© (resp. ).
  • (resp. ) est la distribution conditionnelle des sachant la valeur prise par
  • La probabilitĂ© a posteriori d'obtenir la modalitĂ© de (resp. ) sachant la valeur prise par est notĂ©e (resp. ).

HypothĂšse fondamentale

La rĂ©gression logistique repose sur l’hypothĂšse fondamentale suivante, oĂč l'on reconnaĂźt la mesure nommĂ©e « Ă©vidence » popularisĂ©e par I.J. Good, E.T Jaynes et Myron Tribus pour les besoins de l'infĂ©rence bayĂ©sienne en Ă©vitant des renormalisations continuelles sur [0,1] :

oĂč reprĂ©sentent les valeurs prises respectivement par les variables .

Une vaste classe de distributions rĂ©pondent Ă  cette spĂ©cification, la distribution multinormale dĂ©crite en analyse discriminante linĂ©aire par exemple, mais Ă©galement d’autres distributions, notamment celles oĂč les variables explicatives sont boolĂ©ennes (0/1).

Par rapport Ă  l’analyse discriminante toujours, ce ne sont plus les densitĂ©s conditionnelles et qui sont modĂ©lisĂ©es mais le rapport de ces densitĂ©s. La restriction introduite par l'hypothĂšse est moins forte.

ModĂšle LOGIT

La spĂ©cification ci-dessus peut ĂȘtre Ă©crite de maniĂšre diffĂ©rente. On dĂ©signe par le terme LOGIT de l’expression suivante

  • Il s’agit bien d’une « rĂ©gression » car on veut montrer une relation de dĂ©pendance entre une variable Ă  expliquer et une sĂ©rie de variables explicatives.
  • Il s’agit d’une rĂ©gression « logistique » car la loi de probabilitĂ© est modĂ©lisĂ©e Ă  partir d’une loi logistique.

En effet, aprĂšs transformation de l’équation ci-dessus, nous obtenons

Remarque : Équivalence des expressions

Nous sommes partis de deux expressions différentes pour aboutir au modÚle logistique. Nous observons ici la concordance entre les coefficients et . Reprenons le LOGIT

Nous constatons que

Estimation — Principe du maximum de vraisemblance

À partir d’un fichier de donnĂ©es, nous devons estimer les coefficients de la fonction LOGIT. Il est trĂšs rare de disposer pour chaque combinaison possible des , mĂȘme si ces variables sont toutes binaires, de suffisamment d’observations pour disposer d’une estimation fiable des probabilitĂ©s et . La mĂ©thode des moindres carrĂ©s ordinaire est exclue. La solution passe par une autre approche : la maximisation de la vraisemblance.

La probabilitĂ© d’appartenance d’un individu Ă  un groupe, que nous pouvons Ă©galement voir comme une contribution Ă  la vraisemblance, peut ĂȘtre dĂ©crite de la maniĂšre suivante

La vraisemblance d’un Ă©chantillon s’écrit alors :

Les paramÚtres qui maximisent cette quantité sont les estimateurs du maximum de vraisemblance de la régression logistique.

Estimation dans la pratique

Dans la pratique, les logiciels utilisent une procĂ©dure approchĂ©e pour obtenir une solution satisfaisante de la maximisation ci-dessus. Ce qui explique d’ailleurs pourquoi ils ne fournissent pas toujours des coefficients strictement identiques. Les rĂ©sultats dĂ©pendent de l’algorithme utilisĂ© et de la prĂ©cision adoptĂ©e lors du paramĂ©trage du calcul.

Dans ce qui suit, nous notons le vecteur des paramĂštres Ă  estimer. La procĂ©dure la plus connue est la mĂ©thode Newton-Raphson qui est une mĂ©thode itĂ©rative du gradient (voir Algorithme d'optimisation). Elle s’appuie sur la relation suivante :

  • est la solution courante Ă  l'Ă©tape . est une initialisation possible ;
  • est le vecteur des dĂ©rivĂ©es partielles premiĂšres de la vraisemblance ;
  • est la matrice des dĂ©rivĂ©es partielles secondes de la vraisemblance ;
  • les itĂ©rations sont interrompues lorsque la diffĂ©rence entre deux vecteurs de solutions successifs est nĂ©gligeable.

Cette derniĂšre matrice, dite matrice hessienne, est intĂ©ressante car son inverse reprĂ©sente l’estimation de la matrice de variance covariance de . Elle sera mise en contribution dans les diffĂ©rents tests d’hypothĂšses pour Ă©valuer la significativitĂ© des coefficients.

Sous forme matricielle :

Évaluation

Matrice de confusion

L’objectif Ă©tant de produire un modĂšle permettant de prĂ©dire avec le plus de prĂ©cision possible les valeurs prises par une variable catĂ©gorielle , une approche privilĂ©giĂ©e pour Ă©valuer la qualitĂ© du modĂšle serait de confronter les valeurs prĂ©dites avec les vraies valeurs prises par : c’est le rĂŽle de la matrice de confusion. On en dĂ©duit alors un indicateur simple, le taux d’erreur ou le taux de mauvais classement, qui est le rapport entre le nombre de mauvaises prĂ©dictions et la taille de l’échantillon.

Lorsque la matrice de confusion est construite sur les donnĂ©es qui ont servi Ă  Ă©laborer le modĂšle, le taux d’erreur est souvent trop optimiste, ne reflĂ©tant pas les performances rĂ©elles du modĂšle dans la population. Pour que l’évaluation ne soit pas biaisĂ©e, il est conseillĂ© de construire cette matrice sur un Ă©chantillon Ă  part, dit Ă©chantillon de test. Par opposition Ă  l’échantillon d’apprentissage, il n’aura pas participĂ© Ă  la construction du modĂšle.

Le principal intĂ©rĂȘt de cette mĂ©thode est qu’elle permet de comparer n’importe quelle mĂ©thode de classement et sĂ©lectionner ainsi celle qui s’avĂšre ĂȘtre la plus performante face Ă  un problĂšme donnĂ©.

Évaluation statistique de la rĂ©gression

Il est possible d’exploiter un schĂ©ma probabiliste pour effectuer des tests d’hypothĂšses sur la validitĂ© du modĂšle. Ces tests reposent sur la distribution asymptotique des estimateurs du maximum de vraisemblance.

Pour vĂ©rifier la significativitĂ© globale du modĂšle, nous pouvons introduire un test analogue Ă  l’évaluation de la rĂ©gression linĂ©aire multiple. L’hypothĂšse nulle s’écrit , que l’on oppose Ă  l’hypothĂšse alternative : un des coefficients au moins est non nul

La statistique du rapport de vraisemblance s’écrit , elle suit une loi du Ă  degrĂ©s de libertĂ©s.

  • est le logarithme de la vraisemblance du modĂšle avec l’ensemble des variables (donc J+1 coefficients en comptant la constante) et,
  • le logarithme de la vraisemblance du modĂšle rĂ©duit Ă  la seule constante.

Si la probabilitĂ© critique (la p-value) est infĂ©rieure au niveau de signification que l’on s’est fixĂ©, on peut considĂ©rer que le modĂšle est globalement significatif. Reste Ă  savoir quelles sont les variables qui jouent rĂ©ellement un rĂŽle dans cette relation.

Évaluation individuelle des coefficients

Dans le cas oĂč l’on cherche Ă  tester le rĂŽle significatif d’une variable. Nous rĂ©alisons le test suivant , contre .

La statistique de WALD rĂ©pond Ă  ce test, elle s’écrit , elle suit une loi du Ă  degrĂ© de libertĂ©.

N.B. : La variance estimĂ©e du coefficient est lue dans l’inverse de la matrice hessienne vue prĂ©cĂ©demment.

Évaluation d'un bloc de coefficients

Les deux tests ci-dessus sont des cas particuliers du test de significativitĂ© d’un bloc de coefficients. Ils dĂ©coulent du critĂšre de la « dĂ©viance » qui compare la vraisemblance entre le modĂšle courant et le modĂšle saturĂ© (le modĂšle dans lequel nous avons tous les paramĂštres).

L’hypothĂšse nulle s’écrit dans ce cas , oĂč reprĂ©sente un ensemble de coefficients simultanĂ©ment Ă  zĂ©ro.

La statistique du test suit une loi du à degrés de libertés.

Ce test peut ĂȘtre trĂšs utile lorsque nous voulons tester le rĂŽle d’une variable explicative catĂ©gorielle Ă  modalitĂ©s dans le modĂšle. AprĂšs recodage, nous introduisons effectivement variables indicatrices dans le modĂšle. Pour Ă©valuer le rĂŽle de la variable catĂ©gorielle prise dans son ensemble, quelle que soit la modalitĂ© considĂ©rĂ©e, nous devons tester simultanĂ©ment les coefficients associĂ©s aux variables indicatrices.

Autres Ă©valuations

D’autres procĂ©dures d’évaluation sont couramment citĂ©es s’agissant de la rĂ©gression logistique. Nous noterons entre autres le test de Hosmer-Lemeshow qui s’appuie sur le « score » (la probabilitĂ© d’affectation Ă  un groupe) pour ordonner les observations. En cela, elle se rapproche d’autres procĂ©dĂ©s d’évaluation de l’apprentissage telles que les courbes ROC qui sont nettement plus riches d’informations que la simple matrice de confusion et le taux d’erreur associĂ©.

Exemple

À partir des donnĂ©es disponibles sur le site du cours en ligne de RĂ©gression logistique (Paul-Marie Bernard, UniversitĂ© du QuĂ©bec – Chapitre 5), nous avons construit un modĂšle de prĂ©diction qui vise Ă  expliquer le « Faible Poids (Oui/Non) » d’un bĂ©bĂ© Ă  la naissance. Les variables explicatives sont : FUME (le fait de fumer ou pas pendant la grossesse), PREM (historique de prĂ©maturĂ©s aux accouchements antĂ©rieurs), HT (historique de l’hypertension), VISITE (nombre de visites chez le mĂ©decin durant le premier trimestre de grossesse), AGE (Ăąge de la mĂšre), PDSM (poids de la mĂšre durant les pĂ©riodes des derniĂšres menstruations), SCOL (niveau de scolaritĂ© de la mĂšre : =1: <12 ans, =2: 12-15 ans, =3: >15 ans).

Toutes les variables explicatives ont Ă©tĂ© considĂ©rĂ©es continues dans cette analyse. Dans certains cas, SCOL par exemple, il serait peut-ĂȘtre plus judicieux de les coder en variables indicatrices.

Lecture des résultats

Les résultats sont consignés dans le tableau suivant.

Résultats de l'exécution de la régression logistique sur le fichier de données
Résultats de l'exécution de la régression logistique sur le fichier de données
  • Dans la matrice de confusion, nous lisons que sur les donnĂ©es en apprentissage, le modĂšle de prĂ©diction rĂ©alise 10 + 39 = 49 mauvaises prĂ©dictions. Le taux d’erreur en resubstitution est de 49/190 = 25,78 %
  • La statistique du rapport de vraisemblance LAMBDA est Ă©gale Ă  31.77, la probabilitĂ© critique associĂ©e est 0. Le modĂšle est donc globalement trĂšs significatif, il existe bien une relation entre les variables explicatives et la variable expliquĂ©e.
  • En Ă©tudiant individuellement les coefficients liĂ©s Ă  chaque variable explicative, au risque de 5 %, nous constatons que FUME, PREM et HT sont nĂ©fastes au poids du bĂ©bĂ© Ă  la naissance (entraĂźnent un faible poids du bĂ©bĂ©) ; PDSM et SCOL en revanche semblent jouer dans le sens d’un poids plus Ă©levĂ© du bĂ©bĂ©. VISITE et AGE ne semblent pas jouer de rĂŽle significatif dans cette analyse.

Cette premiĂšre analyse peut ĂȘtre affinĂ©e en procĂ©dant Ă  une sĂ©lection de variables, en Ă©tudiant le rĂŽle concomitant de certaines variables, etc. Le succĂšs de la rĂ©gression logistique repose justement en grande partie sur la multiplicitĂ© des outils d’interprĂ©tations qu’elle propose. Avec les notions d’odds, d’odds ratios et de risque relatif, calculĂ©s sur les variables dichotomiques, continues ou sur des combinaisons de variables, le statisticien peut analyser finement les causalitĂ©s et mettre en Ă©vidence les facteurs qui pĂšsent rĂ©ellement sur la variable Ă  expliquer.

DĂ©ploiement

Pour classer un nouvel individu , nous devons appliquer la rĂšgle de Bayes :

ssi

Qui est Ă©quivalent Ă 

ssi

Si nous considĂ©rons la fonction LOGIT, cette procĂ©dure revient Ă  s’appuyer sur la rĂšgle d’affectation :

ssi

Prenons l’observation suivante = (FUME = 1 « oui » ; PREM = 1 « un prĂ©maturĂ© dans l’historique de la mĂšre » ; HT = 0 « non » ; VISITE = 0 « pas de visite chez le mĂ©decin pendant le premier trimestre de grossesse » ; AGE = 28 ; PDSM = 54.55 ; SCOL = 2 « entre 12 et 15 ans »).

En appliquant l’équation ci-dessus, nous trouvons . Le modĂšle donc prĂ©dit un bĂ©bĂ© de faible poids pour cette personne.

Ce qui est justifiĂ© puisqu’il s’agit de l’observation n°131 de notre fichier, et elle a donnĂ© lieu effectivement Ă  la naissance d’un enfant de faible poids.

Redressement

La rĂšgle d’affectation ci-dessus est valide si l’échantillon est issu d’un tirage au hasard dans la population. Ce n’est pas toujours le cas. Dans de nombreux domaines, nous fixons au prĂ©alable les effectifs des classes et , puis nous procĂ©dons au recueil des donnĂ©es dans chacun des groupes. On parle alors de tirage rĂ©trospectif. Il est dĂšs lors nĂ©cessaire de procĂ©der Ă  un redressement. Si les coefficients associĂ©s aux variables de la fonction logit ne sont pas modifiĂ©s, la constante en revanche doit ĂȘtre corrigĂ©e en tenant compte des effectifs dans chaque classe ( et ) et des vraies probabilitĂ©s a priori et (cf. les rĂ©fĂ©rences ci-dessous).

Variantes

La rĂ©gression logistique s’applique directement lorsque les variables explicatives sont continues ou dichotomiques. Lorsqu’elles sont catĂ©gorielles, il est nĂ©cessaire de procĂ©der Ă  un recodage. Le plus simple est le codage binaire. Prenons l’exemple d’une variable habitat prenons trois modalitĂ©s {ville, pĂ©riphĂ©rie, autres}. Nous crĂ©erons alors deux variables binaires : « habitat_ville », « habitat_pĂ©riphĂ©rie ». La derniĂšre modalitĂ© se dĂ©duit des deux autres, lorsque les deux variables prennent simultanĂ©ment la valeur 0, cela indique que l’observation correspond Ă  « habitat = autres ».

Enfin, il est possible de rĂ©aliser une rĂ©gression logistique pour prĂ©dire les valeurs d’une variable catĂ©gorielle comportant K (K > 2) modalitĂ©s. On parle de rĂ©gression logistique polytomique. La procĂ©dure repose sur la dĂ©signation d’un groupe de rĂ©fĂ©rence, elle produit alors (K-1) combinaisons linĂ©aires pour la prĂ©diction. L’interprĂ©tation des coefficients est moins Ă©vidente dans ce cas.

Notes et références

  1. (en) Joseph Berkson, « Application of the Logistic Function to Bio-Essay », Journal of the American Statistical Association, vol. 39,‎ , p. 357-365
  2. (en) Joseph Berkson, « Why I Prefer Logits to Probits », Biometrics, vol. 7,‎ , p. 327-329
  3. AndrĂ© de Palma et Jacques-François Thisse, « Les modĂšles de choix discrets », Annales d'Economie et de Statistique,‎ (lire en ligne)
  4. Vincent Loonis, « Les dĂ©terminants de la rĂ©Ă©lection des dĂ©putĂ©s français de 1871 Ă  2002 », Histoire & Mesure, vol. 21, no 1,‎ (lire en ligne, consultĂ© le )

Voir aussi

Bibliographie

  • Ricco Rakotomalala, Pratique de la rĂ©gression logistique
  • M. Bardos, Analyse Discriminante - Application au risque et scoring financier, Dunod, 2001. (chapitre 3)
  • Bernard, P.-M., "Analyse des tableaux de contingence en Ă©pidĂ©miologie", Les Presses de l'UniversitĂ© du QuĂ©bec, 2004
  • Bouyer J., HĂ©mon D., Cordier S., Derriennic F., StĂŒcker I., Stengel B., Clavel J., ÉpidĂ©miologie - Principes et mĂ©thodes quantitatives, Les Éditions INSERM, 1993
  • Hosmer D.W., Lemeshow S., Applied logistic regression, Wiley Series in Probability and Mathematical Statistics, 2000
  • Kleinbaum D.G., Logistic regression. A self-learning text, Springer-Verlag, 1994.
  • Kleinbaum D.G., Kupper L.L., Muller E.M., Applied regression analysis and other multivariate methods, PWS-KENT Publishing Company, Boston, 1988.
  • J.P. Nakache, J. Confais, Statistique Explicative AppliquĂ©e, Technip, 2003 (Partie 2)
  • Pierre-François Verhulst, « Recherches mathĂ©matiques sur la loi d'accroissement de la population », Nouveaux MĂ©moires de l'AcadĂ©mie Royale des Sciences et Belles-Lettres de Bruxelles, no 18,‎ , p. 1-42 (lire en ligne [PDF], consultĂ© le )
  • AndrĂ© de Palma et Jacques-François Thisse, « Les modĂšles de choix discrets », Annales d'Economie et de Statistique,‎ (lire en ligne)
  • (en) Thierry Magnac, « logit models of individual choice », dans Steven Durlauf et Lawrence Blume, The New Palgrave Dictionary of Economics, Palgrave Macmillan, (lire en ligne)
  • (en) Ken Train, Discrete Choice Methods with Simulation, Cambridge University Press, , 2e Ă©d., 408 p. (ISBN 978-0-521-74738-7, lire en ligne), p. 34-75 (Chapitre 3)
  • (en) Andrew Gelman et Jennifer Hill, Data Analysis Using Regression And Multilevel/Hierarchical Models, Cambridge University Press, coll. « Analytical Methods for Social Research », , 1re Ă©d., 648 p. (ISBN 978-0-521-68689-1, lire en ligne) (Chapitre 5)

Articles connexes

Cet article est issu de wikipedia. Text licence: CC BY-SA 4.0, Des conditions supplĂ©mentaires peuvent s’appliquer aux fichiers multimĂ©dias.