Estimateur de Kaplan-Meier
L'estimateur de Kaplan-Meier[1] - [2], Ă©galement connu sous le nom de lâestimateur produit-limite, est un estimateur pour estimer la fonction de survie dâaprĂšs des donnĂ©es de durĂ©e de vie. En recherche mĂ©dicale, il est souvent utilisĂ© pour mesurer la fraction de patients en vie pour une certaine durĂ©e aprĂšs leur traitement. Il est Ă©galement utilisĂ© en Ă©conomie et en Ă©cologie.
Cet estimateur doit son nom Ă Edward L. Kaplan et Paul Meier.
Une courbe dâestimation de Kaplan-Meier pour la fonction de survie est une sĂ©rie de marches horizontales de grandeur dĂ©croissante qui, quand un Ă©chantillon suffisamment grand est utilisĂ©, permet dâapprocher la fonction de survie rĂ©elle dans cette population. La valeur de la fonction de survie entre les Ă©chantillons successifs observĂ©s est considĂ©rĂ©e comme Ă©tant constante.
Un avantage important de la courbe de Kaplan-Meier est que cette mĂ©thode peut prendre en compte certains types de donnĂ©es censurĂ©es, en particulier censurĂ©es par la droite, ce qui intervient lorsquâun patient disparaĂźt dâune Ă©tude, câest-Ă -dire quâon ne dispose plus de ses donnĂ©es avant que lâĂ©vĂ©nement attendu (par exemple le dĂ©cĂšs), soit observĂ©. Sur le graphique, les petits traits verticaux indiquent ces censures. Si aucune troncature ou censure nâintervient, la courbe de Kaplan-Meier est Ă©quivalente Ă la fonction de survie.
Formules
Soit S(t) la probabilitĂ© quâun membre dâune population donnĂ©e ait une durĂ©e de vie supĂ©rieure Ă t. Pour un Ă©chantillon de taille N dans cette population, les durĂ©es observĂ©es jusquâĂ chaque dĂ©cĂšs des membres de lâĂ©chantillon N sont :
à chaque ni correspond un ti, ni étant le nombre de personnes « à risque » juste avant le temps ti, et di le nombre de décÚs au temps ti.
On note que les intervalles entre chaque évÚnement ne sont pas uniformes. Par exemple, une petite quantité de données peut commencer avec 10 cas. Supposons que le sujet 1 décÚde au jour 3, les sujets 2 et 3 au jour 11 et le sujet 4 disparaßt du suivi (donnée censurée) au jour 9. Les données pour les 2 premiers sujets seraient les suivantes :
1 | 2 | |
---|---|---|
3 | 11 | |
1 | 2 | |
10 | 8 |
Lâestimateur de Kaplan-Meier est lâestimation du maximum de vraisemblance non-paramĂ©trique de S(t). Câest un produit de la forme :
Lorsquâil nây aucune censure, ni est le nombre de survivants juste avant le temps ti.
Lorsquâil y a censure, ni est le nombre de survivants moins le nombre de pertes (cas censurĂ©s). Ce sont seulement ces cas survivants qui continuent Ă ĂȘtre observĂ©s (qui nâont pas encore Ă©tĂ© censurĂ©s) qui sont « Ă risque » de dĂ©cĂšs (observĂ©).
Ici une autre définition possible parfois utilisée :
Les deux dĂ©finitions diffĂšrent uniquement aux moments des Ă©vĂšnements observĂ©s. La derniĂšre dĂ©finition est « continue Ă droite » tandis que la premiĂšre est « continue Ă gauche ». Soit T la variable alĂ©atoire qui mesure le temps dâĂ©chec et soit F(t) sa Fonction de rĂ©partition cumulative. On note que :
En consĂ©quence, la dĂ©finition continue Ă droite de peut ĂȘtre prĂ©fĂ©rĂ©e pour rendre lâestimation compatible avec une estimation continue Ă droite de F(t).
Considérations statistiques
Lâestimateur de Kaplan-Meier est une statistique, et certains estimateurs sont utilisĂ©s pour approcher sa variance. Un de ces estimateurs les plus courants est la formule de Greenwood :
GenĂšse de l'estimateur de Kaplan-Meier
En 1983, Edward L. Kaplan raconte la genĂšse de l'estimateur de Kaplan-Meier[3].
Le tout dĂ©bute en 1952, rĂ©vĂšle Kaplan, quand Paul Meier (alors en stage post-doctoral Ă l'universitĂ© Johns-Hopkins, au Maryland), aprĂšs avoir pris connaissance de l'article de Greenwood, publiĂ© en 1926, sur la durĂ©e du cancer, veut proposer un puissant estimateur de survie appuyĂ© sur les rĂ©sultats d'essais cliniques. En 1953, le mathĂ©maticien Kaplan (travaillant alors aux Laboratoires Bell, au New Jersey) veut proposer un estimateur de la durĂ©e qu'auront les tubes Ă vide utilisĂ©s pour amplifier et retransmettre les signaux dans le systĂšme de cĂąbles tĂ©lĂ©phoniques sous-marins. Kaplan soumet son projet d'article au professeur John W. Tukey, qui Ćuvrait aussi pour les Laboratoires Bell et qui venait d'ĂȘtre maĂźtre de thĂšse de Meier[4] Ă Princeton, au New Jersey. Chacun des deux jeunes chercheurs avait soumis son manuscrit au Journal of the American Statistical Association, qui leur recommandait d'entrer en contact l'un avec l'autre, pour fusionner les deux articles. Alors, Kaplan et Meier entreprennent, par correspondance (courrier postal), de rĂ©concilier leurs points de vue. Durant les quatre ans que dure cette phase, leur seule crainte est qu'un tiers publie avant eux un article proposant une solution Ă©quivalente.
L'article Nonparametric estimation from incomplete observations est finalement publiĂ© en 1958 (Journal of the American Statistical Association, vol. 53, p. 457â481)[1].
Implémentation dans les langages de programmation
Plusieurs langages de programmation et logiciels statistiques proposent des implémentations de l'estimateur de Kaplan-Meier. On peut notamment citer :
Références
- (en) Cet article est partiellement ou en totalitĂ© issu de lâarticle de WikipĂ©dia en anglais intitulĂ© « KaplanâMeier estimator » (voir la liste des auteurs).
- Kaplan, E. L.; Meier, P.: Nonparametric estimation from incomplete observations. J. Amer. Statist. Assn. 53:457â481, 1958.
- Kaplan, E.L. in a retrospective on the seminal paper in "This week's citation classic". Current Contents 24, 14 (1983). Available from UPenn as PDF.
- Le 15 avril 1983, Edward L. Kaplan (alors du Department of Mathematics, de l'universitĂ© d'Ătat de l'Oregon) raconte la genĂšse de l'article de 1958 prĂ©sentant l'estimateur de Kaplan-Meier â notule de rĂ©trospective parue dans la section « This week's citation classic » du Current Contents, no 24, du 13 juin 1983 â notule retransmise par l'universitĂ© de Pennsylvanie [(en) lire en ligne (page consultĂ©e le 15 aoĂ»t 2011)].
- « Appendix C: Ph.D. Students », p. 1569 de : (en) David R. Brillinger, « John W. Tukey: His life and professional contributions », Annals of Statistics, Department of Statistics University of California, vol. 30, no 6,â , p. 1535-1575 (lire en ligne)
- The LIFETEST Procedure
- (en) « survival: Survival Analysis », R Project
- (en) Frans Willekens, Multistate Analysis of Life Histories with R, Cham, Springer, , 323 p. (ISBN 978-3-319-08383-4, DOI 10.1007/978-3-319-08383-4_6, lire en ligne), « The Survival Package »
- (en) Ding-Geng Chen et Karl E. Peace, Clinical Trial Data Analysis Using R, CRC Press, , 99â108 p. (lire en ligne)
- (en) « sts â Generate, graph, list, and test the survivor and cumulative hazard functions », Stata Manual
- (en) Mario Cleves, An Introduction to Survival Analysis Using Stata, College Station, Stata Press, , Second Ă©d., 372 p. (ISBN 978-1-59718-041-2 et 1-59718-041-6, lire en ligne)
- (en) « lifelines ».
- « sksurv.nonparametric.kaplan_meier_estimator â scikit-survival 0.12.1.dev4+gba84551.d20200501 documentation », sur scikit-survival.readthedocs.io (consultĂ© le )