Fonction d'influence
La fonction d'influence, ou courbe d'influence, est un outil statistique qui caractérise la sensibilité aux données aberrantes d'une statistique. Introduit par le statisticien Frank Hampel en 1968[1] - [2], il s'agit d'une notion centrale des statistiques robustes.
DĂ©finition
Soit une statistique dĂ©finie en tant que fonctionnelle. Une fonctionnelle est une application qui prend comme argument une distribution de probabilitĂ© et donne en image une valeur numĂ©rique ou vectorielle. Par exemple, la moyenne peut ĂȘtre dĂ©finie par la fonctionnelle . La fonction d'influence de la statistique quantifie sa sensibilitĂ© asymptotique lorsqu'une proportion infinitĂ©simale des donnĂ©es est corrompue[3].
DĂ©finition â Soit une distribution de probabilitĂ©, identifiĂ©e Ă sa fonction de rĂ©partition, sur un ensemble et un point de . Pour tout , notons la distribution de probabilitĂ© sur dĂ©finie par oĂč est une distribution de Dirac en . est ainsi la distribution d'une variable alĂ©atoire ayant une probabilitĂ© d'ĂȘtre Ă©gale Ă et une probabilitĂ© d'ĂȘtre distribuĂ©e selon .
La fonction d'influence de en évaluée en est définie comme , lorsque cette limite existe.
Si est un estimateur consistant, la fonction d'influence indique le biais asymptotique qu'induit une contamination infinitésimale par une valeur , standardisé par le taux de contamination. Il s'agit donc d'une mesure de la robustesse de la fonctionnelle . Une fonction d'influence bornée par rapport à avec des valeurs proches de indique une fonctionnelle robuste, faiblement influencée par des valeurs aberrantes, tandis qu'une fonction d'influence non bornée, ou avec de grandes valeurs, indique une fonctionnelle non robuste.
Exemples
Moyenne arithmétique
La fonctionnelle associée à la moyenne arithmétique est .
Il est aisé de montrer que sa fonction d'influence est :
oĂč est l'espĂ©rance de la distribution . Cette fonction n'est pas bornĂ©e, la moyenne arithmĂ©tique n'est donc pas robuste vis-Ă -vis des valeurs aberrantes : une seule observation ayant une valeur extrĂȘme peut induire un biais arbitrairement grand sur la moyenne.
MĂ©diane
La fonctionnelle définissant la médiane est . Elle a pour fonction d'influence[4] :
oĂč dĂ©signe la densitĂ© de la distribution , la mĂ©diane de et la fonction indicatrice de l'intervalle .
Cette fonction est bornĂ©e, et constante par morceaux. Toute contamination par une donnĂ©e supĂ©rieure (resp. infĂ©rieure) Ă la mĂ©diane a le mĂȘme impact positif (resp.nĂ©gatif) sur la mĂ©diane, quelle que soit sa valeur. Il s'agit donc d'un estimateur robuste. Par comparaison, une contamination de la moyenne par une valeur extrĂȘme a un impact plus important que par une donnĂ©e proche de la mĂ©diane.
Estimateur de Huber
L'estimateur de Huber du centre de observations est dĂ©fini comme la solution en de l'Ă©quation , oĂč et est une constante Ă fixer par le statisticien. La fonctionnelle associĂ©e est donc . La fonction d'influence de cette estimateur est :
oĂč .
Cette fonction d'influence est bornĂ©e. Elle prĂ©sente un compromis entre la robustesse de la mĂ©diane (sur laquelle tous les points ont la mĂȘme influence) et la moyenne (sur laquelle un point Ă une influence proportionnelle Ă son Ă©cart Ă l'espĂ©rance de la distribution). Un point Ă une influence proportionnelle Ă son Ă©cart Ă tant que cet Ă©cart reste infĂ©rieur Ă , au-delĂ tous les points ont une influence valant .
Régression linéaire par les moindres carrés
ConsidĂ©rons un modĂšle linĂ©aire oĂč est un variable alĂ©atoire rĂ©elle, le vecteur des paramĂštres, une variable alĂ©atoire Ă valeurs dans dont la premiĂšre coordonnĂ©e vaut (de sorte que comprend une ordonnĂ©e Ă l'origine) et est une variable alĂ©atoire rĂ©elle d'espĂ©rance nulle.
Ătant donnĂ© observations , l'estimateur des moindres carrĂ©s de est donnĂ© par . La fonctionnelle associĂ©e Ă cet estimateur est
oĂč dĂ©signe la distribution jointe de et .
La fonction d'influence de cette fonctionnelle est:
Cette fonction d'influence n'est pas bornĂ©e. L'estimateur des moindres carrĂ©s n'est donc pas robuste contre des donnĂ©es aberrantes. La fonction d'influence est le produit d'une matrice qui ne dĂ©pend pas de la contamination , du rĂ©sidu de la contamination , et de la variable explicative de la contamination . Une donnĂ©e a donc un fort impact sur l'estimation si son rĂ©sidu est Ă©levĂ© ou si sa variable explicative a une valeur extrĂȘme [5].
Interprétation en tant que dérivée
La fonction d'influence peut ĂȘtre vue comme une dĂ©rivĂ©e. Une fonctionnelle est une fonction de l'espace des distributions dans un espace vectoriel gĂ©nĂ©ralement rĂ©el de dimension fini. Il est souvent possible de dĂ©velopper une fonctionnelle autour d'une distribution donnĂ©e en :
Le second terme de l'égalité étant linéaire en , ce développement approxime par une fonction linéaire en de maniÚre analogue à un développement limité d'ordre 1.
Plus formellement, lorsqu'une fonctionnelle est différentiable au sens de Fréchet, la dérivée fonctionnelle de est donnée par .
La fonction d'influence donne aussi le développement de Von Mises d'ordre 1 de la statistique .
Fonction d'influence comme limite de la courbe de sensibilité
La fonction d'influence peut Ă©galement ĂȘtre introduite comme la limite de la courbe de sensibilitĂ©, parfois appelĂ©e fonction de sensibilitĂ© ou fonction d'influence empirique[6]. Soit un Ă©chantillon alĂ©atoire et une statistique. La courbe de sensibilitĂ© de la statistique en l'Ă©chantillon est dĂ©finie par :
Cette courbe (lorsque les données sont unidimensionnelles) est généralement représentée en fonction de . Elle mesure l'effet d'une observation additionnelle ayant la valeur sur la statistique .
Le facteur permet d'éviter que la courbe ne tende vers lorsque augmente. En effet, on s'attend à ce que l'effet d'une donnée additionnelle au existantes soit de l'ordre de . On divise donc la différence par ce qui revient à multiplier par .
Supposons les indépendants et identiquement distribués selon une distribution . Si la courbe de sensibilité tend vers une limite simple, presque sûrement, alors cette limite est la fonction d'influence de en :
Cependant, il existe des statistiques dont les courbes de sensibilitĂ© n'ont pas de limite. C'est le cas par exemple de la mĂ©diane. La fonction d'influence peut quand mĂȘme exister (la fonction d'influence de la mĂ©diane est bien dĂ©finie), mais elle ne correspond plus Ă la limite de la courbe de sensibilitĂ©.
Notions associées
Sensibilité aux erreurs aberrantes
La sensibilité aux erreurs aberrantes (gross error sensitivity en anglais) d'une statistique en une distribution est définie comme la borne supérieure (éventuellement infinie) de la norme de sa fonction d'influence. Dans le cas univarié, cette sensibilité s'écrit
Dans le cas multivarié, le choix de la norme utilisée à la place de la valeur absolue donne différentes définitions:
- La sensibilité non standardisée, ,
- La sensibilitĂ© auto-standardisĂ©e, oĂč dĂ©signe la variance asymptotique de la statistique ,
- La sensibilitĂ© standardisĂ©e par l'information de Fisher oĂč dĂ©signe l'information de Fisher associĂ©e au paramĂštre , si celle-ci est disponible.
Il s'agit d'un indicateur de la robustesse d'une statistique : plus cette sensibilité est faible, plus la statistique est robuste.
B-robustesse
On dit qu'une statistique ou qu'un estimateur est B-robuste (B est l'initiale de bounded, signifiant bornĂ© en anglais) lorsque sa fonction d'influence est bornĂ©e, c'est-Ă -dire lorsque sa sensibilitĂ© aux erreurs aberrantes est finie. Intuitivement, cela signifie que cette statistique ne peut pas ĂȘtre "cassĂ©e" par une seule observation mal placĂ©e. GĂ©nĂ©ralement, les estimateurs classiques ne sont pas B-robustes: moyennes, Ă©cart-type, estimateur des moindres carrĂ©s, la plupart des estimateurs par maximum de vraisemblance ou par mĂ©thode des moments. Plusieurs mĂ©thodes introduites par les statistiques robustes existent pour obtenir des estimateurs B-robustes.
Sensibilité aux variations locales
La sensibilité aux variations locales (local shift sensitivity en anglais) donne une indication des variations de la fonction d'influence :
Une fonction d'influence peut ĂȘtre bornĂ©e mais avoir une sensibilitĂ© aux variations locales finie et vice-versa.
Point de rejet
Le point de rejet d'une statistique en est dĂ©fini comme le rayon au delĂ duquel une observation n'a plus aucune influence sur la statistique, Une point de rejet fini signifie que la statistique n'est plus du tout influencĂ©e par des observations trop extrĂȘmes. Ce peut ĂȘtre une propriĂ©tĂ© recherchĂ©e de certains estimateurs si l'on suspecte par exemple que des donnĂ©es aberrantes sont issues d'un processus diffĂ©rent des autres et n'apportent aucune information.
Point de rupture
Le point de rupture (breakdown point en anglais) désigne la proportion de contamination suffisant à donner une valeur aberrante à un estimateur. Plus formellement, c'est la proportion minimale de contamination pouvant induire un biais asymptotique arbitrairement grand :
Le point de rupture de la médiane est par exemple de car il faut nécessairement changer la moitié des données pour pouvoir faire prendre à la médiane n'importe quelle valeur aberrante. Le point de rupture de la moyenne en revanche est de car une seule donnée, placée suffisamment loin des autres, permet de donner à la moyenne n'importe quelle valeur.
Le point de rupture n'est pas dĂ©fini Ă partir de la fonction d'influence mais il y est liĂ©. En effet, un estimateur ayant un point de rupture non nul est nĂ©cessairement B-robuste. La rĂ©ciproque n'est cependant pas vraie en gĂ©nĂ©ral, il existe des estimateurs B-robustes ayant un point de rupture nul, mĂȘme si ceux-ci sont rares.
Propriétés
Espérance de la fonction d'influence
La fonction d'influence est d'espĂ©rance nulle lorsque la contamination suit la mĂȘme loi que les donnĂ©es :
Cette propriété, combinée à l'utilisation de la fonction d'influence comme développement limité permet une approximation intéressante. Considérons un échantillon de variables aléatoires indépendantes et identiquement distribuées suivant une distribution et notons la fonction de répartition empirique de cet échantillon. Alors :
Ce qui permet d'approximer par .
Cela peut ĂȘtre utile pour corriger un Ă©ventuel biais de dĂ» Ă la taille finie de l'Ă©chantillon. Cette correction est trĂšs proche de celle rĂ©alisĂ©e par la mĂ©thode du jackknife. Pour rendre ce lien plus explicite, on peut remplacer dans l'expression prĂ©cĂ©dente par , ce qui revient Ă approximer la fonction d'influence par la courbe de sensibilitĂ©.
Variance asymptotique
La variance asymptotique d'une statistique est dĂ©finie comme la limite de lorsque tend vers l'infini. Elle peut ĂȘtre calculĂ©e Ă partir de la fonction d'influence.
Notons un Ă©chantillon alĂ©atoire oĂč les sont indĂ©pendants et identiquement distribuĂ©s selon une distribution . Alors, la variance asymptotique de correspond Ă la variance de sa fonction d'influence :
Fonction d'influence des M-estimateurs
La fonction d'influence d'un M-estimateur se calcule facilement Ă partir de sa fonction de score. Soit un M-estimateur d'un paramĂštre . Notons sa fonction de score. Ătant donnĂ© un Ă©chantillon, cet estimateur est donc solution de l'Ă©quation .
Alors, si est consistent et vérifie quelques conditions de régularités, la fonction d'influence de est donnée par :
oĂč et oĂč est la vraie valeur du paramĂštre.
La fonction d'influence d'un estimateur est donc proportionnelle à sa fonction de score. Il s'ensuit qu'un M-estimateur est B-robuste si et seulement si sa fonction de score est bornée. Cela donne une grande importance aux M-estimateurs dans les statistiques robustes. En effet il est facile de construire des estimateur robustes par exemple en tronquant simplement la fonction de score d'estimateurs existants (et en corrigeant le biais induit).
Voir aussi
Références
- Frank R. Hampel, « The Influence Curve and its Role in Robust Estimation », Journal of the American Statistical Association, vol. 69, no 346,â , p. 383â393 (ISSN 0162-1459 et 1537-274X, DOI 10.1080/01621459.1974.10482962, lire en ligne)
- (en) Frank R. Hampel, Contributions to the theory of robust estimation : Ph.D. thesis.,
- (en) Frank R. Hampel, Elvezio M. Ronchetti, Peter J. Rousseuw et Werner A. Stahel, Robust Statistics: The Approach Based on Influence Functions, Wiley,
- Christophe Croux, « Limit behavior of the empirical influence function of the median », Statistics & Probability Letters, vol. 37, no 4,â , p. 331â340 (ISSN 0167-7152, DOI 10.1016/s0167-7152(97)00135-1, lire en ligne)
- Stephane Heritier, Eva Cantoni, Samuel Copt et Maria-Pia Victoria-Feser, Robust Methods in Biostatistics, Wiley Series in Probability and Statistics, (ISSN 1940-6347, DOI 10.1002/9780470740538, lire en ligne)
- (en) Ricardo A. Maronna, R. Douglas Martin et Victor J. Yohai, Robust statistics : Theory and Methods, Wiley,