Moyenne tronquée
Une moyenne tronquĂ©e, ou moyenne rĂ©duite, est une mesure statistique de centralitĂ©, similaire Ă la moyenne arithmĂ©tique et Ă la mĂ©diane, qui consiste Ă calculer une moyenne arithmĂ©tique en Ă©liminant les valeurs extrĂȘmes.
Histoire
Les statistiques tronquées (en), ont été inventées pour pallier la sensibilité des statistiques aux valeurs aberrantes, ce qu'on appelle la robustesse statistique. Leur avantage sur la médiane et sur la moyenne arithmétique est d'allier la robustesse de la médiane, à la définition "collective" de la moyenne arithmétique, la formule de calcul ressemblant fort à celle de cette moyenne arithmétique, lui conférant un avantage sur la médiane pour laquelle il n'existe pas de formule explicite.
Historiquement, cette technique a eu son heure de gloire dans la premiÚre moitié du XXe siÚcle comme méthode de "correction" des valeurs aberrantes, et avec l'apparition des premiers calculateurs, notamment jusqu'aux travaux plus récents pour mieux cerner la notion de robustesse (Peter Rousseeuw (en), en anglais).
Principe
L'idée de la troncation, opération dont le résultat s'appelle une troncature de l'ensemble des données, est de ne pas tenir compte des valeurs les plus éloignées, considérées alors comme aberrantes, et ainsi, dans le cas de la moyenne dite tronquée, de ne la calculer que sur un sous-ensemble "central" des données. Cette procédure est généralisable à d'autres estimateurs centraux.
En pratique, la troncation ne considĂšre donc de l'ensemble initial des donnĂ©es qu'un sous-ensemble Ă©laguĂ© des donnĂ©es situĂ©es en deçà d'une limite infĂ©rieure et/ou au-delĂ d'une supĂ©rieure (troncature unilatĂ©rale) ou les deux (troncature bilatĂ©rale). La ou les limites sont le ou les quantiles d'une fraction de troncature choisie. Par exemple, pour une troncature Ă 5 %, ce qui signifie qu'on ignore 5 % des donnĂ©es « les plus Ă©loignĂ©es », on filtre par l'intervalle [x(2,5 %), x(97,5 %)] (oĂč "x(p %)" est le quantile Ă p%) en bilatĂ©ral, ou [x(5 %), +â[ en unilatĂ©ral infĂ©rieur, etc., et l'on calcule la moyenne sur les seules donnĂ©es sĂ©lectionnĂ©es.
La notation classique est , unilatĂ©ral ou bilatĂ©ral (choix souvent liĂ© au contexte ; par exemple, en chimie analytique, pour des mesures de concentrations d'un produit dont certaines valeurs faibles peuvent ĂȘtre influencĂ©es par la limite de dĂ©tection, choix d'une troncature unilatĂ©rale infĂ©rieure ; pour des mesures Ă©lectroniques oĂč un seuil de saturation est anticipĂ© et corrigĂ© par dĂ©faut, troncature unilatĂ©rale supĂ©rieure ; pour le rapport de deux grandeurs extensives proches de leurs limites de dĂ©tection, afin d'Ă©viter un effet de type distribution de Cauchy, Ă extrĂ©mitĂ©s "lourdes" - divergence de la dispersion -, troncature bilatĂ©rale ; etc.).
La limite de la moyenne tronquée bilatérale quand le taux de troncature tend vers 100 %, est la médiane.
Cette fonction est disponible dans la plupart des logiciels spécialisés de statistique, et dans certains tableurs (par exemple sous Libre Office, Open Office ou Microsoft Excel, sous le nom de "MOYENNE.REDUITE").
Exemples d'utilisation
La notation dans plusieurs sports évalués par un jury (par exemple le patinage artistique ou la gymnastique) utilise une moyenne tronquée: le score le plus élevé et le plus bas obtenus sont ignorés, et une moyenne arithmétique est calculée sur les notes restantes[1].
Le Libor, une sĂ©rie de taux de rĂ©fĂ©rence du marchĂ© monĂ©taire, est calculĂ© en utilisant une moyenne tronquĂ©e: un Ă©chantillon de 18 banques indiquent le taux moyen auquel elles prĂȘtent "en blanc" (câest-Ă -dire sans que le prĂȘt soit gagĂ© par des titres) Ă d'autres grandes banques; les quatre rĂ©ponses les plus faibles et les quatre les plus hautes sont ignorĂ©es, et le taux de rĂ©fĂ©rence est calculĂ© en faisant la moyenne arithmĂ©tique des dix valeurs restantes[2].
Notes et références
- (en) Carl Bialik, « Removing Judges' Bias Is Olympic-Size Challenge », sur The Wall Street Journal, (consulté le ).
- (en) « bbalibor: The Basics » (consulté le )