MĂ©diane (statistiques)
En thĂ©orie des probabilitĂ©s et en statistiques, la mĂ©diane est une valeur qui sĂ©pare la moitiĂ© infĂ©rieure et la moitiĂ© supĂ©rieure des termes dâune sĂ©rie statistique quantitative ou dâune variable alĂ©atoire rĂ©elle. On peut la dĂ©finir aussi pour une variable ordinale[1].
Ă lâĂ©lection des prĂ©sidents de la RĂ©publique française
Ă©lus au suffrage universel depuis 1965.
En rangeant ces valeurs dans lâordre croissant,
la mĂ©diane est la valeur du 6e terme, câest-Ă -dire 57.
La mĂ©diane est un indicateur de tendance centrale. Par comparaison avec la moyenne, elle est insensible aux valeurs extrĂȘmes mais son calcul est un petit peu plus complexe. En particulier, elle ne peut sâobtenir Ă partir des mĂ©dianes de sous-groupes.
La donnĂ©e de la mĂ©diane peut sâaccompagner des quartiles ou dâautres quantiles, notamment pour visualiser la distribution des valeurs Ă lâaide dâun diagramme en boite. La notion peut aussi ĂȘtre utilisĂ©e pour construire des estimateurs ou pour dĂ©finir lâalgorithme de recherche par mĂ©diane des mĂ©dianes.
Mode de calcul
Démarche générale
La méthode consiste à ordonner les valeurs en une liste croissante et à choisir la valeur qui est au centre de cette liste. Pour une liste ordonnée de n éléments, n étant impair, la valeur de l'élément à la position (n+1)/2 est la médiane. Si le nombre n d'éléments est pair, toute valeur comprise entre les éléments en positions n/2 et n/2+1 est une médiane[1] ; en pratique, dans le cas d'une liste de nombres, c'est la moyenne arithmétique de ces deux valeurs centrales qui est en général utilisée[2] - [3].
La complexité de l'algorithme de calcul de la médiane est donc la complexité de l'algorithme de tri utilisé, soit au mieux O(n log n).
Exemples
- Ensemble de 7 entiers : {12; 5; 6; 89; 5; 2390; 1}. AprÚs tri, la série est 1, 5, 5, 6, 12, 89, 2390. La médiane est le 4e élément de cette série, donc 6 : quatre valeurs de l'ensemble sont inférieures ou égales à 6, et quatre sont supérieures ou égales à 6.
- Ensemble de 6 entiers : {12; 5; 6; 89; 5; 1}. AprĂšs tri, la sĂ©rie est 1, 5, 5, 6, 12, 89. Toute valeur comprise entre le 3e et le 4e Ă©lĂ©ments de cette sĂ©rie, donc entre 5 et 6, peut ĂȘtre choisie comme mĂ©diane. Si l'on choisit arbitrairement 5,7 (qui est compris entre 5 et 6) trois Ă©lĂ©ments sont infĂ©rieurs ou Ă©gaux Ă 5,7 et trois y sont supĂ©rieurs, donc 5,7 est une mĂ©diane, mais c'est aussi le cas de 5,141, de 5,9 ou de 5,5. On prendra gĂ©nĂ©ralement cette derniĂšre valeur comme mĂ©diane puisqu'elle est la moyenne arithmĂ©tique des deux Ă©lĂ©ments centraux 5 et 6.
- Supposons 21 personnes dans une piĂšce. Chacune prend l'argent de sa poche et le pose sur une table : 20 personnes posent 5 euros, et la derniĂšre pose 10 000 euros. La mĂ©diane est l'Ă©lĂ©ment central, le onziĂšme, de la liste ordonnĂ©e 5, 5, 5, âŠ, 5, 10 000. C'est donc 5 : onze personnes dĂ©tenaient chacune au moins 5 euros, et onze dĂ©tenaient au plus 5 euros. On remarque que si la personne la plus riche ne s'Ă©tait pas prĂ©sentĂ©e, la mĂ©diane aurait Ă©tĂ© la mĂȘme (5 âŹ), mais la moyenne aurait radicalement changĂ© (5 ⏠au lieu de 480,95 âŹ).
- Un sondage express rĂ©alisĂ© auprĂšs de 50 utilisateurs de WikipĂ©dia rĂ©vĂšle que 12 des sondĂ©s se disent trĂšs satisfaits, 7 trĂšs insatisfaits, 20 plutĂŽt satisfaits et les autres se disent plutĂŽt insatisfaits. Cet ensemble de rĂ©ponses peut ĂȘtre rangĂ© par satisfaction croissante, et on obtient une liste de cinquante Ă©lĂ©ments dans cet ordre : 7 trĂšs insatisfaits, 11 plutĂŽt insatisfaits, 20 plutĂŽt satisfaits, 12 trĂšs satisfaits. Les deux Ă©lĂ©ments centraux, le 25e et le 26e, ont la mĂȘme valeur : « plutĂŽt satisfait ». Cette valeur est donc la valeur mĂ©diane de l'ensemble des rĂ©ponses.
Autre démarche
Pour déterminer une médiane d'un ensemble de valeurs, il suffit de calculer les pourcentages cumulés croissants et on prend la premiÚre valeur de la série dont le pourcentage cumulé atteint ou dépasse 50 %.
Cette méthode est plus pratique lorsque l'on a un grand nombre de valeurs.
Efficacité des algorithmes
Il existe des algorithmes de complexitĂ© linĂ©aire (en O(n)), donc plus performants[4]. Il s'agit d'algorithmes qui permettent de maniĂšre gĂ©nĂ©rale de dĂ©terminer le k-iĂšme Ă©lĂ©ment d'une liste de n Ă©lĂ©ments (voir Algorithme de sĂ©lection) ; k = n/2 pour la mĂ©diane. Ce sont des adaptations des algorithmes de tri, mais qui sont plus performants du fait que l'on ne s'intĂ©resse pas Ă toutes les valeurs. On peut par exemple utiliser l'algorithme diviser pour rĂ©gner en seulement O(n) opĂ©rations ; c'est le cas de l'algorithme quickselect, variation du Tri rapide (quicksort), qui est en gĂ©nĂ©ral en O(n) mais peut ĂȘtre en O(n2) dans le pire des cas.
Dans la pratique, si l'on cherche la mĂ©diane d'une liste de n entiers, et si l'on a la chance de constater que la valeur maximale m est infĂ©rieure Ă n2 (cette constatation coĂ»te O(n)), alors le tri par comptage, de mise en Ćuvre trĂšs facile et dont le coĂ»t est, en l'espĂšce, de O(m) opĂ©rations, permet d'obtenir la mĂ©diane en moins de O(n2) opĂ©rations. Ce cas s'applique en particulier au cas des notes sur 20 (sans dĂ©cimales) d'une classe de plus de 5 Ă©lĂšves (5 au carrĂ© est supĂ©rieur Ă 20).
Mesure de la dispersion statistique
Lorsque la médiane est utilisée pour situer des valeurs en statistiques descriptives, il existe différentes possibilités pour exprimer la variabilité : l'étendue, l'écart interquartile et l'écart absolu.
Médianes dans les distributions de probabilités
Pour toutes distributions de probabilités réelles, la médiane m satisfait l'égalité :
c'est-à -dire en termes de fonction de répartition :
Ainsi pour une distribution de probabilités diffuse (fonction de répartition continue) :
MĂ©dianes de certaines distributions
Pour toutes les distributions symétriques, la médiane est égale à l'espérance.
- La mĂ©diane de la loi normale d'espĂ©rance ÎŒ et de variance Ï2 est ÎŒ. Pour cette distribution, espĂ©rance = mĂ©diane = mode.
- La médiane de la loi uniforme continue dans l'intervalle [a, b] est (a + b) / 2, qui est aussi l'espérance.
- La médiane de la loi de Cauchy avec le critÚre de position x0 et le paramÚtre d'échelle y est x0, le critÚre de position.
- La médiane de la loi exponentielle avec le facteur d'échelle λ est la division du logarithme népérien de 2 par le facteur d'échelle, soit (ln 2)/λ.
- La médiane de la distribution de Weibull avec le facteur de forme k et le facteur d'échelle λ est λ(log 2)1/k.
MĂ©dianes en statistiques descriptives
La mĂ©diane est principalement utilisĂ©e pour les distributions asymĂ©triques, car elle les reprĂ©sente mieux que la moyenne arithmĂ©tique. ConsidĂ©rons l'ensemble {1, 2, 2, 2, 3, 9}. La mĂ©diane est 2, tout comme le mode, ce qui est une meilleure mesure de tendance centrale que la moyenne arithmĂ©tique Ă©gale Ă 3,166âŠ.
Le calcul de la mĂ©diane est couramment effectuĂ© pour reprĂ©senter diffĂ©rentes distributions et elle est facile Ă comprendre, tout comme Ă calculer. Elle est aussi plus robuste que la moyenne en prĂ©sence de valeurs extrĂȘmes.
Propriétés théoriques
Propriété optimale
La médiane est aussi la valeur centrale qui minimise la valeur moyenne des écarts absolus. Dans la série {1, 2, 2, 2, 3, 9} donnée auparavant, ce serait (1 + 0 + 0 + 0 + 1 + 7) / 6 = 1,5, plutÎt que 1,944 à partir de la moyenne, qui, elle, minimise les écarts quadratiques. En théorie des probabilités, la valeur c qui minimise
est la médiane de la distribution de probabilités de la variable aléatoire X.
Inégalité impliquant les moyennes et les médianes
Pour les distributions continues de probabilités, la différence entre la médiane et l'espérance est au plus d'un écart type.
Notes et références
- « Calcul de la médiane », Statistique Canada.
- Fabrice Mazerolle, « Médiane », (consulté le ).
- Eduscol, Baccalauréats professionnels Ressources pour la classe - Statistique et probabilités, 2009, p.2 (3)
- [(en) Selection (deterministic & randomized): finding the median in linear time]
Voir aussi
Articles connexes
Liens externes
- Ressource relative à la santé :
- (en) NCI Thesaurus
- Notices dans des dictionnaires ou encyclopédies généralistes :
- Calcul de la médiane
- (en) mathworld: Statistical Median