Règle de Sturges
La règle de Sturges est une formule mathématique proposée par Herbert Sturges (1882-1958)[1]. Elle sert à découper une plage de valeurs en tranches pour en faire la description statistique : tableaux de fréquences, histogramme, etc.
Formulation
Soit un échantillon de N valeurs observées. On souhaite représenter la répartition, ou distribution, de ces données dans leur plage de valeurs. Pour ce faire, on découpe la plage en un certain nombre k de tranches – ou classes – afin de recueillir le nombre d'observations par tranche. Ces nombres, les fréquences, peuvent être affichés dans un graphique en colonnes appelé « histogramme ».
Sturges a proposé une valeur approximative pour le nombre k en fonction de la taille N de l'échantillon :
où log2 est le logarithme en base 2.
Le résultat ne sera pas, en général, entier. Il donne une appréciation de ce qui ferait un bon découpage.
Formule alternative
La plupart des calculatrices ne comportant pas de touche pour le log2, on peut utiliser la base 10, en profitant du fait que log10(2) vaut 0,30103 ≈ 3/10.
Justification
Le calcul de Sturges repose sur l'analyse d'un échantillon suivant une distribution gaussienne (courbe en cloche), qu'il approxime par une distribution binomiale de paramètre p = 12, quitte à faire une translation des valeurs de l'échantillon.
Pour une telle distribution, la probabilité de la valeur x vaut
Il y a n + 1 valeurs x possibles (de 0 à n). En particulier, f(0) ou f(n) valent 1/2n. Pour que les fréquences de ces valeurs donnent des nombres entiers, il faut au minimum que le nombre d'observations soit égal à 2n. Donc, puisqu'à N = 2n observations correspondent k = n + 1 valeurs possibles, Sturges propose de répartir N observations en log2 N + 1 tranches.
Critique
La construction de la formule se base sur une distribution symétrique, de distribution binomiale ou gaussienne. Pour peu que les données à représenter ne suivent pas cette forme, le nombre de tranches n'a plus de justification.
Par exemple, dès que les données d'échantillon ont une distribution asymétrique, ou présentant des valeurs largement étalées, le nombre de classes ne sera pas optimal[2].
Une formule alternative est la règle de Yule :
Une autre est celle de Freedman–Diaconis : où IQ(x) est l'écart inter-quartile de la plage de données x.
Notes et références
- (en) Herbert A. Sturges, « The Choice of a Class Interval », Journal of the American Statistical Association, vol. 21, n° 153, mars 1926, p. 65-66
- (en) Rob J. Hyndman, The problem with Sturges' rule
- (en) D. W. Scott, « Sturges' rule », WIREs Computational Statistics, vol. 1, , p. 303-306
- (en) L. Birgé et Y. Rozenholc, « How many bins should be put in a regular histogram », ESAIM: Probability and Statistics, vol. 10, , p. 24-45 (lire en ligne)
- (en) David Freedman et Persi Diaconis, « On the histogram as a density estimator: L2 theory », Probability Theory and Related Fields, vol. 57, no 4, , p. 453-476 (ISSN 0178-8051, lire en ligne)