AccueilđŸ‡«đŸ‡·Chercher

Histogramme

En statistique, un histogramme est une représentation graphique permettant de représenter la répartition empirique d'une variable aléatoire en la représentant avec des colonnes correspondant chacune à une classe.

Histogramme
Type
Représentation graphique de données statistiques (en)
DĂ©crit par
ISO 3534-1:2006(en) Statistics — Vocabulary and symbols — Part 1: General statistical terms and terms used in probability (d)
Aspect de
Exemple d'histogramme. Échantillon de 100 valeurs gĂ©nĂ©rĂ©es pour une distribution normale N(0,1).

Un outil d'exploration des données

L’histogramme est un moyen rapide pour Ă©tudier la rĂ©partition d’une variable. Il peut ĂȘtre, en particulier utilisĂ© en gestion de la qualitĂ© lorsque les donnĂ©es sont obtenues lors d’une fabrication.

Exemples :

L’histogramme est un outil « visuel » qui permet de dĂ©tecter certaines anomalies ou de faire un diagnostic avant d’engager une dĂ©marche d’amĂ©lioration. UtilisĂ© dans ce cadre, l’histogramme est un outil « qualitatif ». Pour pouvoir bien mener l’étude de la dispersion d’une variable Ă  l’aide d’un ou de plusieurs histogrammes, il faut avoir une bonne connaissance de la variable Ă©tudiĂ©e. De mĂȘme, il faut connaĂźtre les conditions de collecte des donnĂ©es : frĂ©quence de mesure, outil de mesure utilisĂ©, possibilitĂ© de mĂ©lange de lots, possibilitĂ© de tri etc.

Collecte des données

La premiĂšre phase est la collecte des donnĂ©es en cours de fabrication. Cette collecte peut ĂȘtre rĂ©alisĂ©e soit de façon exceptionnelle Ă  l’occasion de l’étude de la variable soit en utilisant un relevĂ© automatique ou manuel fait lors d’un contrĂŽle rĂ©alisĂ© dans le cadre de la surveillance du procĂ©dĂ© de fabrication.

Sans qu’il soit rĂ©ellement possible de donner un nombre minimum, il faut que le nombre de valeurs relevĂ©es soit suffisant. Plus on dispose d’un nombre Ă©levĂ© de valeurs, plus l’interprĂ©tation sera aisĂ©e.

Nombre de classes

Le choix des classes, soit leur nombre et leurs largeurs, n'est pas univoque. Il convient pour les dĂ©terminer de prendre en compte Ă  la fois la nature de la distribution et le nombre de points de donnĂ©es. Souvent, dans le cadre d’une analyse de ce type, on utilise des classes de largeur identique.

On pourra trouver dans la littérature de nombreuses suggestions de choix pour le nombre de classe. Citons par exemple :

  • Celle de Herbert Sturges (1926)[1] qui, pour N points de donnĂ©es rĂ©partis avec une distribution approximativement normale, suggĂšre un nombre de classes K obtenu avec la formule suivante [2] :

On pourra consulter utilement l'article RĂšgle de Sturges Ă  ce propos.

  • L'alternative Ă  la rĂšgle prĂ©cĂ©dente est la rĂšgle dite de Rule [3] oĂč

En tout Ă©tat de cause, l’histogramme Ă©tant un outil visuel, il est possible de faire varier le nombre de classes. Ceci permet de voir l’histogramme avec un nombre diffĂ©rent de classes et ainsi de trouver le meilleur compromis qui facilitera l’interprĂ©tation. L’utilisation d’un logiciel dĂ©diĂ© ou plus simplement d’un tableur facilite cette opĂ©ration.

Intervalles de classe

L’amplitude (minimale) w de l’histogramme est

Il peut cependant ĂȘtre intĂ©ressant pour obtenir un histogramme plus parlant de choisir une amplitude plus large que l'amplitude minimale.

L’amplitude h thĂ©orique de chaque classe est alors :

Il faut arrondir cette valeur Ă  un multiple de rĂ©solution de l’instrument de mesure (arrondi Ă  l'excĂšs).

Exemple : Soit la masse d’une prĂ©paration culinaire avant conditionnement. Le calcul d'amplitude de classe donne hth = 0,014 kg. La rĂ©solution de la balance utilisĂ©e est de 0,001 kg. On arrondit la valeur h Ă  0,015 kg.

Les classes peuvent ĂȘtre du type [limite infĂ©rieure ; limite supĂ©rieure[ ou ] limite infĂ©rieure ; limite supĂ©rieure].

La valeur minimale de la premiÚre classe est donnée par la valeur minimale de la série moins une demi-résolution.

Exemple : la valeur la plus petite relevĂ©e lors de la fabrication de la prĂ©paration culinaire est de 0,498 kg. La limite infĂ©rieure sera : 0,498 – (0,001 / 2) = 0,497 5 kg.

Pour plus de facilitĂ©, il est prĂ©fĂ©rable de prendre une valeurs « ronde » par exemple 0,495 kg

Hauteur des rectangles

Plusieurs choix sont possibles pour déterminer la hauteur des rectangles.

  1. Les hauteurs correspondent aux fréquences absolues, soit pour chaque rectangle le nombre d'observations dans la classe correspondante.
  2. Les hauteurs correspondent aux fréquences relatives, soit pour chaque rectangle la proportion, donnée par exemple en pourcentage, d'observations dans la classe correspondante.
  3. Les hauteurs sont déterminées de maniÚre que la surface du rectangle corresponde à la fréquence relative d'observations dans la classe correspondante.

La troisiÚme méthode permet en outre d'accommoder des classes de largeurs variables ce qui est utile lorsque les données sont peu denses dans certaines régions comme dans les queues de distribution.

Exemple

Soit la fabrication de rations alimentaires, la pesée des rations avant emballage donne la série de mesures suivantes en kg :

0,547 0,563 0,532 0,521 0,514 0,547 0,578 0,532 0,552 0,526 0,534 0,560 0,502 0,503 0,516 0,565
0,532 0,574 0,521 0,523 0,542 0,539 0,543 0,548 0,565 0,569 0,574 0,596 0,547 0,578 0,532 0,552
0,554 0,596 0,529 0,555 0,559 0,503 0,499 0,526 0,551 0,589 0,588 0,568 0,564 0,568 0,556 0,523
0,526 0,579 0,551 0,584 0,551 0,512 0,536 0,567 0,512 0,553 0,534 0,559 0,498 0,567 0,589 0,579

Les caractéristiques du relevé sont les suivantes :

  • Le nombre d'Ă©chantillons : N=64
  • L'Ă©tendue : w=0,098 kg
  • Valeur minimale : 0,498 kg
  • Valeur maximale : 0,596 kg

On en déduit les paramÚtres suivants pour l'histogramme :

  • Le nombre de classes est de 7 (en utilisant la formule avec le logarithme)
  • L'amplitude de classe est 0,098/7 = 0,014 kg que l'on arrondit Ă  0,015 kg (rĂ©solution de la balance : 0,001 kg)
  • La valeur minimale de la premiĂšre classe est de 0,498 – (0,001/2) = 0,4975. Par souci de facilitĂ© pour l'interprĂ©tation, on peut arrondir cette valeur Ă  0,495 kg.

On obtient l'histogramme suivant :

Interprétation

Comparaison d'un histogramme avec la courbe d'une loi normale.

La distribution de beaucoup de paramĂštres industriels correspond souvent Ă  une loi normale. On compare souvent l'histogramme obtenu au profil « en cloche » de la loi normale. Cette comparaison est visuelle et mĂȘme si elle peut ĂȘtre une premiĂšre approche, elle ne constitue pas un test de « normalitĂ© ». Pour cela, il faut exĂ©cuter un test dont un des plus classiques est la droite de Henry.

La distribution suivant la loi normale, si elle est extrĂȘmement frĂ©quente, n'est pas systĂ©matique. On vĂ©rifiera que la distribution ne correspond pas Ă  une distribution de dĂ©faut de forme (exemple : mesure de l'excentration dans un tube, position d'objets lancĂ©s dans la direction d'un mur dont certains rebondissent sur ce mur).

L'interprétation peut, par exemple, donner les résultats suivants :

Histogramme montrant un mélange de deux lots. Histogramme montrant un mélange de deux lots mais avec une moyenne proche. On veillera dans ce cas à faire aussi varier le nombre de classes pour vérifier qu'il ne s'agit pas d'un problÚme de construction. Histogramme montrant que le lot a subi un tri. Tous les éléments pour lesquels la valeur du paramÚtre mesuré était inférieure à A ont été supprimés.

Dans le cas d'histogramme montrant un mĂ©lange de deux lots ayant une moyenne diffĂ©rente, il existe des cas oĂč la dispersion prĂ©sente cet aspect sans pour autant incriminer un mĂ©lange. C'est par exemple le cas de la mesure d'une piĂšce cylindrique mais qui prĂ©sente un dĂ©faut de type ovalisation. Les deux moyennes reprĂ©sentent alors le grand diamĂštre et le petit diamĂštre. C'est la connaissance du procĂ©dĂ© et/ou du produit qui permet de rĂ©aliser ce type d'interprĂ©tation.

Un outil pour estimer une densité

Dans cette section, on utilise l'histogramme non pas comme un outil de visualisation, mais comme une estimation statistique de la distribution sous-jacente de l'échantillon. On dispose d'un échantillon indépendamment et identiquement distribué selon une loi. On souhaite déduire de l'échantillon une estimation de la densité inconnue, notée f.

Le cas discret

On recherche les probabilités qui caractérisent la distribution. On note cette distribution f par abus. Un estimateur naturel est:

oĂč est le nombre d'observations de l'Ă©chantillon qui sont Ă©gales Ă  x. Une maniĂšre alternative de noter cet estimateur est:

oĂč est la fonction indicatrice : elle vaut 1 lorsque son argument est vrai.

Le cas continu

L'estimateur précédent n'est plus valable, car dans le cas continu, on ne peut plus compter le nombre d'observations exactement égales à x. Par contre, on peut considérer une boßte centrée en x, et de largeur h, paramÚtre positif. On peut compter le nombre d'observations approximativement (et non plus exactement) égales à x, en comptant les observations tombant dans ladite boßte. L'estimateur[4] devient:

ou encore, en posant :

.

Le paramĂštre h contrĂŽle le niveau de lissage de l'estimation et doit ĂȘtre recherchĂ© avec soin. L'estimateur prĂ©cĂ©dent prĂ©sente de bonnes propriĂ©tĂ©s comparables Ă  celles d'une densitĂ© continue:

  • il est positif ;
  • il s'intĂšgre Ă  l'unitĂ©.

Toutefois, il prĂ©sente un gros dĂ©faut pour pouvoir estimer une densitĂ©: il n'est pas continu. Pour gagner la continuitĂ©, on utilisera l'estimateur de Parzen (ou Ă  noyau). Le principe est simple: il suffit de remplacer la fonction indicatrice par une fonction rĂ©elle, qui attribue un poids d'autant plus important que les observations sont situĂ©es Ă  proximitĂ© de x. À titre d'exemple voici deux estimations de densitĂ© par la mĂ©thode des noyaux avec des paramĂštres diffĂ©rents :

Histogramme lissé par la méthode des noyauxHistogramme lissé par la méthode des noyaux

Origine

William Playfair (Commercial and political atlas, 1786) est le premier promoteur de l'exploitation des observations statistiques par des courbes de distribution et des diagrammes en bùtons. Le mot histogramme a été proposé par Pearson en 1895.

Notes et références

  1. (en) Herbert Sturges, « The choice of a class-interval », J. Amer. Statist. Assoc., no 21,‎ , p. 65-66
  2. Maurice Pillet, Appliquer la maĂźtrise statistique des procĂ©dĂ©s MSP/SPC, Les Éditions d'Organisation, 1995
  3. Online Statistics Education: A Multimedia Course of Study (http://onlinestatbook.com/). Project Leader: David M. Lane, Rice University (chapter 2 "Graphing Distributions", section "Histograms")
  4. Fix, E., Hodges Jr., J., 1951. Discriminatory analysis: non-parametric discrimination: Consistency properties. Report No. 4, USAF School of Aviation Medicine, Randolph Field, TX.

Voir aussi

Bibliographie

  • Maurice Lethielleux, Statistique descriptive, Ă©ditions Dunod, Paris, 1999 (ISBN 2 10 003513 4), 124 pages.
  • Maurice Pillet, Appliquer la maĂźtrise statistique des procĂ©dĂ©s MSP/SPC, Les Éditions d'Organisation, 1995 (ISBN 2-7081-1774-2), 336 pages.
  • Pierre Souvay, Statistique et qualitĂ©, AFNOR, Paris, collection « À savoir », 1994, 40 pages.
  • Pierre Souvay, Savoir utiliser la statistique, outil Ă  la dĂ©cision et Ă  l'amĂ©lioration de la qualitĂ©, AFNOR, Saint-Denis-la-Plaine, 2002 (ISBN 2-12-475821-7), 434 pages

Articles connexes

Lien externe

Cet article est issu de wikipedia. Text licence: CC BY-SA 4.0, Des conditions supplĂ©mentaires peuvent s’appliquer aux fichiers multimĂ©dias.