Histoire de la statistique
On attribue à l'histoire de la statistique ou des statistiques la date de commencement de 1749, bien que l'interprétation du terme « statistique » a changé au cours du temps. Aux temps plus anciens, cette science ne consistait qu'à la collection d'informations des États[1], d'où l'étymologie du nom, de l'allemand Statistik, dérivé de l'italien statista ("Homme d'État")[2]. Plus tard, cette définition est étendue à tout type d'information collectée et, encore plus tard, les sciences statistiques incluent l'analyse et l'interprétation de ces données. En termes modernes, les statistiques incluent les ensembles de données, telles celles de la comptabilité nationale et les registres de températures (en), ainsi que le travail d'analyse, lequel requiert les méthodes de l'inférence statistique.
Origines : collecte de données
Monde antique jusqu'au XVIIe siècle
La science statistique semble exister dès la naissance des premières structures sociales. D'ailleurs, les premiers textes écrits retrouvés étaient des recensements du bétail, des informations sur son cours et des contrats divers. On a ainsi trace de recensements en Chine au XXIIIe siècle av. J.-C. ou en Égypte au XVIIIe siècle av. J.-C. Ce système de recueil de données se poursuit jusqu'au XVIIe siècle. En Europe, le rôle de collecteur est souvent tenu par des guildes marchandes, puis par les intendants de l'État.
Civilisations précolombiennes
La civilisation Inca (1400-1530) a développé un système de numération positionnel en base 10 (donc similaire à celui utilisé aujourd'hui). Ne connaissant pas l'écriture[3], ils utilisaient des quipus pour « écrire » les statistiques de l'État. Un quipu est un encordage dont les cordes présentent trois types de nœuds symbolisant respectivement l'unité, la dizaine et la centaine[4]. Un agencement des nœuds sur une corde donne un nombre entre 1 et 999 ; les ajouts de cordes permettant de passer au millier, au million, etc.
Le jésuite et chroniqueur espagnol Bernabé Cobo (1983 [1653]: 253–254)[5], venu au Pérou après la conquête (1532), rapporte un témoignage indiquant que les quipucamayocs (maîtres du Quipu) étaient chargés de recenser toutes les données relatives aux récoltes. Dans une étude approfondie du quipu VA 42527 (Museum für Völkerkunde, Berlin), Sáez-RodrÃguez (2013)[6] démontre que les écritures comptables de clôture des comptes se rapportant aux greniers (à grains) permettaient au quipucamayoc (chargé de la comptabilité) de les faire correspondre au calendrier lunaire[7].
XVIIIe siècle
Ce n'est qu'au XVIIIe siècle que l'on voit apparaître le rôle prévisionnel des statistiques avec la construction des premières tables de mortalité. Antoine Deparcieux écrit en 1746 l'Essai sur les probabilités de la durée de vie humaine. Elle va d'abord servir aux compagnies d'assurances sur la vie qui se créent alors[8].
XIXe siècle
Démographie
La statistique est aussi un appui pour l'histoire prospective ou rétrospective de la démographie notamment. Ainsi en 1842, le Baron de Reiffenberg présentait-il[9] à l'Académie ses calculs rétrospectifs de population chez des peuples gaulois, d'après des chiffres donnés par Jules César dans sa conquête des gaules (De bello Gallico, v.).
Florence Nightingale est une pionnière de la présentation visuelle de l'information. Elle utilise entre autres les diagrammes circulaires, les "Pie Chart", développés par William Playfair en 1801. Après la guerre de Crimée, elle se met à utiliser une version améliorée de ces diagrammes (équivalant aux histogrammes circulaires d'aujourd'hui), afin d'illustrer les causes saisonnières de mortalité des patients de l'hôpital militaire qu'elle gère. Par la suite, Nightingale réalise une étude statistique complète du système sanitaire dans les campagnes indiennes. Elle devient la figure majeure de l'amélioration des soins médicaux et des services publics de santé, en Inde et en Angleterre.
Statistiques mathématiques
Les statistiques mathématiques s'appuyaient sur les premiers travaux concernant les probabilités développés par Fermat et Pascal. C'est probablement chez Thomas Bayes que l'on vit apparaître un embryon de statistique inférentielle. Condorcet et Laplace parlaient encore de probabilité là où l'on parlerait aujourd'hui de fréquence. Mais c'est à Adolphe Quetelet que l'on doit l'idée que la statistique est une science s'appuyant sur les probabilités.
Pierre-Simon de Laplace fait entrer l'analyse dans la théorie des probabilités dans sa théorie analytique des probabilités de 1812 qui restera longtemps un monument. Son livre donne une première version du théorème central limite qui ne s'applique alors que pour une variable à deux états, par exemple pile ou face mais pas un dé à 6 faces. Il faudra attendre 1901 pour en voir apparaître la première version générale par Liapounov. C'est aussi dans ce traité qu'apparaît la méthode de Laplace pour l'évaluation asymptotique de certaines intégrales.
Sous l'impulsion de Quetelet, qui ouvre en 1841 le premier bureau statistique le Conseil Supérieur de Statistique, les statistiques se développent et deviennent un domaine à part entière des mathématiques qui s'appuie sur les probabilités mais n'en font plus partie.
La théorie moderne des probabilités ne prend réellement son essor qu'avec la notion de mesure et d'ensembles mesurables qu'Émile Borel introduit en 1897.
Informatique
Le XIXe siècle voit cette activité prendre son plein essor. Des règles précises sur la collecte et l'interprétation des données furent édictées. La première application industrielle des statistiques eut lieu lors du recensement américain de 1890, qui mit en œuvre la carte perforée inventée par le statisticien Herman Hollerith. Celui-ci avait déposé un brevet au bureau américain des brevets.
Physique
Astronomie
Legendre en 1805[10] 1811[11] puis Gauss en 1809[12] introduisent, sur des problèmes d'astronomie, la méthode des moindres carrés, ensemble de méthodes qui deviendront fondamentales en statistiques.
Thermodynamique
Ludwig Boltzmann formalise mathématiquement en 1872 l'évolution d'un gaz peu dense hors équilibre. L'« équation de Boltzmann » est l'équation intégro-différentielle de la théorie cinétique permettant d'évaluer la répartition des énergies cinétiques, à une température donnée, des molécules d'un gaz[13].
Boltzmann considère que le système étudié est composé d'un grand nombre de « petits » systèmes isolés de même nature se distinguant les uns des autres par leur phase — à savoir leur configuration et leur vitesse. Ne pouvant suivre l'évolution de l'un de ces systèmes, il « détermine la distribution de l'ensemble des systèmes parmi toutes les phases qu'ils peuvent prendre à un instant quelconque ». Ces considérations statistiques sont les prémices de l'établissement de la physique statistique[14].
XXe siècle
Ramac 305 à l'arsenal de Red River de l'U.S. Army. Au premier plan : deux lecteurs de 350 disques ; au fond : console 380 et unité de calcul 305.
Au XXe siècle, ces applications industrielles se développèrent d'abord aux États-Unis, qui étaient en avance sur les sciences de gestion, puis seulement après la Première Guerre mondiale en Europe. Le régime nazi employa des méthodes statistiques à partir de 1934 pour le réarmement. En France, on était moins au fait de ces applications.
L'application industrielle des statistiques en France se développe avec la création de l'Insee, qui remplaça le Service National des Statistiques créé par René Carmille.
L'avènement de l'informatique dans les années 1940 (aux États-Unis), puis en Europe (dans les années 1960) permit de traiter un plus grand nombre de données, mais surtout de croiser entre elles des séries de données de types différents. C'est le développement de ce qu'on appelle l'analyse multidimensionnelle. Au cours du siècle, plusieurs courants de pensée vont s'affronter :
- les objectivistes ou fréquentistes (en) qui pensent que les probabilités fournissent un modèle permettant d'idéaliser la distribution en fréquence et que là s'arrête leur rôle ;
- les subjectivistes (en) qui voient les probabilités comme un moyen de mesurer la confiance que l'on peut avoir dans une prévision ;
- les néo-bayesiens qui soutiennent que les données statistiques seules ne permettent pas de donner le modèle probabiliste idéalisant la distribution en fréquence: il est nécessaire de proposer au départ une forme générale du modèle.
Contributeurs importants aux statistiques
- Thomas Bayes
- George E. P. Box
- Pafnouti Tchebychev
- David Cox
- Gertrude Cox
- Harald Cramér
- Francis Ysidro Edgeworth
- Bradley Efron
- Bruno de Finetti
- Ronald Aylmer Fisher
- Francis Galton
- Carl Friedrich Gauss
- William Gosset ou « Student »
- Andrey Kolmogorov
- Pierre-Simon Laplace
- Erich L. Lehmann
- Aleksandr Lyapunov
- Abraham De Moivre
- Jerzy Neyman
- Florence Nightingale
- Blaise Pascal
- Karl Pearson
- Charles S. Peirce
- Adolphe Quetelet
- C. R. Rao
- Walter A. Shewhart
- Charles Spearman
- Thorvald Nicolai Thiele
- John Tukey
- Abraham Wald
Bibliographie
- (en) Stephen Stigler, The History of Statistics : The Measurement of Uncertainty Before 1900, The Belknap Press,
- Alain Desrosières, La Politique des grands nombres : Histoire de la raison statistique, Paris, La Découverte, , 2e éd. (1re éd. 1993), 456 p. (ISBN 978-2-7071-3353-3)
- (en) David Salsburg, The Lady Tasting Tea : How statistics revolutionized science in the twentieth century, Holt McDougal, , 1re éd., 340 p. (ISBN 978-0-8050-7134-4)
- (en) Stephen Stigler, Statistics on the Table : The History of Statistical Concepts and Methods, Harvard University Press,
Références
- « Pablo Jensen: «Transformer le monde en chiffres, c’est une opération très subjective» », Libération.fr,‎ (lire en ligne, consulté le )
- .
- Seules les données archéologiques apportent des informations sur leur organisation.
- Marcia Ascher, Mathématiques d'ailleurs, Nombres, Formes et Jeux dans les sociétés traditionnelles, Éditions du Seuil, 1998.
- Cobo, B. (1983 [1653]). Obras del P. Bernabé Cobo. Vol. 1. Edited and preliminary study By Francisco Mateos. Biblioteca de Autores Españoles, vol. 91. Madrid: Ediciones Atlas.
- Sáez-RodrÃguez. A. (2012). An Ethnomathematics Exercise for Analyzing a Khipu Sample from Pachacamac (Perú). Revista Latinoamericana de Etnomatemática. 5(1):62–88.
- Sáez-RodrÃguez. A. (2013). Knot numbers used as labels for identifying subject matter of a khipu. Revista Latinoamericana de Etnomatemática. 6(1): 4-19.
- Almanach des Français, traditions et variations, page 194.
- Essai sur la statistique ancienne de la Belgique. I. Population. - II. Architecture. - III. Mobbilier, Costumes. Par le Baron de Reiffenberg, Seconde partie séance de l'académie du 3 novembre 1832, Bruxelles, PDF, 142 pages
- Legendre, Nouvelles méthodes pour la détermination des orbites des comètes, Appendice: sur la méthode des moindres carrés, Paris, Courcier, 1805
- Legendre, Méthodes des moindres carrés, lu le 24 février 1811
- Gauss, Theoria motus corporum coelestium in sectionibus conicis solem ambientium, 1809
- Gérard Bordes, Encyclopédie de A à Z, Paris, Atlas, , volume 3, p. 860.
- Robert Locqueneux, Préhistoire & histoire de la thermodynamique classique, ENS-LSH Editions, (ISBN 978-2-84788-058-8), chap. 13 - La mécanique statistique de Gibbs, p. 297.