AccueilđŸ‡«đŸ‡·Chercher

Ajustement de loi de probabilité

L'ajustement de la loi de probabilité ou simplement l'ajustement de la loi est l'ajustement d'une loi de probabilité à une série de données concernant la mesure répétée d'un phénomÚne aléatoire. L'ajustement de la loi a pour but de prédire la probabilité ou de prévoir la fréquence d'occurrence de l'ampleur du phénomÚne dans un certain intervalle.

Il existe de nombreuses lois de probabilitĂ©, dont certaines peuvent ĂȘtre ajustĂ©es plus Ă©troitement Ă  la frĂ©quence observĂ©e des donnĂ©es que d'autres, selon les caractĂ©ristiques du phĂ©nomĂšne et de la loi. La loi donnant un ajustement serrĂ© est supposĂ©e conduire Ă  de bonnes prĂ©dictions. Dans l'ajustement, il faut donc sĂ©lectionner une famille de lois qui convient bien aux donnĂ©es.

SĂ©lection de la loi

DiffĂ©rentes formes de la loi normale symĂ©trique en fonction de la moyenne ÎŒ et de la variance σ 2

Le choix de la loi appropriée dépend de la présence ou de l'absence de symétrie de l'ensemble de données par rapport à la tendance centrale .

Lois symétriques

Lorsque les données sont réparties symétriquement autour de la moyenne alors que la fréquence d'occurrence des données plus éloignées de la moyenne diminue, on peut par exemple sélectionner la loi normale, la loi logistique ou la loi de Student . Les deux premiÚres sont trÚs similaires, tandis que la derniÚre, avec un degré de liberté, a des "queues plus lourdes", ce qui signifie que les valeurs les plus éloignées de la moyenne se produisent relativement plus souvent (c'est-à-dire que le kurtosis est plus élevé). La loi de Cauchy est également symétrique.

Lois asymétriques à droite

Asymétrie à gauche et à droite

Lorsque les valeurs les plus grandes ont tendance Ă  ĂȘtre plus Ă©loignĂ©es de la moyenne que les valeurs les plus petites, on a une loi asymĂ©trique vers la droite (c'est-Ă -dire qu'il y a une asymĂ©trie positive), on peut par exemple sĂ©lectionner la loi log-normale (c'est-Ă -dire les logarithmes des donnĂ©es sont normalement distribuĂ©es), la loi log-logistique (c'est-Ă -dire que les logarithmes des donnĂ©es suivent une loi logistique), la loi de Gumbel, la loi exponentielle, la loi de Pareto, la loi de Weibull, la loi de Burr ou la loi de FrĂ©chet. Les quatre derniĂšres lois sont bornĂ©es Ă  gauche.

Lois asymétriques à gauche

Lorsque les petites valeurs ont tendance Ă  ĂȘtre plus Ă©loignĂ©es de la moyenne que les grandes valeurs, on a une loi asymĂ©trique vers la gauche (c'est-Ă -dire qu'il y a une asymĂ©trie nĂ©gative), on peut par exemple sĂ©lectionner la loi du χ2
1
(c'est-à-dire le carré des données suit une loi normale)[1], la loi de Gumbel réfléchie[1], la loi de Dagum (loi de Burr en miroir) ou la loi de Gompertz, qui est limitée à gauche.

Techniques d'ajustement

Les techniques d'ajustement de loi suivantes existent[2] :

Répartition de Gumbel ajustée aux précipitations maximales d'un jour d'octobre au Suriname par la méthode de régression avec un intervalle de confiance supplémentaire à l'aide de CumFreq

Généralisation des lois

Il est d'usage de transformer les donnĂ©es de maniĂšre logarithmique pour ajuster des lois symĂ©triques (comme la normale et la logistique) aux donnĂ©es obĂ©issant Ă  une loi positivement asymĂ©trique (c'est-Ă -dire asymĂ©trique vers la droite, avec une moyenne supĂ©rieure au mode, et avec une queue Ă  droite plus longue que la queue de gauche), voir la loi log-normale et la loi log-logistique. Un effet similaire peut ĂȘtre obtenu en prenant la racine carrĂ©e des donnĂ©es.

Pour ajuster une loi symétrique aux données obéissant à une loi biaisée négativement (c'est-à-dire biaisée vers la gauche, avec une moyenne inférieure mode, et avec une queue droite plus courte que la queue gauche), on pourrait utiliser les valeurs au carré des données pour accomplir l'ajustement.

Plus gĂ©nĂ©ralement, on peut Ă©lever les donnĂ©es Ă  une puissance p afin d'ajuster des lois symĂ©triques Ă  des donnĂ©es obĂ©issant Ă  une loi d'asymĂ©trie quelconque, oĂč p < 1 lorsque l'asymĂ©trie est positive et p > 1 lorsque l'asymĂ©trie est nĂ©gative. La valeur optimale de p doit ĂȘtre trouvĂ©e par une mĂ©thode numĂ©rique . La mĂ©thode numĂ©rique peut consister Ă  supposer une plage de valeurs p, puis Ă  appliquer la procĂ©dure d'ajustement de loi Ă  plusieurs reprises pour toutes les valeurs p supposĂ©es, et enfin Ă  sĂ©lectionner la valeur de p pour laquelle la somme des carrĂ©s des Ă©carts des probabilitĂ©s calculĂ©es Ă  partir des frĂ©quences mesurĂ©es (test du χÂČ) est minimum, comme c'est le cas dans CumFreq.

La généralisation améliore la flexibilité des lois de probabilité et augmente leur applicabilité dans l'ajustement de loi[6].

La polyvalence de la gĂ©nĂ©ralisation permet, par exemple, d'adapter des ensembles de donnĂ©es distribuĂ©s approximativement normalement Ă  un grand nombre de lois de probabilitĂ© diffĂ©rentes, tandis que des lois asymĂ©triques nĂ©gatives peuvent ĂȘtre ajustĂ©es Ă  des lois de Gumbel invesĂ©e et du χ2
1
.

Inversion de l'asymétrie

(A) loi de probabilité de Gumbel inclinée vers la droite et (B) Gumbel réfléchie vers la gauche

Les lois asymĂ©triques peuvent ĂȘtre rĂ©flĂ©chies en remplaçant dans l'expression mathĂ©matique de la fonction de rĂ©partition (F) par son complĂ©ment : F' = 1–F, obtenant la fonction de rĂ©partition complĂ©mentaire (Ă©galement appelĂ©e fonction de survie) qui donne une image miroir. De cette maniĂšre, une loi asymĂ©trique vers la droite est transformĂ©e en une loi asymĂ©trique vers la gauche et vice versa.

La technique d'inversion d'asymétrie augmente le nombre de lois de probabilité disponibles pour l'ajustement de loi et élargit les opportunités d'ajustement de loi.

DĂ©placement des lois

Certaines lois de probabilitĂ©, comme l' exponentielle, ne prennent pas en charge les valeurs de donnĂ©es (X) Ă©gales ou infĂ©rieures Ă  zĂ©ro. Pourtant, lorsque des donnĂ©es nĂ©gatives sont prĂ©sentes, de telles lois peuvent toujours ĂȘtre utilisĂ©es en remplaçant X par Y = X – Xm, oĂč Xm est la valeur minimale de X. Ce remplacement reprĂ©sente un dĂ©placement de la lois de probabilitĂ© dans le sens positif, c'est-Ă -dire vers la droite, car Xm est nĂ©gatif. AprĂšs avoir terminĂ© l'ajustement de la loi de X, les valeurs X correspondantes sont trouvĂ©es Ă  partir de X = Y + Xm, ce qui reprĂ©sente un dĂ©calage arriĂšre de la loi dans le sens nĂ©gatif, c'est-Ă -dire vers la gauche. La technique de dĂ©placement de loi augmente les chances de trouver une loi de probabilitĂ© bien ajustĂ©e.

Lois composites

Loi composite (discontinue) avec intervalle de confiance[7]

L'option existe d'utiliser deux loi de probabilitĂ© diffĂ©rentes, une pour la plage de donnĂ©es infĂ©rieure et une pour la plage supĂ©rieure, comme la loi de Laplace. Les plages sont sĂ©parĂ©es par un point d'arrĂȘt. L'utilisation de telles loi de probabilitĂ© composites (discontinues) peut ĂȘtre opportune lorsque les donnĂ©es du phĂ©nomĂšne Ă©tudiĂ© ont Ă©tĂ© obtenues dans deux ensembles de conditions diffĂ©rentes[6].

Incertitude de prédiction

Analyse d'incertitude avec intervalle de confiance utilisant la loi binomiale[8]

Les prévisions d'occurrence basées sur des lois de probabilité ajustées sont sujettes à l'incertitude, qui découle des conditions suivantes :

  • La vraie loi de probabilitĂ© des Ă©vĂ©nements peut s'Ă©carter de la loi ajustĂ©e, car la sĂ©rie de donnĂ©es observĂ©es peut ne pas ĂȘtre totalement reprĂ©sentative de la probabilitĂ© rĂ©elle d'occurrence du phĂ©nomĂšne en raison d'une erreur alĂ©atoire
  • L'occurrence d'Ă©vĂ©nements dans une autre situation ou dans le futur peut s'Ă©carter de la loi ajustĂ©e car cette occurrence peut Ă©galement ĂȘtre sujette Ă  une erreur alĂ©atoire
  • Un changement des conditions environnementales peut entraĂźner une modification de la probabilitĂ© d'occurrence du phĂ©nomĂšne
Variations de neuf courbes de pĂ©riode de retour d'Ă©chantillons de 50 ans Ă  partir d'un enregistrement thĂ©orique de 1 000 ans (ligne de base), donnĂ©es de Benson[9]

Une estimation de l'incertitude dans le premier et le second cas peut ĂȘtre obtenue avec la loi de probabilitĂ© binomiale en utilisant par exemple la probabilitĂ© de dĂ©passement pe (c'est-Ă -dire la chance que l'Ă©vĂ©nement X soit supĂ©rieur Ă  une valeur de rĂ©fĂ©rence Xr de X) et la probabilitĂ© de non-dĂ©passement pn (c'est-Ă -dire la probabilitĂ© que l'Ă©vĂ©nement X soit infĂ©rieur ou Ă©gal Ă  la valeur de rĂ©fĂ©rence Xr, on l'appelle aussi rĂ©partition). Dans ce cas, il n'y a que deux possibilitĂ©s : soit il y a dĂ©passement, soit il y a non-dĂ©passement. Cette dualitĂ© est la raison pour laquelle la loi binomiale est applicable.

Avec la loi binomiale, on peut obtenir un intervalle de prédiction . Un tel intervalle estime également le risque d'échec, c'est-à-dire la probabilité que l'événement prédit reste toujours en dehors de l'intervalle de confiance. L'analyse de confiance ou de risque peut inclure la période de retour T = 1/pe comme cela se fait en hydrologie.

Liste des lois de probabilité classées par qualité d'ajustement selon CumFreq
Histogramme et densité de probabilité d'un ensemble de données correspondant à la loi d'extremum généralisée

Qualité de l'ajustement

En classant la qualité de l'ajustement des différentes lois, on peut se faire une idée de la loi qui est acceptable et de celle qui ne l'est pas.

Histogramme et fonction de densité

À partir de la fonction de rĂ©partition, on peut dĂ©river un histogramme et la fonction de densitĂ©.

Notes et références

  1. Les histogrammes de frĂ©quences asymĂ©triques Ă  gauche (nĂ©gativement) peuvent ĂȘtre ajustĂ©s Ă  une loi du χ2
    1
    ou de Gumbel réfléchie.
  2. (en) H.P.Ritzema, Drainage Principles and Applications, vol. 16, Wageningen, International Institute for Land Reclamation and Improvement (ILRI), , 175–224 p. (ISBN 9070754339), « Frequency and Regression Analysis »
  3. (en) H. Cramér, Mathematical methods of statistics, Princeton Univ. Press,
  4. Hosking, « L-moments: analysis and estimation of distributions using linear combinations of order statistics », Journal of the Royal Statistical Society, Series B, vol. 52,‎ , p. 105–124 (JSTOR 2345653)
  5. (en) Aldrich, « R. A. Fisher and the making of maximum likelihood 1912–1922 », Statistical Science, vol. 12, no 3,‎ , p. 162–176 (DOI 10.1214/ss/1030037906, MR 1617519)
  6. Software for Generalized and Composite Probability Distributions. International Journal of Mathematical and Computational Methods, 4, 1-9
  7. Intro to composite probability distributions
  8. Frequency predictions and their binomial confidence limits. In: International Commission on Irrigation and Drainage, Special Technical Session: Economic Aspects of Flood Control and non-Structural Measures, Dubrovnik, Yugoslavia, 1988. On line
  9. M.A. Benson, Flood frequency analysis, vol. 1543-A, T. Dalrymple, , p. 51-71, « Characteristics of frequency curves based on a theoretical 1000 year record ».

Voir aussi

Cet article est issu de wikipedia. Text licence: CC BY-SA 4.0, Des conditions supplĂ©mentaires peuvent s’appliquer aux fichiers multimĂ©dias.