Loi de Dirichlet
En probabilitĂ© et statistiques, la loi de Dirichlet, souvent notĂ©e Dir(α), est une famille de lois de probabilitĂ© continues pour des variables alĂ©atoires multinomiales. Cette loi (ou encore distribution) est paramĂ©trĂ©e par le vecteur α de nombres rĂ©els positifs et tire son nom de Johann Peter Gustav Lejeune Dirichlet. Elle est vue comme la gĂ©nĂ©ralisation multinomiale de la loi bĂȘta.
Densité de probabilité
La loi de Dirichlet d'ordre K ℠2 de paramÚtres α1, ..., αK > 0 possÚde pour densité de probabilité :
pour tous les x1, ..., xK > 0 vĂ©rifiant x1 + ... + xK-1 < 1, oĂč xK est une abrĂ©viation pour 1 â x1 â ... â xKâ1. La densitĂ© est nulle en dehors de ce simplexe ouvert de dimension (K â 1).
La constante de normalisation est la fonction bĂȘta multinomiale, qui s'exprime Ă l'aide de la fonction gamma :
Propriétés
Soit , signifiant que les K â 1 premiĂšres composantes possĂšdent la distribution prĂ©cĂ©dente et que
Posons . Alors
et
En fait, les densitĂ©s marginales sont des lois bĂȘta :
Qui plus est,
Le mode de la distribution est le vecteur (x1, ..., xK) avec
Agrégation
Si ,alors . Cette propriété d'agrégation permet d'obtenir la distribution marginale de mentionnée plus haut.
Distributions associées
- Si, pour
- , oĂč Îł dĂ©signe la distribution Gamma, indĂ©pendamment
- alors
- et
- Bien que les Xi ne soient pas indépendants, ils peuvent néanmoins générer un échantillon de variables aléatoires, distribuées selon une distribution Gamma. Malheureusement, puisque la somme est perdue lors de la génération de X = (X1, ..., XK), il n'est pas possible de retrouver les variables Gamma initiales.
- Les marginales d'une loi de Dirichlet sont des lois bĂȘta :
Génération de (pseudo-)nombres aléatoires (RNG)
Une méthode pour obtenir un vecteur aléatoire à partir de la distribution de Dirichlet de dimension K de paramÚtres est fournie par la remarque précédente. Tout d'abord, on tire K variables indépendantes selon des distributions Gamma, chacune avec la densité
et on pose finalement
Interprétations intuitives des paramÚtres
DĂ©coupage d'une ficelle
Une illustration de la distribution de Dirichlet apparaĂźt lorsque l'on dĂ©sire dĂ©couper des ficelles (toutes de longueur initiale 1.0) en K piĂšces de diffĂ©rentes longueurs, et oĂč chaque piĂšce a, en moyenne, une longueur dĂ©signĂ©e mais cette longueur est autorisĂ©e Ă varier. Les valeurs α/α0 spĂ©cifient les longueurs moyennes des dĂ©coupes rĂ©sultant de la distribution. La variance (disparitĂ© autour de la moyenne) varie inversement avec α0.
ModĂšles d'urne et simulations du cas particulier des urnes de PĂłlya
ConsidĂ©rons une urne contenant K couleurs diffĂ©rentes. Initialement, l'urne contient α1 boules de couleur 1, α2 boules de couleur 2, etc. ProcĂ©dons alors Ă N tirages dans l'urne suivant ce protocole : chaque boule tirĂ©e est replacĂ©e dans l'urne et on y ajoute une boule supplĂ©mentaire de mĂȘme couleur. Lorsque N devient trĂšs grand, les proportions des boules de diffĂ©rentes couleurs sont distribuĂ©es selon [1].
Notons que chaque tirage modifie la probabilité d'obtenir une couleur donnée. Cette modification s'atténue d'ailleurs avec le nombre de tirages, puisque l'effet marginal de l'ajout d'une boule supplémentaire diminue avec l'augmentation du nombre total de boules dans l'urne.
Références
- D. Blackwell and J. B. MacQueen 1973. Ferguson distributions via PĂłlya urn schemes. The Annals of Statistics, volume 1, number 2, pp353--355
Voir aussi
Articles connexes
Liens externes
Non-Uniform Random Variate Generation, par Luc Devroye http://cg.scs.carleton.ca/~luc/rnbookindex.html
- SciencesPo: Un package de R qui contient des fonctions pour simuler des paramĂštres d'une distribution de Dirichlet.