Arbre de Galton-Watson
L'arbre de Galton-Watson (ou arbre de BienaymĂ©-Galton-Watson[1]) est un objet mathĂ©matique alĂ©atoire utilisĂ© dans la thĂ©orie des probabilitĂ©s. C'est un arbre planaire enracinĂ© dont chaque nĆud a un nombre alĂ©atoire de fils et ce nombre ne dĂ©pend ni de la position du nĆud dans l'arbre ni du nombre de fils des autres nĆuds. Un formalisme des arbres de Galton-Watson a Ă©tĂ© introduit, par Jacques Neveu en 1986, comme reprĂ©sentation de la gĂ©nĂ©alogie des processus de Galton-Watson.
Cet article traite principalement du cas oĂč les arbres sont de taille finie.
Formalisme des arbres discrets
Un arbre de Galton-Watson est un arbre (graphe connexe sans cycles) enracinĂ© que l'on note G=(V,E) oĂč V est l'ensemble des nĆuds de l'arbre ("vertex" en anglais) et E est l'ensemble des arĂȘtes ("edge" en anglais). Notons Ï â V la racine de l'arbre. Donnons une interprĂ©tation des arbres de Galton-Watson avec le vocabulaire d'un arbre gĂ©nĂ©alogique.
- La racine Ï est appelĂ©e l'ancĂȘtre commun,
- pour chaque nĆud (ou individu) v â V \ {Ï}, le premier nĆud sur la trajectoire (unique) de v vers Ï est appelĂ© le pĂšre de v.
Notation de Neveu
- La racine Ï est notĂ©e , l'ensemble vide,
- les fils de Ï sont notĂ©s par un entier indiquant leur position dans la fratrie : {1},{2},{3},...
- pour un individu v, noté {v1,v2,v3,...,vn}, de l'arbre, ses fils seront notés : v1:={v1,v2,v3,...,vn,1}, v2:={v1,v2,v3,...,vn,2}, v3:={v1,v2,v3,...,vn,3},...
Ainsi, un arbre (fini) est dĂ©fini comme un sous-ensemble Ï de l'ensemble des suites finies d'entiers strictement positifs (par convention ) et qui vĂ©rifie les trois conditions suivantes :
- ,
- ,
- Pour tout , il existe avec pour .
Dans ce cas ces arbres sont appelés arbres ordonnés et enracinés. Notons l'ensemble des arbres ordonnés et enracinés.
Pour simplifier la notation, il est courant d'utiliser v1v2v3...vn pour {v1,v2,v3,...,vn}. L'entier n est alors appelĂ© la gĂ©nĂ©ration de v ou la hauteur de v dans l'arbre, c'est Ă©galement la distance (de graphe) du nĆud Ă la racine, on le note |v|. La gĂ©neration de la racine est 0. L'entier positif kv(Ï) est le nombre d'enfant du nĆud v, il est notĂ© kv s'il n'y a pas d'ambiguĂŻtĂ©. Pour un nĆud vj de l'arbre, chaque couple (v,vj) est une arĂȘte (ou branche de l'arbre). Un nĆud f de l'arbre qui n'a pas de fils, c'est-Ă -dire tel que kf=0, est une feuille de l'arbre. Les autres nĆuds sont appelĂ©s nĆuds de branchement.
Il est utile de considĂ©rer la notion d'arbre "dĂ©calĂ©" (shifted tree en anglais). Pour un arbre , et pour v un nĆud de Ï, l'arbre "dĂ©calĂ©" est intuitivement le sous-arbre de Ï "au dessus" du nĆud v.
L'ensemble U est dĂ©nombrable, il peut alors ĂȘtre ordonnĂ© en utilisant l'ordre lexicographique par exemple. Ordonnons un arbre fini Ï (dont le nombre total de nĆuds est un entier |Ï| fini) avec l'ordre lexicographique, dĂ©finissons son parcours de l'arbre en profondeur : on commence par la racine de l'arbre, puis lorsqu'on arrive Ă un nĆud v, on visite son premier fils non encore visitĂ© ou on retourne Ă son pĂšre si tous les fils ont Ă©tĂ© visitĂ©s, enfin le parcours se termine lorsqu'on revient Ă la racine et que tous ses fils ont Ă©tĂ© visitĂ©s. Par ce parcours, les feuilles sont visitĂ©es une fois tandis que les autres nĆuds sont visitĂ©s plusieurs fois. Le nombre total de visites est alors 2|Ï|.
Exemple
Dans la figure 1 ci-contre, l'individu 1221 est le premier fils, du deuxiĂšme fils, du deuxiĂšme fils, du premier fils, de l'ancĂȘtre commun. C'est une feuille de l'arbre de gĂ©neration 4. La suite (, 1, 11, 111, 1111, 111, 11, 1, 12, 121, 12, 122, 1221, 122, 12, 1, , 2, , 3, ) est le parcours en profondeur de l'arbre.
DĂ©finition formelle
Soit ÎŒ=(ÎŒ(n),n â„ 0) une loi de probabilitĂ© sur critique ou sous-critique, c'est-Ă -dire telle que :
- .
On exclut le cas trivial Ό(1)=1.
Il existe une unique loi de probabilité sur l'ensemble des arbres ordonnés et enracinés telle que :
- , pour tout ,
- pour tout tel que ÎŒ(j) > 0, les arbres « dĂ©calĂ©s » sont indĂ©pendants sous la loi conditionnelle et leur loi conditionnelle est .
Un arbre alĂ©atoire de loi est appelĂ© un arbre de Galton-Watson avec loi de reproduction ÎŒ. (voir §0.2 de Duquesne et Le Gall[2] ou §3 de Neveu[3]).
Intuitivement, la premiĂšre condition signifie que la loi de reproduction de la racine est ÎŒ ; la deuxiĂšme condition signifie que les sous-arbres « au-dessus » des fils de la racine sont indĂ©pendants les uns des autres et ont tous la mĂȘme loi qui est celle de l'arbre entier.
Représentation des arbres
Un arbre est la donnĂ©e des nĆuds avec leur nombre de fils ordonnĂ©s par ordre lexicographique. Il y a donc plusieurs reprĂ©sentations possibles.
- La racine peut se représenter en bas, en haut, à gauche, à droite, au centre (pour un arbre dessiné en cercles),...
- Les nĆuds peuvent se reprĂ©senter par des points ou par des segments (horizontaux, verticaux, ...), ou encore par des arcs de cercle. Tous les nĆuds de mĂȘme gĂ©nĂ©ration sont Ă la mĂȘme hauteur ou non.
- Les arĂȘtes peuvent se dessiner par des segments tous de mĂȘme longueur ou non, reliant directement le nĆud pĂšre et le nĆud fils, ou encore reliant le fils et le segment/nĆud pĂšre, âŠ
- l'angle entre les arĂȘtes peut ĂȘtre variable.
Voici quelques exemples.
Caractérisations d'un arbre de Galton-Watson
La donnĂ©e d'un arbre Ï Ă©quivaut Ă la donnĂ©e de la suite (kv(Ï),vâ U). Ainsi, un arbre de Galton-Watson T peut ĂȘtre dĂ©fini par une suite de variables alĂ©atoires iid (indĂ©pendantes et identiquement distribuĂ©es) Ă valeurs entiĂšres positives.
Il est Ă remarquer que certaines valeurs de cette suite n'ont pas d'influence sur l'arbre. Le nombre d'Ă©lĂ©ments efficaces de correspond au nombre (alĂ©atoire) total de nĆuds dans l'arbre de Galton-Watson.
Exemple
La suite finie, donnée par ordre lexicographique, (k, k1, k11,k111,k1111,k12,k121,k122,k1221,k2,k3)= (3,2,1,1,0,2,0,1,0,0,0) caractérise l'arbre de la figure 1. La valeur de k4 ne joue pas de rÎle ici puisque la racine n'a pas de quatriÚme fils.
Marche de Ćukasiewicz
Pour un arbre fini Ï, la marche de Ćukasiewicz est dĂ©finie par :
oĂč est le k-iĂšme individu de l'arbre par ordre lexicographique. La suite V caractĂ©rise l'arbre Ï, puisqu'elle est Ă©quivalente Ă la donnĂ©e de la suite .
Propriétés
- pour tout 0 †k †|Ï|-1, V(k) â„ 0,
- V(|Ï|)= -1,
- ses accroissements sont Ă valeurs dans {-1, 0, 1,...},
Proposition (voir §0.2 de Duquesne et Le Gall[2])
Si T est un arbre de Galton-Watson de loi de reproduction donnĂ©e par oĂč est la probabilitĂ© d'avoir n fils, alors V est une marche alĂ©atoire dont la loi des sauts est donnĂ©e par et stoppĂ©e lorsqu'elle atteint -1.
Remarque
Soit k un entier fixĂ©. Si un entier n †k-1 vĂ©rifie la condition , alors l'individu dĂ©nommĂ© n est un ancĂȘtre de l'individu k. On peut ainsi reconstituer l'arbre Ă partir de la trajectoire de la marche de Ćukasiewicz en reliant les points (n,V(n)) du graphe de V avec ses infima prĂ©cĂ©dents (voir Figure 3 ci-contre).
Processus de contour
Pour un arbre fini Ï, le processus de contour (ou fonction de contour ou marche de Harris ou chemin de Dyck) est dĂ©fini par :
qui, Ă chaque Ă©tape k du parcours en profondeur, associe la gĂ©nĂ©ration de l'individu vk visitĂ©. Le processus de contour est parfois dĂ©fini comme l'interpolation linĂ©aire de la fonction C, on garde alors la mĂȘme notation.
Le nom contour est issu du parcours en profondeur qui "contourne l'arbre par la gauche".
Propriétés
- La fonction C est positive,
- elle s'annule en 0 et en 2|Ï|-1,
- pour tout 1 †k †2|Ï|-1, ,
- il existe une bijection entre les arbres de taille n et les fonctions (voir §6.3 de Pitman[4]).
Proposition (voir §6.3 de Pitman[4])
Si T est un arbre de Galton-Watson conditionnĂ© Ă avoir n nĆuds et dont la loi de reproduction est une loi gĂ©omĂ©trique, alors son processus de contour est l'excursion d'une marche alĂ©atoire simple conditionnĂ©e Ă avoir une longueur 2n.
Si T est un arbre de Galton-Watson conditionnĂ© Ă avoir n nĆuds avec une loi de reproduction quelconque, alors son processus de contour n'est plus l'excursion d'un processus alĂ©atoire markovien.
Remarque
Le processus de contour prend la mĂȘme valeur aux diffĂ©rents passages du parcours en profondeur en un mĂȘme nĆud de l'arbre. On peut ainsi reprĂ©senter un nĆud de l'arbre par un segment horizontal sous le graphe du processus de contour. Les excursions du graphe "au-dessus" de ce segment correspondent aux sous-arbres "au-dessus" de ce nĆud. On peut ainsi reconstituer l'arbre Ă partir du processus de contour (voir Figure 5 ci-contre).
Processus des hauteurs
Pour un arbre fini Ï, le processus des hauteurs (ou fonction des hauteurs) est dĂ©fini par :
tel que H(k) soit la génération du k-iÚme individu de l'arbre par ordre lexicographique.
Intuitivement, le processus des hauteurs est similaire au processus de contour mais chaque individu de l'arbre n'est visité qu'une fois.
Propriétés
- La fonction H sont strictement positive pour tout 1 †k †|Ï|-1,
- elle s'annule en 0,
- ses accroissements sont Ă valeurs dans {..., -2, -1, 0, 1},
- le processus des hauteurs caractĂ©rise l'arbre Ï.
Proposition (voir §0.2 de Duquesne et Le Gall[2])
Soit T est un arbre de Galton-Watson de loi de reproduction donnĂ©e par oĂč est la probabilitĂ© d'avoir n fils et H son processus des hauteurs associĂ©. Alors ce dernier n'est pas un processus alĂ©atoire markovien mais il peut s'Ă©crit en fonction de la marche de Ćukasiewicz V associĂ©e Ă T par la formule :
Proposition
On peut retrouver le processus de contour à partir du processus des hauteurs. Notons K(n)= 2n-H(n). On retrouve le processus de contour par la formule (donnée ici pour l'interpolation linéaire) :
- si
- si
Liens avec les processus de Galton-Watson
ConsidĂ©rons un arbre de Galton-Watson T de loi de reproduction ÎŒ. ConsidĂ©rons Zn(T) le nombre d'individus Ă la n-iĂšme gĂ©nĂ©ration, potentiellement nul :
Proposition (voir §3 de Neveu[3])
La suite (Zn(T),n â„ 1) de variables alĂ©atoires est un processus de Galton-Watson de loi de reproduction ÎŒ et partant de Z0(T)=1.
Remarques
- Le temps du processus de Galton-Watson correspond à la génération de l'arbre associé,
- La probabilité d'extinction d'un processus de Galton-Watson (probabilité qu'en un temps fini N on ait ZN(T)=0) correspond à la probabilité que l'arbre associé soit fini (qu'il contienne un nombre fini d'individus, c'est-à -dire un nombre fini de générations).
ThéorÚme
En fonction de la moyenne m associĂ©e Ă la loi de reproduction ÎŒ, on distingue trois cas :
- Cas souscritique (m<1). La probabilité que l'arbre de Galton-Watson soit fini vaut 1.
- Cas critique (m =1). La probabilitĂ© que l'arbre de Galton-Watson soit fini vaut 1 (on rappelle que ÎŒ(1)â 1)
- Cas surcritique (m>1). La probabilité que l'arbre de Galton-Watson soit fini est strictement inférieure à 1.
ForĂȘt de Galton-Watson
Une forĂȘt de Galton-Watson de loi de reproduction ÎŒ est une suite (finie ou infinie) d'arbres de Galton-Watson indĂ©pendants de mĂȘme loi de reproduction ÎŒ. La loi d'une forĂȘt de Galton-Watson est une loi de probabilitĂ© sur l'espace .
ConsidĂ©rons une forĂȘt de Galton-Watson . Notons , et la marche de Ćukasiewicz, le processus de contour et le processus des hauteurs de l'arbre Tk. On pose Ă©galement H|Tk|(Tk)=0. La marche de Ćukasiewicz , le processus de contour , et le processus des hauteurs de sont les concatĂ©nations respectives des marches de Ćukasiewicz, des processus de contour et des processus des hauteurs des arbres de la forĂȘt :
- si ,
- si ,
- si .
Si la forĂȘt est une suite finie d'arbres, ces trois processus restent constants aprĂšs la derniĂšre valeur issue de la dĂ©finition prĂ©cĂ©dente.
Notons une forĂȘt de k arbres et conditionnĂ©es Ă avoir n nĆuds, c'est-Ă -dire une forĂȘt (T1,...,Tk) sous la loi conditionnelle . Les forĂȘts conditionnelles sont caractĂ©risĂ©es par les trois prĂ©cĂ©dents processus.
Proposition
Soit une forĂȘt de Galton-Watson de loi . Sous la loi la marche de Ćukasievwicz jusqu'au temps m, a mĂȘme loi que la marche de Ćukasievwicz stoppĂ©e lorsqu'elle atteint le niveau -k.
Convergence des arbres de Galton-Watson
Considérons une suite de processus de Galton-Watson telle que chaque processus de Galton-Watson ait pour loi de reproduction (critique ou sous-critique) et . C'est-à -dire qu'il y a initialement p individus.
Notons , et les suites des marches de Ćukasiewicz, des processus de contour et des processus des hauteurs des forĂȘts associĂ©es Ă .
Le théorÚme suivant donne un résultat de convergence type Donsker pour ces processus discrets vers des processus continus.
ThéorÚme (citons Grimvall en 1974, Duquesne et Le Gall en 2002[2])
Sous une hypothÚse technique donnée dans la remarque en fin de ThéorÚme, il existe une suite croissante d'entiers naturels convergente vers telle que :
- et
oĂč [.] est la partie entiĂšre et la convergence est une convergence en loi des processus stochastiques dans l'espace de Skorokhod.
- le processus est un processus stochastique Ă temps continu et Ă valeurs continues appelĂ© processus de branchement Ă espace d'Ă©tat continu (CSBP) de mĂ©canisme de branchement Ï. C'est l'analogue continu d'un processus de Galton-Watson.
- Le processus est un processus de LĂ©vy (Ă temps continu et Ă valeurs continues) sans sauts nĂ©gatifs et qui ne tend pas vers . Son exposant de Laplace est Ï.
- Le processus est un processus stochastique à temps continus et à valeurs continues appelé le processus des hauteurs (continu) associé à X et à Y.
Intuitivement, il existe des renormalisations en espace et en temps telles que les quatre suites de processus discrets codant des forĂȘts discrĂštes convergent (en loi) vers des processus continus lorsque le nombre de racines des forĂȘts tend vers .
Remarques
- hypothÚse technique : le ThéorÚme précédent est vrai sous les deux conditions suivantes :
- et .
- On peut construire un arbre continu (analogue des arbres discrets) en utilisant les méthodes précédentes pour les arbres de Galton-Watson. L'arbre obtenu est appelé arbre réel.
Cas particulier
Dans le cas oĂč les lois de reproduction sont Ă variance finie, Le processus X est un mouvement brownien standard et le processus H est un mouvement brownien rĂ©flĂ©chi en 0. L'arbre associĂ© est appelĂ© arbre brownien.
Annexes
Liens internes
Notes et références
- David G. Kendall, « The Genealogy of Genealogy Branching Processes before (and after) 1873 », Bulletin of the London mathematical Society, vol. 7,â , p. 225-254.
- (en) T. Duquesne et J.-F. Le Gall, Random Trees, Lévy Processes ans Spatial Branching Processes, Astérisque (2002), vol. 281, (ISBN 2-85629-128-7)
- (fr) J. Neveu, Arbres et processus de Galton-Watson, Annales de l'IHP - section B, Vol. 22(2), (1986),p. 199-207 .
- (en) J. Pitman, Combinatorial Stochastic Processes, Springer - Lecture Note in Mathematics - Ecole d'été de Proba. de St Flour XXXII (2002), (ISBN 3-540-30990-X)
- (en) T. E. Harris, « First passage and recurrence distributions », Trans. Amer. Math. Soc., vol. 73,â , p. 471-486