ProblĂšme du collectionneur de vignettes
Le problÚme du collectionneur de vignettes ou du collectionneur de coupons (en anglais : coupon collector's problem, CCP) est un problÚme de probabilités et de combinatoire qui consiste à estimer le nombre de paquets de céréales à acheter pour collectionner une série complÚte de vignettes, à raison d'une vignette offerte dans chaque paquet. La vignette contenue dans chaque paquet étant inconnue à l'achat, il s'agit d'un tirage avec remise. En moyenne, si la série compte n vignettes différentes, il faut acheter n (1 + 12 + 13 + ... + 1n) paquets de céréales.
Le problĂšme du collectionneur de vignettes Ă©tait dĂ©jĂ mentionnĂ© en 1812 par Pierre-Simon de Laplace dans sa ThĂ©orie analytique des probabilitĂ©s, oĂč il donne, avant ErdĆs et RĂ©nyi, la convergence vers la loi de Gumbel. Il est aussi mentionnĂ© par George PĂłlya[1], et il est notamment citĂ© par William Feller[2]. L'Ă©tude de ce problĂšme et de ses gĂ©nĂ©ralisations trouve des applications notamment en ingĂ©nierie des tĂ©lĂ©communications.
DĂ©finition et notations
L'objectif du collectionneur est de possĂ©der une vignette pour chacun des n types de vignettes. Pour cela, il achĂšte des boĂźtes de cĂ©rĂ©ales. Comme le montre la figure ci-dessous, il y a une vignette dans chaque boĂźte. Dans l'exemple, il achĂšte sa premiĂšre boĂźte dans laquelle il obtient la vignette 1. Il achĂšte la deuxiĂšme boĂźte et on obtient la vignette 4. Dans son troisiĂšme achat, il obtient la vignette 1 Ă nouveau : sa collection reste donc la mĂȘme, Ă savoir il possĂšde la vignette 1 et 4. Il continue Ă acheter des boĂźtes de cĂ©rĂ©ales jusqu'Ă obtenir une vignette de chaque type. On suppose que toutes les vignettes sont Ă©quiprobables : on a une probabilitĂ© de 1n d'obtenir tout type de vignettes lors de l'achat d'une boĂźte.
On note Tn le nombre de paquets à acheter pour obtenir la collection complÚte. Pour l'exemple ci-dessus, car le collectionneur a acheté 10 boßtes de céréales avant d'obtenir les 4 vignettes. Intuitivement, les derniÚres vignettes sont plus difficiles à obtenir que les premiÚres. Pour étudier ce phénomÚne plus précisément, on introduit également la variable aléatoire Tn,k que l'on note qui représente le nombre de paquets de céréales achetés avant d'obtenir k types de vignettes parmi les n types de vignettes de la collection. Dans l'exemple, car avec un seul achat, on possÚde forcément une vignette ; , et . Le temps Tn d'obtention de la collection totale est donc Tn,n. On peut considérer que Tn,k est un temps : à chaque pas de temps, un paquet de céréales est acheté.
Soit tn,i le temps supplĂ©mentaire pour obtenir la i-Ăšme nouvelle vignette, sachant que l'on en a dĂ©jĂ i â 1 diffĂ©rentes. On a donc . Pour l'exemple de la figure ci-dessus, on a ( est toujours Ă©gal Ă 1), , et . On a ici : en effet, dans l'exemple, il y a 10 boĂźtes achetĂ©es pour obtenir la collection complĂšte des 4 vignettes.
Calculs de l'espérance et de la variance du temps pour finir la collection
Lorsque l'on possĂšde dĂ©jĂ i - 1 vignettes diffĂ©rentes, on en trouve une nouvelle en achetant une boĂźte de cĂ©rĂ©ales si on tombe sur l'une n â i + 1 vignettes nouvelles parmi les n possibles. Ainsi, la probabilitĂ© d'en trouver une nouvelle est n â i + 1n. La variable tn,i suit donc une loi gĂ©omĂ©trique de paramĂštre n â i + 1n. D'oĂč l'espĂ©rance :
- .
La variance, elle, vaut :
- .
Espérance
Par linéarité de l'espérance[3] :
oĂč est le n-iĂšme nombre harmonique () . Le temps moyen d'obtention de la collection totale est donc .
Exemples
Le collectionneur de vignettes est une métaphore et se retrouve dans des situations qui n'ont rien à voir avec des boites de céréales et des vignettes. Par exemple :
- Le nombre moyen d'essais nĂ©cessaires pour obtenir la naissance d'une fille et d'un garçon est . Ici, chaque naissance correspond Ă un tirage uniforme entre la naissance d'un garçon ou d'une fille. Le processus s'arrĂȘte lorsque l'on a "collectionnĂ©" les deux genres.
- Le nombre moyen d'essais de lancers d'un dĂ© Ă 6 faces pour obtenir tous les nombres de 1 Ă 6 est . Ici, chaque lancer correspond Ă un tirage uniforme d'un nombre entre 1 et 6. Le processus s'arrĂȘte lorsque l'on a "collectionnĂ©" tous les nombres entre 1 et 6.
Comportement Ă l'infini
En utilisant le développement asymptotique de Hn, on obtient :
oĂč est la constante d'Euler-Mascheroni.
Temps d'attente moyen de la moitié de la collection
Ce nombre est . Ainsi, le temps d'attente moyen pour obtenir la moitié de la collection est linéaire en la taille de la collection ; il est inférieur au temps d'attente total qui est linéarithmique (voir complexité en temps).
Variance
En utilisant l'indépendance des variables tn,i, on obtient[3] :
En utilisant les développements asymptotiques de Hn et de , on obtient :
En utilisant la valeur au point 2 de la fonction zeta de Riemann, on obtient la majoration simple :
Un majoration simple de lâĂ©cart-type est donc .
Estimations plus précises de l'écart à la moyenne
- En utilisant l'inégalité de Bienaymé-Tchebychev , on a :
- On peut aussi montrer le seuil suivant, en utilisant l'inégalité de Boole (union bound)[4] :
La premiĂšre dĂ©monstration connue , via lâanalyse des sĂ©ries gĂ©nĂ©ratrices, est celle de Pierre-Simon de Laplace, dans sa ThĂ©orie analytique des probabilitĂ©s en 1812[5]. On cite aussi, souvent, un article[6] - [7] dâErdös et RĂ©nyi de 1960, oĂč les auteurs semblent dĂ©couvrir Ă lâoccasion la loi de Gumbel, qui rĂ©apparaĂźt dans leurs travaux la mĂȘme annĂ©e, dans le thĂ©orĂšme double-exponentiel prĂ©cisant le seuil de connexitĂ© des graphes alĂ©atoires.
Avancement de la collection
On peut souhaiter calculer le nombre moyen de vignettes diffĂ©rentes obtenues aprĂšs N achats. Pour cela, on peut mĂȘme supposer que les vignettes ne sont pas Ă©quiprobables, mais ont au contraire des probabilitĂ©s respectives p1, ... , pn d'ĂȘtre trouvĂ©es Ă chaque achat. Dans ces conditions, aprĂšs N achats, le nombre moyen de vignettes diffĂ©rentes est .
Les fonctions étant convexes, cette espérance est toujours inférieure ou égale à celle correspondant à l'équirépartition des vignettes, ce que l'intuition ne dément pas.
En outre, dans ce cas d'Ă©quiprobabilitĂ©, lorsque N est proche de n ln n, on trouve une valeur de CN proche de n, ce qui est conforme aux rĂ©sultats des paragraphes prĂ©cĂ©dents. Pour des vignettes mal rĂ©parties, il faudra ĂȘtre encore plus riche.
Généralisations
On peut généraliser le problÚme de plusieurs maniÚres.
- Le collectionneur a un petit frĂšre auquel il donne les vignettes en double[8].
- Le collectionneur achÚte des pochettes de k vignettes différentes. On fait alors apparaßtre des coefficients binomiaux dans les formules[9].
Applications
La plupart des applications du problĂšme du collectionneur de vignette sont des systĂšmes oĂč il y a un certain nombre d'Ă©lĂ©ments Ă visiter et oĂč la politique choisie est de tirer au hasard des Ă©lĂ©ments jusqu'Ă les avoir tous vus (au moins avec une bonne probabilitĂ©). Certains exemples sont donnĂ©s ci-dessous[10].
- Certaines méthodes pour identifier les contraintes intéressantes en optimisation, consistent à faire un certain nombre de tests et à supposer qu'aprÚs cet examen on a trouvé toutes les contraintes intéressantes[11]. Le nombre de tests nécessaires est déterminé grùce aux calculs précédents.
- Certains algorithmes d'optimisation ont besoin d'un point de dĂ©part, et ce point de dĂ©part influe sur le rĂ©sultat obtenu, par exemple dans la recherche d'un minimum local. En utilisant plusieurs points de dĂ©part tirĂ©s au hasard on augmente la probabilitĂ© de succĂšs en allant chercher de nouveaux minima locaux, mais on peut obtenir deux fois le mĂȘme. On peut faire le parallĂšle avec le collectionneur de vignettes pour estimer le nombre de dĂ©parts nĂ©cessaires.
- Cette technique est aussi utilisée pour détecter des pannes.
- Dans le domaine de la diffusion de rumeur (rumor spreading) dans un graphe, un modĂšle classique est celui oĂč la rumeur est prĂ©sente dans un nĆud au dĂ©part et Ă chaque pas de temps chaque nĆud informĂ© transmet l'information Ă l'un de ses voisins au hasard. Le problĂšme du collectionneur apparaĂźt naturellement dans ce contexte.
- Le problĂšme du collectionneur de vignettes permet d'apporter un argument en faveur, mais non une preuve, de ce que le nombre Ï est un nombre normal. En effet si c'est bien le cas, on peut estimer le nombre de dĂ©cimales Ă lire pour trouver les dix chiffres de 0 Ă 9, les cent sĂ©quences de 00 Ă 99 et ainsi de suite ; les estimations donnĂ©es par le problĂšme du collectionneur de vignettes sont proches des valeurs obtenues en observant le dĂ©veloppement dĂ©cimal de Ï[12].
- Le problÚme du collectionneur de vignettes intervient dans l'étude de la complexité en moyenne de l'algorithme de Gale-Shapley[13]. L'objectif de cet algorithme est de calculer un mariage stable. L'algorithme procÚde comme suit. Chaque homme propose un mariage à la femme qu'il préfÚre le plus parmi celles à qui il n'a pas encore fait de proposition. Lorsqu'une femme célibataire reçoit une proposition, elle l'accepte. Si elle est mariée, elle accepte une proposition uniquement si cette derniÚre lui convient mieux. L'analyse en moyenne écrite par Donald Knuth[13] fait une analogie avec le problÚme du collectionneur de vignettes comme suit. Son analyse repose sur des hommes amnésiques qui font des propositions à des femmes aléatoires. L'algorithme termine alors lorsque les hommes ont fait des propositions à toutes les femmes. L'ensemble des hommes représente les collectionneurs ; les femmes sont les vignettes.
Notes et références
- (de) George PĂłlya, « Eine Wahrscheinlichkeitsaufgabe in der Kundenwerbung », Zeitschrift fĂŒr Angewandte Mathematik und Mechanik, vol. 10, no 1,â , p. 96â97 (DOI 10.1002/zamm.19300100113).
- L'ouvrage de Feller oĂč il est question du problĂšme est Feller 1968, et la remarque est faite par exemple par Foata, Han et Lass 2001.
- Gourdon 2021.
- Motwani et Raghavan 1995.
- Laplace 1812.
- (en) P. Erdös et A. Rényi, « On the Evolution of Random Graphs », Publications of the Mathematical Institute of the Hungarian Academy of Sciences, {{Article}} : paramÚtre «
date
» manquant (lire en ligne) - (en) B. BollobĂĄs, « The Evolution of Random Graphs », Transactions of the American Mathematical Society, vol. 286, no 1,â , p. 257â274 (DOI 10.2307/1999405)
- Foata, Han et Lass 2001.
- Sardy et Velenik 2010.
- Certains exemples de cette partie proviennent de Boneh et Hofri 1997.
- Boneh 1983.
- Delahaye 2023.
- . Donald Knuth, Mariages Stables et leurs relations avec d'autres problÚmes combinatoires, Montréal, Les Presses de l'Université de Montréal, , 106 p. (ISBN 978-2-7606-0529-9, présentation en ligne).
Bibliographie
Ătude dĂ©taillĂ©e du problĂšme
- Xavier Gourdon, Les maths en tĂȘte, t. AlgĂšbre - ProbabilitĂ©s, Paris, Ellipses, , 3e Ă©d. (1re Ă©d. 1994), 414 p. (ISBN 978-2-340-05676-3), chap. 6 (« ProbabilitĂ©s »), problĂšme no 9 (ProblĂšme du collectionneur), p. 356â359 [lire en ligne].
- Gilles PagÚs et Claude Bouzitat (ill. Yves Guézou, avec le concours de Fabrice Carrance et Frédérique Petit), En passant par hasard : Les probabilités de tous les jours, Paris, Vuibert, , 268 p. (ISBN 2-7117-5258-5), « Pour quelques images de plus ».
Vulgarisation et aspects généraux
- Pierre-Simon de Laplace, Théorie analytique des probabilités, Paris, Courcier, , p. 195 [lire en ligne].
- Sylvain Sardy et Yvan Velenik, « Petite collection dâinformations utiles pour collectionneur compulsif », sur Images des maths, .
- (en) Arnon Boneh et Micha Hofri, « The coupon-collector problem revisitedâa survey of engineering problems and computational methods », Stochastic Models (en), Taylor & Francis, vol. 13, no 1,â , p. 39â66 (DOI 10.1080/15326349708807412, lire en ligne).
- (en) William Feller, An Introduction to Probability Theory and Its Applications, vol. 1, New York, Wiley, , 3e Ă©d., p. 225.
- (en) Rajeev Motwani et Prabhakar Raghavan, Randomized Algorithms, Cambridge, New York et Melbourne, Cambridge University Press, (rĂ©impr. 1997, 2000), 1re Ă©d., 476 p. (ISBN 978-0-521-47465-8, lire en ligne), chap. 3.6 (« The Coupon Collector's Problem »), p. 57â63.
- Robert FerrĂ©ol, « Le problĂšme du collectionneur », Tangente Sup,â , p. 52â56 (lire en ligne).
- Jean-Paul Delahaye, « Les dures lois des collections », Pour la science, no 547,â , p. 80â85 (lire en ligne).
Articles et ouvrages de recherche
- (en) Arnon Boneh, « PreduceâA probabilistic algorithm identifying redundancy by a random feasible point generator (RFPG) », dans Redundancy in Mathematical Programming, Springer, , p. 108â134.
- (en) Aimo Torn et Antanas Zilinskas, Global optimization, Springer-Verlag, .
- Dominique Foata, Guo-Niu Han et Bodo Lass, « Les nombres hyperharmoniques et la fratrie du collectionneur de vignettes », SĂ©minaire Lotharingien de Combinatoire, vol. 47,â (lire en ligne).
Voir aussi
Source de la traduction
- (en) Cet article est partiellement ou en totalitĂ© issu de lâarticle de WikipĂ©dia en anglais intitulĂ© « Coupon collector's problem » (voir la liste des auteurs).