AccueilđŸ‡«đŸ‡·Chercher

Bandit manchot (mathématiques)

En mathématiques, plus précisément en théorie des probabilités, le problÚme du bandit manchot[1] - [2] (généralisable en problÚme du bandit à K bras[3] ou problÚme du bandit à N bras[4]) se formule de maniÚre imagée de la façon suivante : un utilisateur (un agent), face à des machines à sous, doit décider quelles machines jouer. Chaque machine donne une récompense moyenne que l'utilisateur ne connait pas a priori. L'objectif est de maximiser le gain cumulé de l'utilisateur.

Une rangée de machines à sous à Las Vegas.

C'est un exemple d'apprentissage par renforcement. Typiquement, la politique de l'utilisateur oscille entre exploitation (utiliser la machine dont il a appris qu'elle rĂ©compense beaucoup) et exploration (tester une autre machine pour espĂ©rer gagner plus)[5]. Le problĂšme de bandit manchot peut ĂȘtre vu comme un processus de dĂ©cision markovien avec un seul Ă©tat[6].

Formalisation du problĂšme

Dans cette section, nous formalisons le problĂšme en reprenant quelques notations de l'article d'Auer et al[3].

Entrée du problÚme

ConsidĂ©rons K machines Ă  sous. L'entrĂ©e du problĂšme est donnĂ©e par des variables alĂ©atoires Xi,n pour tout 1 ≀ i ≀ K, et n ≄ 1, oĂč l'indice i reprĂ©sente une des K machines (ou un « bras » du bandit) et l'indice n reprĂ©sente un tour de jeu. On suppose toutes ces variables alĂ©atoires indĂ©pendantes et que les variables d'une mĂȘme machine i, c'est-Ă -dire les variables Xi,1, Xi,2, etc., suivent la mĂȘme distribution de probabilitĂ© inconnue de l'agent, d'espĂ©rance ÎŒi.

Au tour numĂ©ro n, l'utilisateur va recevoir une rĂ©compense qui dĂ©pend de la machine qu'il choisit. Un exemple classique de bandit manchot est le cas oĂč la machine i apporte une rĂ©compense de 1 avec une probabilitĂ© pi et 0 avec la probabilitĂ© 1-pi.

Sortie du problĂšme : calcul d'une politique

L'utilisateur essaye de trouver la machine à sous qui apporte la plus grande récompense moyenne. Une politique ou stratégie pour le problÚme du manchot est un algorithme qui choisit la machine suivante à jouer, en se basant sur les choix précédents et sur les récompenses obtenues[7]. L'objectif est de fournir des politiques qui minimisent le regret, c'est-à-dire la quantité qui exprime ce que la politique a fait perdre par rapport au choix de la meilleure machine.

Regret

Dans un problÚme de bandit manchot, le regret aprÚs n essais est défini comme la différence entre la récompense que l'on obtiendrait en utilisant n fois la meilleure machine et l'espérance de la récompense aprÚs n essais effectués conformément à la politique[3] - [8]. Formellement, ce regret vaut :

oĂč est la rĂ©compense moyenne de la meilleure machine et dĂ©signe la rĂ©compense que l'on obtient avec la stratĂ©gie proposĂ©e Ă  l'instant .

Différents algorithmes

Des algorithmes d'apprentissage par renforcement ont donc été proposés pour résoudre le problÚme du bandit manchot.

Algorithme de bandit

L'algorithme de bandit tient son nom des machines Ă  sous (multi-armed bandit) face auxquelles le joueur cherche Ă  maximiser son gain[9]. Ils ont Ă©tĂ© introduits dans les annĂ©es 1960 en vue d’applications aux tests cliniques[10].

Le principe d’un algorithme de bandit peut ĂȘtre dĂ©fini de la maniĂšre suivante : on dispose de 2 sources A et B (ayant respectivement une probabilitĂ© pA et pB d’ĂȘtre satisfaisante lorsqu’elle est utilisĂ©e) et on souhaite dĂ©terminer laquelle des deux est la plus performante.

Approche gloutonne

Une approche gloutonne[11] consiste à ne faire que de l'exploitation, mais pas d'exploration. Ainsi, on calcule la valeur d'un bras a d'une machine (a pour action) de la façon suivante :

Le choix glouton consiste à choisir une des actions a qui maximise . Avec cette approche, l'optimal n'est pas atteint. On montre qu'on améliore la politique calculée si l'agent choisit une action arbitraire avec une probabilité Δ > 0. L'algorithme suivant est un algorithme simple pour le problÚme des bandits manchots, que l'on appelle Δ-glouton.

initialiser pour tout bras a:
     Q(a) := 0
     N(a) := 0
boucle pour toujours:
      avec une probabilité Δ:
               a := un bras au hasard
      sinon:
               a := une action qui maximise Q(a)
      R := récompense obtenue en tirant a
      N(a) := N(a) + 1
      Q(a) := Q(a) + (R - Q(a)) / N(a)

On stocke la valeur courante de dans Q(a).

On remarquera la similitude de cette approche Δ-glouton avec le processus darwinien classique de mutations et sélections.

Algorithmes de Lai et Robbins

Tze Leung Lai et Herbert Robbins[12] ont donné des algorithmes d'apprentissage par renforcement qui permettent d'obtenir un regret borné par une fonction logarithme, pour des familles spécifiques de distribution de probabilités pour les récompenses : . En autres termes, cela signifie que la machine optimale est jouée exponentiellement plus souvent que les autres machines[13].

Échantillonnage de Thompson

L'algorithme d'échantillonnage de Thompson est le premier à avoir été proposé pour résoudre ce problÚme [14].

À chaque fois, l'utilisateur choisit la machine qui a l'index le plus Ă©levĂ©. Cet index Ă©tant une variable alĂ©atoire suivant une loi bĂȘta. Pour chaque machine, l'utilisateur tire un index suivant une loi bĂȘta dont les paramĂštres et sont initialisĂ©s Ă  1. À chaque fois que l'utilisateur utilise une des machines, s'il obtient la rĂ©compense et sinon.

UCB

L'algorithme UCB (pour Upper Confidence Bounds) a été proposé par P. Auer en 2002 [15]. Avec cet algorithme, l'utilisateur calcule la moyenne empirique de la récompense pour chacune des machines.

Dans cette équation, désigne le nombre d'essais réalisés par l'utilisateur, le nombre d'essais fait par l'utilisateur sur la machine , désigne la récompense obtenue lors de l'essai . désigne la fonction indicatrice qui indique que la machine a été choisie pour l'essai .

Pour calculer l'index dans chaque canal, on ajoute un biais qui permet à l'algorithme d'explorer les différentes machines.

Le biais doit ĂȘtre choisi pour avoir une dĂ©croissance logarithmique du regret. Le biais :

permet de borner le regret de maniĂšre logarithmique.

De nombreuses améliorations de cet algorithme existent[16].

Application pratique

L'application la plus typique du problĂšme du bandit manchot est celui du choix entre une ancienne et une nouvelle posologie d'un vaccin ou mĂ©dicament (ou entre deux diffĂ©rents) : il faut dĂ©terminer le plus vite possible si le nouveau produit doit ĂȘtre adoptĂ© ou l'ancien maintenu. Toute erreur se traduirait en vies humaines perdues (ou, au minimum, en personnes souffrant de troubles consĂ©cutifs soit Ă  un traitement incomplet, soit Ă  des effets secondaires excessifs). On ne peut pour cette raison utiliser de protocoles des statistiques classiques (Fisher), qui ne sont pertinents que quand la collecte de l'information est peu coĂ»teuse et son traitement onĂ©reux, et on s'oriente plutĂŽt vers un plan d'expĂ©rience en utilisant des mĂ©thodes bayĂ©siennes qui utilisent immĂ©diatement l'information au fil de l'eau.

Ce modĂšle est parfois utilisĂ© en apprentissage automatique, par exemple pour effectuer des choix de publicitĂ© Ă  prĂ©senter en fonction de ce qui est dĂ©jĂ  connu[17], Ă  ceci prĂšs que le refus de cliquer sur un lien publicitaire apporte lui-mĂȘme Ă  son tour une information exploitable.

En radio intelligente, ce modÚle est souvent utilisé pour la prise de décision pour l'accÚs opportuniste au spectre [18].

Notes et références

  1. « Statistiquement vÎtre - Choix aléatoire de sujets autour de la statistique », sur Statistiquement vÎtre (consulté le )
  2. « Cours à l'université de Lille "Introduction aux algorithmes de bandit" »
  3. P. Auer, N. Cesa-Bianchi et P. Fischer, « Finite-time Analysis of the Multiarmed Bandit Problem », Machine Learning, vol. 47, nos 2/3,‎ , p. 235–256 (DOI 10.1023/A:1013689704352)
  4. M. N. Katehakis et A. F. Veinott, « The Multi-Armed Bandit Problem: Decomposition and Computation », Mathematics of Operations Research, vol. 12, no 2,‎ , p. 262–268 (DOI 10.1287/moor.12.2.262)
  5. (en) « Exploration–exploitation tradeoff using variance estimates in multi-armed bandits », Theoretical Computer Science, vol. 410, no 19,‎ , p. 1876–1902 (ISSN 0304-3975, DOI 10.1016/j.tcs.2009.01.016, lire en ligne, consultĂ© le )
  6. « Cours à l'université de Washington (cf. premier paragraphe) »
  7. « HOW TO INCREASE YOUR CHANCES OF WINNING AT POKIES? », Pokiestar,‎ (lire en ligne, consultĂ© le )
  8. Agrawal, R. (1995). Sample mean based index policies by O(log n) regret for the multi-armed bandit problem. Advances in Applied Probability, 27(4), 1054-1078.
  9. Maureen Clerc, Laurent Bougrain et Fabien Lotte, Les interfaces cerveau-ordinateur 1 : fondements et méthodes, Volume 1, ISTE Group, , 310 p., p. 228
  10. « Étude du regret associĂ© aux algorithmes de bandit de type Narendra-Shapiro », sur INSTITUT DE MATHÉMATIQUES DE MARSEILLE (consultĂ© le )
  11. (en) The MIT Press, « Reinforcement Learning, Second Edition | The MIT Press », sur mitpress.mit.edu (consulté le ), Chapter 2. Algorithme donnée p. 32
  12. (en) « Asymptotically efficient adaptive allocation rules », Advances in Applied Mathematics, vol. 6, no 1,‎ , p. 4–22 (ISSN 0196-8858, DOI 10.1016/0196-8858(85)90002-8, lire en ligne, consultĂ© le )
  13. « Cours sur les bandits (voir transparent 12) »
  14. W. R. Thompson, "On the likelihood that one unknown probability exceeds another in view of the evidence of two samples", Biometrika, 25:285–294, 1933.
  15. Auer, P., Cesa-Bianchi, N. & Fischer, P. Machine Learning (2002) 47: 235.
  16. On Bayesian Upper Confidence Bounds for Bandit Problems, Émilie Kaufmann, Olivier CappĂ©, Aurelien Garivier ; JMLR W&CP 22: 592-600, 2012.
  17. « Online Machine Learning - Application à la publicité sur le web », sur OCTO Talks !, (consulté le ).
  18. L. Lai, H. Jiang and H. V. Poor, "Medium access in cognitive radio networks: A competitive multi-armed bandit framework", 2008 42nd Asilomar Conference on Signals, Systems and Computers, Pacific Grove, CA, 2008, p. 98-102.

Voir aussi

Cet article est issu de wikipedia. Text licence: CC BY-SA 4.0, Des conditions supplĂ©mentaires peuvent s’appliquer aux fichiers multimĂ©dias.