Accueil🇫🇷Chercher

Processus de décision markovien partiellement observable

En théorie de la décision et de la théorie des probabilités, un processus de décision markovien partiellement observable (POMDP[1] pour partially observable Markov decision process) est une généralisation d'un processus de décision markoviens (MDP pour Markov decision process). Comme dans un MDP, l'effet des actions est incertain mais, contrairement à ce qui se passe pour un MDP, l'agent n'a qu'une information partielle de l'état courant. Les POMDP sont des modèles de Markov cachés (HMM pour hidden Markov model) particuliers, dans lesquels on dispose d'actions probabilistes. Le tableau suivant montre la place des POMDP dans la famille des processus de décision[2] :

aucun contrĂ´le des transitions (i.e. pas de noms d'actions) contrĂ´le des transitions (i.e. avec des noms d'actions)
états observables Chaînes de Markov MDP
Ă©tats partiellement observables HMM POMDP

Les modèles de cette famille sont, entre autres, utilisés en intelligence artificielle pour le contrôle de systèmes complexes comme des agents intelligents.

DĂ©finition formelle

Un POMDP est un tuple oĂą :

  • est un ensemble fini non vide des Ă©tats possibles du système Ă  contrĂ´ler (il s'agit des Ă©tats cachĂ©s du processus) ;
  • est l'ensemble fini non vide des actions que l'on peut effectuer pour contrĂ´ler le système ;
  • est la fonction de transition du système en rĂ©action aux actions de contrĂ´le. Dans le cas gĂ©nĂ©ral, la fonction T est probabiliste et donne la probabilitĂ© que le système passe de l'Ă©tat Ă  l'Ă©tat lorsque l'on choisit d'effectuer l'action ;
  • est la fonction de rĂ©compense. Elle indique la valeur rĂ©elle obtenue lorsque l'on effectue l'action dans l'Ă©tat et que l'on arrive dans l'Ă©tat ;
  • est un ensemble de symboles observables ;
  • est une fonction d'observation qui Ă  un Ă©tat donnĂ© associe la probabilitĂ© d'observer un symbole donnĂ©.

Note : il existe des variantes dans lesquelles les récompenses peuvent dépendre des actions ou des observations. Les observations peuvent également dépendre des actions effectuées.

Approches

Il existe deux grands types d'approches pour s'attaquer à un problème POMDP.

  • On peut chercher Ă  dĂ©terminer de la façon la plus certaine possible quel est l'Ă©tat dans lequel on se trouve (en maintenant Ă  jour une distribution de probabilitĂ© sur les Ă©tats appelĂ©e belief-state).
  • On peut travailler directement sur les observations [2] de sans considĂ©rer l'Ă©tat cachĂ©. Cela n'est pas sans poser de problèmes car des observations similaires peuvent ĂŞtre obtenues dans des Ă©tats diffĂ©rents (par exemple, avec l'observation locale des carrefours dans un labyrinthe, on peut très bien tomber sur deux carrefours en forme de T). Une approche possible pour discriminer ces observations consiste Ă  garder une mĂ©moire des observations rencontrĂ©es par le passĂ© (dans ce cas, on perd la propriĂ©tĂ© markovienne).

Extension

Il existe des variantes multi-agents des POMDP, appelés les Dec-POMDP (Dec pour décentralisé)[3] - [4].

Notes et références

Articles connexes

Sources

  1. Kaebling L. P., Littman M. L., Cassandra A. R., Planning and Acting in Partially Observable Stochastic Domains, Artificial Intelligence, vol. 101, num. 1–2, pp. 99-134, 1998.
  2. McCallum A. K., Reinforcement learning with selective perception and hidden state, PhD thesis, University of Rochester, Computer Science Dept., 1996.

Liens externes

Cet article est issu de wikipedia. Text licence: CC BY-SA 4.0, Des conditions supplémentaires peuvent s’appliquer aux fichiers multimédias.