Jeu différentiel

En théorie des jeux, les jeux différentiels sont une classe de problèmes dynamiques liés à la modélisation et à l'analyse des conflits dans le contexte d'un système dynamique. Plus précisément, une ou plusieurs variables d'état évoluent dans le temps selon une équation différentielle, paramétrée par des contrôles de différents joueurs, cherchant à optimiser un certain critère. Les applications de cette théorie ont d'abord reflété des intérêts militaires – jeux de poursuite-évasion – avant de s'étendre à d'autres thématiques techniques ou économiques[1] - [2].

Histoire

Dans l'étude de la concurrence, les jeux différentiels sont employés depuis un article de 1925 de Charles F. Roos[3]. Le premier à étudier la théorie formelle des jeux différentiels fut Rufus Isaacs, publiant un manuel en 1965[4]. L'un des premiers jeux analysés était le "jeu du chauffeur homicide".

Formalisation

Les jeux différentiels sont étroitement liés aux problèmes de contrôle optimal. Dans un problème de contrôle optimal, il existe un contrôle unique $u(t)$ et un seul critère à optimiser ; la théorie des jeux différentiels généralise cela à des contrôles multiples $u_{1}(t),\dots ,u_{p}(t)$ , un pour chaque joueur cherchant à optimiser un critère[5]. Chaque joueur tente de contrôler l'état du système afin d'atteindre son propre but ; le système répond aux entrées de tous les joueurs.

Soit ${\mathcal {I}}=[0;T]$ où $T\in \,]0;+\infty ]$ . On note ${\mathcal {P}}$ l'ensemble des joueurs, de cardinal $p$ , $x:{\mathcal {I}}\to \Omega \subset \mathbb {R} ^{n}$ l'état du système avec pour condition initiale $x_{0}$ et $u_{i}:{\mathcal {I}}\to U_{i}$ le contrôle (appelé stratégie) du $i$ -ième joueur, pour $1\leq i\leq p$ . Un jeu différentiel est donné par le problème d'optimisation couplé suivant :

{\begin{cases}{\dot {x}}&=&f(t,x,u_{1}^{*},\dots ,u_{p}^{*})&x(0)=x_{0}\\u_{i}^{*}&\in &\arg \min \limits _{u_{i}}J_{i}(x,u_{1},\dots ,u_{p}),&1\leq i\leq p\end{cases}}

où $J_{i}:\Omega \times U_{1}\times \cdots \times U_{p}\to \mathbb {R}$ est le critère (fonction-objectif) que le $i$ -ième joueur cherche à optimiser. En l'état, un tel problème n'a pas un concept de solution bien défini. En théorie des jeux non coopératifs, les joueurs ne communiquent pas. Comme ils ne connaissent pas les stratégies choisies par les autres joueurs, ils ne peuvent que les anticiper. Dans ce cadre, le concept de solution adapté est l'équilibre de Nash, où chaque joueur optimise son propre critère au regard des stratégies effectivement choisies par les autres. Le problème s'écrit alors

{\begin{cases}{\dot {x}}&=&f(t,x,u_{1}^{*},\dots ,u_{p}^{*})&x(0)=x_{0}\\u_{i}^{*}&\in &\arg \min \limits _{u_{i}}J_{i}(x,u_{1}^{*},\dots ,u_{i-1}^{*},u_{i},u_{i+1}^{*},\dots ,u_{p}^{*}),&1\leq i\leq p\end{cases}}

Une autre façon de formuler ce problème repose sur l'application de meilleure réponse. On note ${\mathcal {R}}_{i}(u_{j\neq i})=\arg \min \limits _{u_{i}}J_{i}(x(u),u_{1},\dots ,u_{p})$ la meilleure réponse pour $i$ . Notons qu'elle dépend implicitement du système dynamique. On pose alors ${\mathcal {R}}=({\mathcal {R}}_{1},\dots ,{\mathcal {R}}_{p})$ l'application de meilleure réponse. Le problème revient alors à déterminer un point fixe de cette application multivaluée :

{\begin{cases}{\dot {x}}&=&f(t,x,u_{1}^{*},\dots ,u_{p}^{*})&x(0)=x_{0}\\u^{*}&\in &{\mathcal {R}}(u^{*})&\end{cases}}

Le problème n'est pas nécessairement bien posé et ni l'existence, ni l'unicité d'un équilibre de Nash n'est garantie en général. Plusieurs types de problèmes existent selon l'horizon temporel du jeu ou les stratégies possibles pour les joueurs.

Par la suite on se place dans un cadre non coopératif. On suppose de plus que les joueurs connaissent la structure du problème, c'est-à-dire qu'ils ont connaissance de la fonction qui décrit l'évolution du système, de l'état initial, des fonctions-objectif, du temps (chacun possède une horloge).

Horizon temporel

Le système étant dynamique, on distingue plusieurs types de problème selon que l'horizon du jeux est fini, infini, ou aléatoire.

Dans le cas particulier des jeux différentiels où l'horizon temporel est aléatoire, c'est-à-dire variable aléatoire avec une fonction de distribution de probabilité donnée, les joueurs cherchent à maximiser l'espérance mathématique de la fonction de coût[6]. Il a été montré que le problème d'optimisation modifié peut être reformulé comme un jeu différentiel à horizon temporel infini, en introduisant une actualisation[7] - [8].

En horizon temporel fini, $T<+\infty$ est connu de tous les joueurs et leurs fonctions de coût s'écrivent

J_{i}(x,u_{1},\dots \dots ,u_{p})=\int _{0}^{T}L_{i}(x(t),u_{1}(t),\dots ,u_{p}(t))\,\mathrm {d} t+\Psi _{i}(x(T))

où $L_{i}$ est le coût de fonctionnement et $\Psi _{i}$ est le coût final. En horizon temporel infini, $T=\infty$ est connu de tous les joueurs et leurs fonctions de coût s'écrivent

J_{i}(x,u_{1},\dots \dots ,u_{p})=\int _{0}^{+\infty }e^{-\rho _{i}t}L_{i}(x(t),u_{1}(t),\dots ,u_{p}(t))\,\mathrm {d} t

où $L_{i}$ est le coût de fonctionnement et $\rho _{i}$ le taux d'actualisation

Stratégies

On distingue deux classes principales de stratégies : les stratégies en boucle ouverte et les stratégies en boucle fermée. Lorsque les joueurs ne peuvent observer l'état du système, les stratégies sont choisies comme fonctions du temps (stratégies en boucle ouverte). Dans le cas contraire, les joueurs choisissent leur stratégies comme fonction du temps et de l'état du système. Si $f$ et $L_{i}$ ne dépendent pas du temps, les stratégies en boucle ouverte ne dépendent que de l'état du système.

Stratégies en boucle ouverte

On considère le problème où les joueurs ne peuvent observer l'état du système :

{\begin{cases}{\dot {x}}&=&f(t,x,u_{1}^{*}(t),\dots ,u_{p}^{*}(t))&x(0)=x_{0}\\u_{i}^{*}&\in &\arg \min \limits _{u_{i}:\mathbb {R} _{+}\to U_{i}}J_{i}(x,u_{1}^{*},\dots ,u_{i-1}^{*},u_{i},u_{i+1}^{*},\dots ,u_{p}^{*}),&1\leq i\leq p\end{cases}}

Supposons que pour tous $t\in {\mathcal {I}},x\in \Omega ,\lambda _{1},\dots ,\lambda _{p}\in \mathbb {R} ^{n}$ , il existe un unique uplet $(u_{1}^{\sharp }(t,x,\lambda ),\dots ,u_{p}^{\sharp }(t,x,\lambda ))$ tel que $u_{1}^{\sharp }(t,x,\lambda )=\arg \min \limits _{\omega \in U_{i}}\left\{L_{i}(t,x,u_{j\neq i}^{\sharp }(t,x,\lambda ),\omega )-\lambda \cdot f(t,x,u_{j\neq i}^{\sharp }(t,x,\lambda ),\omega )\right\}$ Supposons que l'horizon du jeu soit fini. Lorsque les fonctions $f,\psi _{i},L_{i}$ sont continûment différentiables, d'après le principe du maximum de Pontriaguine, l'équilibre de Nash vérifie les conditions nécessaires suivantes :

u_{i}^{*}=u_{i}^{\sharp }(t,x(t),\lambda (t))

où l'état $x$ et les co-états $\lambda _{1},\dots ,\lambda _{p}$ vérifient

{\begin{cases}{\dot {x}}&=&f(t,x,u_{1}^{*}(t),\dots ,u_{p}^{*}(t)))\\{\dot {\lambda }}_{i}&=&-\lambda _{i}\cdot {\partial f \over \partial x}(t,x(t),u^{*}(t))+{\partial L_{i} \over \partial x}(t,x(t),u^{*}(t))\end{cases}}

avec les conditions initiales et finales

{\begin{cases}x(0)&=&x_{0}&\\\lambda _{i}(T)&=&-\nabla \psi _{i}(x(T)),&1\leq i\leq p\end{cases}}

Ces conditions nécessaires ne sont cependant pas des conditions suffisantes.

Applications

Les jeux différentiels ont été appliqués à l'économie. Les développements récents incluent l'ajout de l'aléatoire aux jeux différentiels et la dérivation de l'équilibre de Nash à rétroaction stochastique (SFNE). Un exemple récent est le jeu différentiel stochastique du capitalisme de Leong et Huang (2010)[9]. En 2016, Yuliy Sannikov a reçu la médaille John Bates Clark de l' American Economic Association pour ses contributions à l'analyse des jeux dynamiques en temps continu à l'aide de méthodes de calcul stochastique[10] - [11].

De plus, les jeux différentiels ont des applications dans le guidage de missiles[12] - [13] et les systèmes autonomes[14]. Pour une étude des jeux différentiels de poursuite-évasion, voir Pachter[15].

Voir également

Remarques

(en) Tembine, « Mean-field-type games », AIMS Mathematics, vol. 2, n^o 4,‎ 6 décembre 2017, p. 706–735 (DOI 10.3934/Math.2017.4.706, lire en ligne)
(en) Djehiche, Tcheukam et Tembine, « Mean-Field-Type Games in Engineering », AIMS Electronics and Electrical Engineering, vol. 1,‎ 27 septembre 2017, p. 18–73 (DOI 10.3934/ElectrEng.2017.1.18, arXiv 1605.03281, S2CID 16055840, lire en ligne)
Roos, « A Mathematical Theory of Competition », American Journal of Mathematics, vol. 47, n^o 3,‎ 1925, p. 163–175 (DOI 10.2307/2370550, JSTOR 2370550)
Rufus Isaacs, Differential Games: A Mathematical Theory with Applications to Warfare and Pursuit, Control and Optimization, London, Dover, 1999 (1^re éd. 1965) (ISBN 0-486-40682-2, lire en ligne)
Morton I. Kamien et Nancy L. Schwartz, Dynamic Optimization : The Calculus of Variations and Optimal Control in Economics and Management, Amsterdam, North-Holland, 1991, 272–288 p. (ISBN 0-444-01609-0), « Differential Games »
(ru) Petrosjan et Murzov, « Game-theoretic problems of mechanics », Litovsk. Mat. Sb., vol. 6,‎ 1966, p. 423–433
(ru) Petrosjan et Shevkoplyas, « Cooperative games with random duration », Vestnik of St.Petersburg Univ., vol. 4, n^o 1,‎ 2000
Marín-Solano et Shevkoplyas, « Non-constant discounting and differential games with random time horizon », Automatica, vol. 47, n^o 12,‎ décembre 2011, p. 2626–2638 (DOI 10.1016/j.automatica.2011.09.010)
Leong et Huang, « A stochastic differential game of capitalism », Journal of Mathematical Economics, vol. 46, n^o 4,‎ 2010, p. 552 (DOI 10.1016/j.jmateco.2010.03.007, S2CID 5025474)
(en) « American Economic Association », www.aeaweb.org (consulté le 21 août 2017)
(en) Tembine et Duncan, « Linear–Quadratic Mean-Field-Type Games: A Direct Method », Games, vol. 9, n^o 1,‎ 2018, p. 7 (DOI 10.3390/g9010007)
Anderson, « Comparison of Optimal Control and Differential Game Intercept Missile Guidance Laws », Journal of Guidance and Control, vol. 4, n^o 2,‎ 1981, p. 109–115 (ISSN 0162-3192, DOI 10.2514/3.56061, Bibcode 1981JGCD....4..109A, lire en ligne)
Pontani et Conway, « Optimal Interception of Evasive Missile Warheads: Numerical Solution of the Differential Game », Journal of Guidance, Control, and Dynamics, vol. 31, n^o 4,‎ 2008, p. 1111–1122 (DOI 10.2514/1.30893, Bibcode 2008JGCD...31.1111C, lire en ligne)
Farhan A. Faruqi, Differential Game Theory with Applications to Missiles and Autonomous Systems Guidance, Wiley, coll. « Aerospace Series », 2017 (ISBN 978-1-119-16847-8)
Pachter, « Simple-motion pursuit–evasion differential games » [archive du 20 juillet 2011], 2002

Liens externes

Bressan, « Noncooperative Differential Games: A Tutorial », Department of Mathematics, Penn State University, 8 décembre 2010

Cet article est issu de wikipedia. Text licence: CC BY-SA 4.0, Des conditions supplémentaires peuvent s’appliquer aux fichiers multimédias.