AlphaZero

AlphaZero est une version généraliste d’AlphaGo Zero, un logiciel de go (jeu de stratégie abstrait chinois) qui a été adapté pour jouer aux échecs et au shogi (échecs japonais). AlphaZero a été créé par Demis Hassabis de DeepMind, une entreprise appartenant au groupe Google.

Historique

Le 5 décembre 2017, DeepMind poste sur la plateforme de prépublication arXiv un article concernant AlphaZero[1] - [2], un programme utilisant l’approche généralisée d'AlphaGo Zero. Le style de jeu d'AlphaZero s'écarte des programmes de jeu habituels tout en requérant moins de calculs par mouvement en regard de ses concurrents[3] - [4].

Selon DeepMind, AlphaZero a atteint en 24 heures un niveau de jeu supérieur aux humains au jeu d'échecs, au shogi et au go en battant les programmes champions du monde Stockfish (échecs), Elmo (en) (shogi) et la version d’AlphaGo Zero ayant eu trois jours d'apprentissage.

Le même mois, AlphaZero bat la version AlphaGo Zero (ayant 3 jours d’apprentissage) 60 parties à 40. Avec 8 heures de pratique et 21 millions de parties jouées contre lui-même, il surpasse la version d’AlphaGo du match contre Lee Sedol au classement Elo.

Stockfish, le logiciel champion du monde d'échecs est battu après 4 heures d'apprentissage et 44 millions de parties jouées. Toutefois, Stockfish n'avait pas le droit d'utiliser ses bibliothèques d'ouvertures et de finales[5].

Le programme de shogi Elmo est terrassé après deux heures de pratique et 24 millions de parties[1] - [6].

AlphaZero possède désormais un réseau de neurones mis à jour de manière continue et possède des règles codées pour l’établissement de recherche d’hyperparamètres. Par ailleurs, il n'a pas été programmé pour profiter des symétries propres au jeu de go (possibilités de réflexions et rotations), inexistantes dans le jeu d'échecs, et peut prendre en compte la possibilité d'une partie nulle (inexistant au jeu de go mais présent aux échecs).

En novembre 2019, DeepMind annonce la réalisation de MuZero, un programme analogue qui apprend également les règles du jeu (autrement dit, il essaie des mouvements, et ne reçoit comme seules informations que leur légalité, et le résultat (intermédiaire ou final) de ces "coups") ; ce programme peut aussi bien jouer aux échecs ou au go qu'à des jeux vidéos tels que ceux d'Atari, avec des performances comparables ou supérieures à celles d'AlphaGo[7].

Bibliographie générale

(en) Natasha Regan et Matthew Sadler, Game Changer: AlphaZero's Groundbreaking Chess Strategies and the Promise of AI, New In Chess, janvier 2019, 416 p. (ISBN 9789056918187)

Bibliographie propre au jeu d'échecs

(en) Acquisition of Chess Knowledge in AlphaZero article de arxiv du 17 novembre 2021.
- Texte téléchargeable [PDF] ici
- Analyse de ce texte sur chess.com : How Alphazero learns chess

Références

(en) David Silver et al, « Mastering Chess and Shogi by Self-Play with a General Reinforcement Learning Algorithm », 5 décembre 2017.
(en) « Entire human chess knowledge learned and surpassed by DeepMind's AlphaZero in four hours », sur The Telegraph.co.uk
Thierry Noisette, « Une intelligence artificielle bat les meilleures IA aux échecs, au go et au shogi », sur L'Obs (consulté le 24 septembre 2020)
Grégory Rozières, « L'IA de Google championne d'échecs, de jeu de go et de shogi sans entraînement particulier », sur Le HuffPost, 6 décembre 2018 (consulté le 24 septembre 2020)
AlphaZero, le programme de Google, bat Stockfish à plates coutures
Marc Zaffagni, « AlphaZero : l'IA de Google DeepMind devient imbattable aux échecs », sur Futura Tech (consulté le 11 décembre 2018)
DeepMind dévoile MuZero.

Liens externes

Exemples de parties de go

[vidéo] AlphaGo Zero - AlphaZero sur YouTube, commentée par Michael Redmond (en).

Exemples de parties d'échecs

[vidéo] Stockfish - AlphaZero sur YouTube, considérée par Fabien Libiszewski comme la plus belle partie d'AlphaZero.

Exemples de parties de shogi

[vidéo] Elmo - AlphaZero n°14 sur YouTube, sélectionnée par Yoshiharu Habu (ja).

Cet article est issu de wikipedia. Text licence: CC BY-SA 4.0, Des conditions supplémentaires peuvent s’appliquer aux fichiers multimédias.