AlphaGo
AlphaGo est un programme informatique capable de jouer au jeu de go, développé par l'entreprise britannique DeepMind et racheté en 2014 par Google.
Développé par | Google DeepMind |
---|---|
Type | Logiciel de jeu de go |
Site web | Site officiel |
En , il devient le premier programme Ă battre un joueur professionnel (le français Fan Hui) sur un goban de taille normale (19Ă19) sans handicap. Il s'agit d'une Ă©tape symboliquement forte puisque le programme joueur de go est alors un dĂ©fi complexe de l'intelligence artificielle[1]. En , il bat Lee Sedol, un des meilleurs joueurs mondiaux (9e dan professionnel)[2] - [3]. Le , il bat le champion du monde Ke Jie et la retraite du logiciel est annoncĂ©e.
L'algorithme d'AlphaGo combine des techniques d'apprentissage automatique et de parcours de graphe, associĂ©es Ă de nombreux entrainements avec des humains, d'autres ordinateurs, et surtout lui-mĂȘme.
Cet algorithme sera encore amĂ©liorĂ© dans les versions suivantes. AlphaGo Zero en atteint un niveau supĂ©rieur en jouant uniquement contre lui-mĂȘme. AlphaZero en dĂ©cembre 2017 surpasse largement, toujours par auto-apprentissage, le niveau de tous les joueurs humains et logiciels, non seulement au go, mais aussi aux Ă©checs et au shĆgi.
Histoire
Contexte
Programmer un joueur de go est considĂ©rĂ© comme un problĂšme bien plus difficile que pour d'autres jeux, comme les Ă©checs, en raison d'un bien plus grand nombre de combinaisons possibles[4], mais aussi parce que la condition de victoire et les objectifs intermĂ©diaires sont beaucoup moins clairs, ce qui rend extrĂȘmement complexe l'utilisation de mĂ©thodes traditionnelles telles que la recherche exhaustive[5]. Quand l'ordinateur d'IBM Deep Blue a battu le champion du monde d'Ă©checs Garry Kasparov en 1997, les ordinateurs Ă©taient alors limitĂ©s au niveau des joueurs amateurs faibles au jeu de go.
Le monde de la recherche voit en cette difficulté un défi à relever et améliore ses algorithmes[6], et le niveau des programmes s'accélÚre dans les années 2010. En 2012, le programme Zen a battu Takemiya Masaki (9e dan) deux fois, avec un handicap de 5 et 4 pierres[7]. En 2013, Crazy Stone a battu Ishida Yoshio (9e dan) avec un handicap de 4 pierres[8].
Début 2016, Facebook annonce avoir des résultats encourageants à propos d'une intelligence artificielle de go[9] appelée Darkforest développée en interne.
DĂ©veloppement
AlphaGo a été développé par DeepMind Technologies, une entreprise britannique spécialisée dans l'intelligence artificielle créée par Demis Hassabis, Mustafa Suleyman et Shane Legg[10] en 2010, et rachetée par Google en 2014.
AlphaGo représente une amélioration significative par rapport aux précédents programmes de go. Sur 500 parties jouées contre d'autres programmes, y compris Crazy Stone et Zen[11], AlphaGo n'en a perdu qu'une[12].
Match contre Fan Hui
En , AlphaGo bat le champion europĂ©en de go Fan Hui (2e dan), 5-0 en parties lentes[13] et 3-2 en parties rapides[14]. C'est la premiĂšre fois qu'un programme de go bat un joueur professionnel dans un match avec parties sans handicap sur un goban de taille normale (19Ă19)[14]. La nouvelle n'a Ă©tĂ© annoncĂ©e que le pour coĂŻncider avec la publication d'un article dans le journal Nature[15] dĂ©crivant l'algorithme utilisĂ©[13].
Match contre Lee Sedol
AlphaGo affronte en le joueur sud-coréen Lee Sedol (9e dan professionnel, niveau maximal), considéré comme le meilleur joueur du monde entre 2000 et 2010[1]. Le match, récompensé par un prix d'un million de dollars, est diffusé et commenté en direct sur internet[16]. Lee Sedol reçoit 150 000 $ pour sa participation, et 20 000 $ pour chaque partie gagnée.
Le match en 5 parties se termine par la victoire 4-1 de l'ordinateur :
- Victoire d'AlphaGo avec les blancs, par abandon aprĂšs 3 heures et 39 minutes de jeu[17].
- Victoire d'AlphaGo avec les noirs, par abandon[18].
- Victoire d'AlphaGo avec les blancs, par abandon.
- Victoire de Lee Sedol avec les blancs (en offrant un jeu de qualité, et découvrant une faille dans le logiciel ; cette faiblesse d'AlphaGo sera réparée dans les versions ultérieures), par abandon[19].
- Victoire d'AlphaGo avec les blancs[20]. Lee Sedol joue les noirs à sa demande considérant qu'ainsi la partie aurait plus de valeur[21].
Avant mĂȘme la derniĂšre partie et assurĂ© de la victoire, AlphaGo est classĂ© 9e dan professionnel de maniĂšre honorifique par la Hanguk Kiwon (fĂ©dĂ©ration corĂ©enne de jeu de go)[22]. Le prix d'un million de dollars, gagnĂ© par l'Ă©quipe d'AlphaGo, est donnĂ© Ă des associations caritatives.
AprĂšs le match contre Lee Sedol
Avant mĂȘme la rencontre, d'autres professionnels avaient manifestĂ© leur dĂ©sir de s'opposer Ă AlphaGo[23], mĂȘme si Ke Jie estimait, au vu de ses parties contre Fan Hui, que ce n'Ă©tait pas un adversaire digne de lui[24]. AprĂšs le match, Lee Sedol regrettait de ne pas avoir donnĂ© toute sa mesure, et souhaitait une revanche[25]. Mais ce n'est qu'au dĂ©but de que la perspective d'une nouvelle rencontre se prĂ©cisait ; cependant, le , Demis Hassabis refusait de confirmer ces informations[26] - [27].
Le , AlphaGo devient le meilleur joueur du monde au classement de GoRatings, avec 3612 points Elo (contre 3608 au second, Ke Jie)[28].
En , des commentaires dĂ©taillĂ©s des parties du match contre Lee Sedol, dus Ă Gu Li et Zhou Ruiyang (en) et sâappuyant sur les analyses dâAlphaGo, ont Ă©tĂ© publiĂ©s sur le site de DeepMind[29] ; dâaprĂšs Gu Li, la maĂźtrise dâAlphaGo et la profondeur de ses analyses dĂ©passent encore ce quâon en avait dĂ©jĂ dit lors du match.
Le , Demis Hassabis annonce quâune version amĂ©liorĂ©e d'AlphaGo vient de disputer une sĂ©rie de 60 parties rapides contre les meilleurs joueurs mondiaux (Ke Jie, Iyama Yuta, Gu Li, Park Jeong-hwan (en)âŠ)[30], parties quâelle a toutes gagnĂ©es, et quâelle disputera des matchs officiels un peu plus tard dans lâannĂ©e[31].
Du 23 au , un festival intitulĂ© The Future of Go Summit est organisĂ© par Google et lâassociation chinoise de weiqi Ă Wuzhen ; la plus rĂ©cente version d'AlphaGo y affronte Ke Jie dans un match en trois parties, ainsi que d'autres professionnels chinois jouant en consultation. LĂ encore, AlphaGo gagne toutes les parties jouĂ©es[32]. AprĂšs cette rencontre, Google annonce qu'AlphaGo ne jouera plus en compĂ©tition, mais qu'ils vont publier des documents techniques dĂ©crivant leurs derniĂšres amĂ©liorations et un ensemble de parties jouĂ©es par la machine contre elle-mĂȘme ; ils envisagent aussi de dĂ©velopper Ă l'usage des joueurs un outil d'analyse s'appuyant sur ce logiciel[33] - [34].
Le , DeepMind annonce un nouveau dĂ©veloppement, quâils nomment AlphaGo Zero ; ce programme utilise une architecture simplifiĂ©e et part dâune connaissance nulle du jeu (uniquement les rĂšgles) ; jouant uniquement contre lui-mĂȘme, il atteint le niveau dĂ©butant en trois heures, bat 100 Ă 0 la version ayant battu Lee Sedol aprĂšs 72 heures, et aprĂšs 40 jours, il bat la version de (dite « Master ») 89 parties sur 100[35] - [36].
Le , une nouvelle version nommĂ©e AlphaZero gĂ©nĂ©ralise encore cet algorithme, obtenant un programme gĂ©nĂ©rique capable d'apprendre Ă jouer au go, aux Ă©checs ou au shĆgi Ă partir de la simple connaissance des rĂšgles ; le programme parvient en quelques heures Ă battre les meilleurs programmes existants (par exemple, pour les Ă©checs, il obtient aprĂšs quatre heures d'apprentissage une nette victoire sur Stockfish : sur 100 parties, 25 victoires avec Blanc, 3 avec Noir, et 72 nulles)[37].
Algorithme
Les premiÚres versions d'AlphaGo utilisent la méthode de Monte-Carlo, guidée par un « value network » et un « policy network » (un réseau de valeur et un réseau d'objectifs), tous deux implémentés en utilisant un réseau de neurones profond[5].
AlphaGo a initialement Ă©tĂ© entraĂźnĂ© pour « imiter » les joueurs humains, en retrouvant les coups enregistrĂ©s lors de dizaines de milliers de parties menĂ©es par des joueurs experts[2]. Une fois un certain niveau atteint, il s'est entraĂźnĂ© Ă jouer des millions de parties contre d'autres instances de lui-mĂȘme[2], utilisant l'apprentissage par renforcement pour s'amĂ©liorer[5].
Cependant, en , DeepMind publie dans Nature une nouvelle Ă©tude, dĂ©crivant AlphaGo Zero, une architecture simplifiĂ©e et nâutilisant plus ni la mĂ©thode de Monte-Carlo, ni des connaissances humaines, mais parvenant pourtant trĂšs rapidement Ă des performances supĂ©rieures Ă celles des versions prĂ©cĂ©dentes[36].
Le projet Leela Zero
Lâalgorithme dâAlphaGo (ou du moins ses idĂ©es essentielles) ayant Ă©tĂ© rendu public, plusieurs groupes ont essayĂ© de le reproduire, voire de lâamĂ©liorer. Ă partir de 2018 en particulier, un projet collaboratif et open source, Leela Zero, a obtenu en un an des rĂ©sultats analogues, portables sur des ordinateurs individuels, et mĂȘme sur des smartphones.
Notes et références
- (en) Jethro Mullen, « Computer scores big win against humans in ancient game of Go », CNN, (consulté le ).
- Serge Abiteboul et Tristan Cazenave, « Go : une belle victoire⊠des informaticiens ! », sur binaire, (consulté le )
- Classement des meilleurs joueurs mondiaux, sur le site goratings.org
- Le nombre de parties raisonnables possibles est immense, il est estimĂ© Ă 10600 pour un goban 19x19, alors que pour les Ă©checs, il ne serait que de 10120 (le nombre de Shannon), nombre lui-mĂȘme immensĂ©ment supĂ©rieur Ă celui (1080) des particules de l'univers (voir « L'ordinateur battra-t-il l'homme au Jeu de Go ? », sur reseaux-telecoms.net (consultĂ© le )).
- (en) David Silver et Demis Hassabis, « AlphaGo: Mastering the ancient game of Go with Machine Learning », sur Google Research Blog, .
- (en-US) Alan Levinovitz, « The Mystery of Go, the Ancient Game That Computers Still Can't Win », sur Wired, (consulté le ).
- (en) David Ormerod, « Zen computer Go program beats Takemiya Masaki with just 4 stones! », sur Go Game Guru (consulté le ).
- (ja) « ăăąăć æź”ăźćă怩æăăăćČçąæŁćŁ«ăăłăłăă„ăŒăżăŒă«æăăăćăźć ŹćŒæŠ », MSN Sankei News,â (consultĂ© le ).
- (en-GB) HAL 90210, « No Go: Facebook fails to spoil Google's big AI day », The Guardian,â (lire en ligne, consultĂ© le )
- (en) Amy Thomson, « Google Buys U.K. Artificial Intelligence Company DeepMind », sur Bloomberg.com (consulté le )
- (en) Sarah Griffiths, « Artificial intelligence breakthrough as Google's software beats grandmaster of Go, the 'most complex game ever devised' », Daily Mail, (consulté le ).
- (en) Chris Duckett, « Google AlphaGo AI clean sweeps European Go champion », ZDNet, (consulté le ).
- (en) « Google achieves AI 'breakthrough' by beating Go champion », BBC News, .
- David Larousserie et Morgane Tual, « PremiĂšre dĂ©faite d'un professionnel du go contre une intelligence artificielle », Le Monde.fr,â (lire en ligne, consultĂ© le ).
- (en) David Silver, Aja Huang, Chris J. Maddison, Arthur Guez, Laurent Sifre, George van den Driessche, Julian Schrittwieser, Ioannis Antonoglou, Veda Panneershelvam, Marc Lanctot, Sander Dieleman, Dominik Grewe, John Nham, Nal Kalchbrenner, Ilya Sutskever, Timothy Lillicrap, Madeleine Leach, Koray Kavukcuoglu, Thore Graepel et Demis Hassabis, « Mastering the game of Go with deep neural networks and tree search », Nature, vol. 529, no 7587,â , p. 484â489 (DOI 10.1038/nature16961, lire en ligne, consultĂ© le ).
- (en-GB) Samuel Gibbs, « Googleâs AI AlphaGo to take on world No 1 Lee Se-dol in live broadcast », The Guardian,â (lire en ligne, consultĂ© le )
- « Le meilleur joueur mondial de go battu par une intelligence artificielle dans un match symbolique », Le Monde.fr,â (lire en ligne, consultĂ© le ).
- « Jeu de go : Lee Sedol perd la deuxiĂšme manche face Ă l'intelligence artificielle », Le Monde.fr,â (lire en ligne, consultĂ© le ).
- « Jeu de go : premiĂšre victoire de Lee Sedol contre lâintelligence artificielle de Google », Le Monde.fr,â (lire en ligne, consultĂ© le )
- « Jeu de go : victoire finale de l'intelligence artificielle sur le score de 4 Ă 1 », Le Monde.fr,â (lire en ligne, consultĂ© le )
- (en) « Lee Se-dol shows AlphaGo beatable », sur The Korea Times (consulté le )
- (en) hermesauto, « Google's AlphaGo gets 'divine' Go ranking », sur The Straits Times (consulté le )
- (en) « In the "aftermath" of AlphaGo - Opinions of Professional Go Players » [« Dans le sillage d'AlphaGo : opinions de joueurs professionnels »], European Go Federation, .
- « "AlphaGo ne peut pas me battre", déclare Ke Jie, joueur professionnel de go », sur french.xinhuanet.com, (consulté le ).
- (en) « Defeated Go champion Lee Sedol wants a rematch against AlphaGo » [« Lee Sedol, le champion de go battu, veut un match retour contre AlphaGo »], sur independent.co.uk, (consulté le ).
- Julien Cadot, « Le numĂ©ro 1 du jeu de Go veut la revanche de lâhumanitĂ© sur lâintelligence artificielle », sur numerama.com, (consultĂ© le ).
- Karyl Ait-Kaci-Ali, « AlphaGo : pas de match contre Ke Jie (pour l'instant ?) déclare DeepMind », sur CNETfrance.fr, (consulté le ).
- Julien Lausson, « AlphaGo devient le joueur le mieux classé du monde », sur numerama.com, .
- (en) Les parties commentĂ©es, et trois parties dâAlphaGo contre lui-mĂȘme.
- (de) Diagrammes interactifs (mais non commentés) de ces parties.
- (en) Message officiel de Demis Hassabis.
- (en) Annonce, résultats et commentaires de la rencontre sur le site de DeepMind.
- Morgane Tual, « AlphaGo prend sa retraite », Le Monde.fr,â (lire en ligne).
- Cet outil (un ensemble d'analyses de 6000 fuseki (séquences d'ouverture) fréquemment joués par les professionnels et les forts amateurs) est accessible en ligne depuis l'automne 2017 sous le nom de AlphaGo Teach (en).
- Morgane Tual, « Intelligence artificielle : toujours plus puissant, AlphaGo apprend dĂ©sormais sans donnĂ©es humaines », Le Monde.fr,â (lire en ligne).
- (en) David Silver, Julian Schrittwieser, Karen Simonyan, Ioannis Antonoglou, Aja Huang, Arthur Guez, Thomas Hubert, Lucas Baker, Matthew Lai, Adrian Bolton, Yutian Chen, Timothy Lillicrap, Fan Hui, Laurent Sifre, George van den Driessche, Thore Graepel et Demis Hassabis, « Mastering the game of Go without human knowledge », Nature, vol. 550,â , p. 354â359 (DOI 10.1038/nature24270, lire en ligne).
- (en) David Silver, Thomas Hubert, Julian Schrittwieser, Ioannis Antonoglou, Matthew Lai, Arthur Guez, Marc Lanctot, Laurent Sifre, Dharshan Kumaran, Thore Graepel, Timothy Lillicrap, Karen Simonyan et Demis Hassabis, « Mastering Chess and Shogi by Self-Play with a General Reinforcement Learning Algorithm », arXiv,â (lire en ligne).