AlphaGo le nouveau maître du go!

alphagoPresque vingt ans après avoir battu l’homme aux échec, l’ordinateur est passé maître dans l’art subtil de go. Une époustouflante victoire pour l’intelligence artificielle.

         Un bastion de l’intelligence humaine vient de tomber. Depuis la chute des grands maîtres des échecs, vaincus en 1997 par un programme nommé Deep Blue, les maîtres de go étaient les derniers à résister aux intelligences artificielles (IA). Et puis Alpha Go est arrivé. En octobre 2015, il triomphait du champion d’Europe: 5 partie à 0. En mars, il a fait chuter le coréen Lee Sedol, considéré comme le meilleur joueur du monde. Même s’il a sauvé l’honneur, l’humain s’est incliné 4-1! Pour les chercheurs en intelligence artificielle, c’est une consécration. Ils essayent en effet de reproduire l’intelligence humaine de manière informatique… voire de la dépasser! Le go, jeu chinois vieux de plus de 2 500 ans, était le dernier grand jeu de réflexion à donner du fil à retorde à la machine. Ses règles sont pourtant plus simples que celles des échecs. Le plateau (ou globan) est composé de 19 lignes et 19 colonnes. Il est vide au début de la partie. Les deux joueurs déposent tour à tour, sur l’ une des 361 intersections, un de leurs jetons (appelés “pierres”) noirs ou blancs.

Lee Sedol (à droite), le meilleur joueur du monde, a perdu 4 fois sur 5 à AlphaGo

Lee Sedol (à droite), le meilleur joueur du monde, a perdu 4 fois sur 5 à AlphaGo

Une fois posés, les jetons ne se déplacent plus. Le but est de tracer des lignes continues de pierres pour former des territoires ou emprisonner l’adversaire (elles sont alors retirées du goban). Celui dont les pierres occupent ou contrôlent le plus grand nombre d’intersections en fin de partie est vainqueur.

Deux cerveaux en un

Si ce jeu pose tant de problèmes aux machines, c’est que même les plus puissantes sont incapables de calculer, dans un temps raisonnable, tous les coups possibles. Aux échecs, le plateau ne compte que 64 cases, on ne joue qu’avec 32 pièces qui se déplacent selon des règles strictes. Par conséquent, il n’y a qu’une quarantaine de coups jouables par tour. Au go, avec 361 emplacements, c’est plutôt 250 coups par tour! C’est pourquoi avant AlphaGo, des ordinateurs ne pouvaient rivaliser avec des joueurs pros qu’à la condition de bénéficier d’au moins quatre coups d’avance. Comment AlphaGo a-t-il surmonté l’obstacle? Grace à l’association jusqu’alors inédite, de deux outils. Au cours de la partie, le logiciel emploie la stratégie connue sous le nom “d’ exploration de Monte-Carlo”.4661Souvenez-vous, à partir de la configuration des pierres sur le plateau, il est impossible, à cause de leur nombre, de simuler tous les coups réalisable et toutes les fins de partie qui en découlent. L’exploration de Monte-Carlo propose une solution: tester au hasard un nombre plus réduit de combinaisons. Puis choisir les coups qui mènent le plus souvent à la victoire. Au lieu de simuler bêtement un maximum de coups possibles, AlphaGo oriente “intelligemment” le hasard, grâce à des réseaux de neurones artificiels: des programmes informatiques qui, à l’image du cerveau humain dont ils s’inspirent, sont capable d’apprendre.

L’ordi s’entraîne comme un pro! 

AlphaGo a ainsi suivi un entrainement intensif, comme un vrai joueur. Il a “digéré” plus de 30 millions de coups joués par des professionnels en tournois, ce qui lui permet de prédire le prochain mouvement d’un adversaire humain dans 57% des cas. Ça parait peu, mais les meilleurs logiciel de go plafonnaient jusqu’alors à 44%. Cependant, imiter les meilleurs joueurs ne suffit pas pour les surpasser. AlphaGo a alors commencé à apprendre tout seul: il a joué contre lui-même des milliers de parties. Son premier réseau de neurones a pu tester différentes options pour chaque situation, et dresser la liste des meilleurs coups à jouer… Bref, il s’est forgé sa propre expérience! Le second réseau de neurones d’ AlphaGo a été développé pour résoudre une autre difficulté du jeu: savoir, à un moment de la partie, quel joueur domine. Aux échecs, c’est plus facile, les pièces n’ont pas toutes la même valeur. Une dame capable de se déplacer dans toutes les directions vaut plus qu’un fou qui navigue en diagonale, lequel vaut plus qu’un simple pion. Comment AlphaGo joue-t-il son prochain coup?A niveau égal, un joueur qui perdu sa dame et un fou contre un joueur qui a perdu deux pions est plutôt mal parti. Au go, toutes les pierres ont la même valeur, seule leur disposition importe. Grace à son second “cerveau”, AlphaGo peut désormais estimer les chances de victoire finale de chaque camp à partir de la position des pierres sur le globan, sans avoir à simuler des parties jusqu’au bout. Autrement dit, il peut réserver ses ressources de calcul aux scénarios qui lui sont le plus favorables. Tout ça est très futé, mais à quoi bon créer des IA superpuissantes si c’est pour qu’elles passent leur temps à faire joujou? D’abord, cela permet aux chercheurs d’évaluer les performances de leur programme en les comparant à celles d’autres joueurs, humain ou logiciels. Ainsi, il est facile de suivre ses progrès comme on suivrait la carrière d’un joueur de tennis selon son classement mondial.

Rendre les robots intelligents

Surtout, les outils d’IA employés dans les jeux profitent facilement à d’autres domaines. Les réseaux de neurones et leurs techniques d’apprentissage sont employés pour apprendre aux robots à accomplir des séries de gestes afin de réaliser une tache précise. Ils permettent aussi à des programmes d’apprendre à devenir des experts en reconnaissance d’images, en repérant par exemple des tumeurs sur des radios avec plus de justesse qu’un médecin humain. Quant à la méthode Monte-Carlo et sa dose de hasard -soigneusement affinée par AlphaGo et ses semblables -, elle peut servir notamment à trouver le trajet le plus court pour relier plusieurs destination sur Google Maps. razum-shutterstock-ai-ubj-750xx903-511-0-18Car il ne faut pas l’oublier: la société Deep Mind, créatrice d’AlphaGo, appartient à Google… Et l’entreprise la plus riche du monde a des tas de projets pour son IA: elle va lui permettre d’améliorer ses logiciels, par exemple pour détecter des images violentes sur internet, ou encore de perfectionner la conduite de ses voitures sans chauffeur. Ou comment faire d’une pierre( de go) plusieurs coups.

 

Tom PIGNOUX 3°5