The Doppler Quarterly (FRANÇAIS) Printemps 2018 - Page 41

La dernière étape franchie Bien que les jeux d'échecs et de go possèdent chacun leur propre niveau de complexité, ils s'appuient tous deux sur des informations dites « parfaites ». En d’autres termes, les deux joueurs peuvent à tout moment visual- iser toutes les pièces posées sur l’échiquier. Avec la vari- ante du poker Texas Hold'em en mode « no limit », en revanche, qui se joue en face à face (à deux joueurs), les informations sont imparfaites, en ce sens qu'un joueur ne peut pas voir les deux cartes fermées de l’autre joueur, et que les trois dernières cartes abattues après les trois tours de jeu restent inconnues. Pour se donner une petite idée du niveau de complexité que cela représente, lorsque vous jouez une partie, les cartes que vous avez abattues et les cartes ouvertes visibles sur la table con- stituent une sur 10 puissance 160 combinaisons possi- bles. Autrement dit, le chiffre 1 suivi de 160 zéros, soit plus que le nombre d’atomes contenus dans l’univers. Un tel problème ne peut pas être aisément résolu par la force brute en étant simplement traité par un outil de calcul. À peu près en même temps que l’époque où AlphaGo Master progressait par rapport à son prédécesseur AlphaGo Lee, en janvier 2017, un programme d’IA appelé Libratus a été confronté à quatre des meilleurs joueurs PRINTEMPS 2018 | THE DOPPLER | 39 de poker au monde : Jason Les, Kim Dong, Daniel McAu- lay et Jimmy Chou. Au bout de 20 jours de jeu et 120 000 mains de poker, Libratus est sorti vainqueur. Le professeur Tuomas Sandholm de l'Université Carne- gie Mellon et ses étudiants ont développé Libratus sous la forme d'un successeur d’une version antérieure appelée Claudico (initialement connue sous le nom de Tartanian). La marque distinctive de Libratus est le fait que ce programme s'est appuyé sur une synergie de trois approches différentes : en premier lieu, il fait appel à une technique dite d’ap- prentissage par renforcement, selon laquelle le pro- gramme use de t tonnements aléatoire et apprend en jouant une partie contre lui-même, via un algorithme dit de réduction des regrets contrefactuels. Il est à noter que cette même technique a été adoptée avec succès sur les dernières versions d'AlphaGo, à savoir AlphaGo Zero et AlphaZero. Cette méthode finit par tester un éventail tellement large d’approches qu’elle est capable de trou- ver des stratégies optimisées qu'il ne viendrait pas à l'es- prit d'humains de tenter. Et dans certains cas, c’est pré- cisément cela qui a conduit à la défaite de ses adversaires de chair et de sang. AlphaGo un jeu plus complexe que le jeu d’échecs : il se compose d’un plateau de 19 x 19 cases, avec un niveau de difficulté supplémentaire dû au retournement des pièces lorsque celles-ci sont cernées par les pierres de l’adversaire.