The Doppler Quarterly (DEUTSCHE) Frühjahr 2018

Der jüngste Meilenstein Sowohl Schach als auch Go zeichnen sich durch ihre jeweils eigene Komplexität aus, aber beide beinhalten vollkommene Informationen. Anders ausgedrückt: Beide Spieler sehen zu jeder Zeit alle Bereiche des Spielbretts. Im Gegensatz dazu ist die Heads-Up-Va- riante (zwei Spieler) von No-Limit Texas Hold'em (einer Pokervariante) ein Spiel mit unvollkommenen Informationen. Ein Spieler sieht weder die zwei ver- deckten Karten, die an den anderen Spieler ausgeteilt werden, noch kennt er die drei Karten, die während der drei Spielrunden nach der Kartenausgabe aufge- deckt werden. Damit Sie einen Eindruck von der Komplexität des Spiels gewinnen: Die Karten, die ausgeteilt werden, und die Gemeinschaftskarten, die aufgedeckt werden, sind eine von 10^160 Möglichkei- ten. Das ist eine 1 gefolgt von 160 Nullen – mehr als die Zahl der Atome im Universum. Dieses Problem kann nicht mehr einfach mit enormer Rechenleistung gelöst werden. Ungefähr zur selben Zeit, als AlphaGo Master im Januar 2017 Fortschritte gegenüber der Vorgänger- version AlphaGo Lee machte, trat ein KI-Programm namens Libratus gegen vier menschliche Top-Poker- spieler an: Jason Les, Dong Kim, Daniel McAulay und Jimmy Chou. Nach 20 Spieltagen und 120.000 Poker- blättern ging Libratus als Sieger hervor. Professor Tuomas Sandholm von der Carnegie Mel- lon University und seine Doktoranden entwickelten Libratus als Nachfolger zu einer früheren Version namens Claudico (die ursprünglich als Tartanian bezeichnet wurde). Libratus wandte drei verschie- dene Ansätze an, die zusammenarbeiteten – und das war sein entscheidender Vorteil. Zunächst nutzte das Programm ein als „Reinforce- ment Learning“ bezeichnetes Verfahren. Dabei ver- wendete das Programm eine Trial-and-Error-Me- thode auf Zufallsbasis, um zu lernen, indem es ein Spiel gegen sich selbst spielte. Dabei kam ein Algo- rithmus zum Einsatz, der als „Counterfactual Regret Minimization“ bekannt ist. Dieses Verfahren wird offenbar auch von den neuesten Versionen von AlphaGo (AlphaGo Zero und AlphaZero) angewandt. Dieses Verfahren testet so viele verschiedene Ansätze, dass es einige optimierte Strategien ermit- telt, an die Menschen gar nicht denken würden. In bestimmten Fällen wurden menschliche Gegner tat- sächlich abgehängt. Der zweite Ansatz betrachtete den aktuellen Spiel- stand und half dann dabei, den Algorithmus „Coun- terfactual Regret Minimization“ zu fokussieren. Dies war wichtig, da der primäre Algorithmus so nicht AlphaGo ist ein komplexeres Spiel als Schach. Sein Spiel- brett besteht aus 19 x 19 Fel- dern. Die zusätzliche Schwie- rigkeit besteht darin, dass Spielsteine geschlagen wer- den können, wenn sie von den Steinen des Spielgegners umringt sind. FRÜHJAHR 2018 | THE DOPPLER | 39

The Doppler Quarterly (DEUTSCHE) Frühjahr 2018 | Page 41