The Doppler Quarterly (DEUTSCHE) Frühjahr 2018 | Page 41
Der jüngste Meilenstein
Sowohl Schach als auch Go zeichnen sich durch ihre
jeweils eigene Komplexität aus, aber beide beinhalten
vollkommene Informationen. Anders ausgedrückt:
Beide Spieler sehen zu jeder Zeit alle Bereiche des
Spielbretts. Im Gegensatz dazu ist die Heads-Up-Va-
riante (zwei Spieler) von No-Limit Texas Hold'em
(einer Pokervariante) ein Spiel mit unvollkommenen
Informationen. Ein Spieler sieht weder die zwei ver-
deckten Karten, die an den anderen Spieler ausgeteilt
werden, noch kennt er die drei Karten, die während
der drei Spielrunden nach der Kartenausgabe aufge-
deckt werden. Damit Sie einen Eindruck von der
Komplexität des Spiels gewinnen: Die Karten, die
ausgeteilt werden, und die Gemeinschaftskarten, die
aufgedeckt werden, sind eine von 10^160 Möglichkei-
ten. Das ist eine 1 gefolgt von 160 Nullen – mehr als die
Zahl der Atome im Universum. Dieses Problem kann
nicht mehr einfach mit enormer Rechenleistung
gelöst werden.
Ungefähr zur selben Zeit, als AlphaGo Master im
Januar 2017 Fortschritte gegenüber der Vorgänger-
version AlphaGo Lee machte, trat ein KI-Programm
namens Libratus gegen vier menschliche Top-Poker-
spieler an: Jason Les, Dong Kim, Daniel McAulay und
Jimmy Chou. Nach 20 Spieltagen und 120.000 Poker-
blättern ging Libratus als Sieger hervor.
Professor Tuomas Sandholm von der Carnegie Mel-
lon University und seine Doktoranden entwickelten
Libratus als Nachfolger zu einer früheren Version
namens Claudico (die ursprünglich als Tartanian
bezeichnet wurde). Libratus wandte drei verschie-
dene Ansätze an, die zusammenarbeiteten – und das
war sein entscheidender Vorteil.
Zunächst nutzte das Programm ein als „Reinforce-
ment Learning“ bezeichnetes Verfahren. Dabei ver-
wendete das Programm eine Trial-and-Error-Me-
thode auf Zufallsbasis, um zu lernen, indem es ein
Spiel gegen sich selbst spielte. Dabei kam ein Algo-
rithmus zum Einsatz, der als „Counterfactual Regret
Minimization“ bekannt ist. Dieses Verfahren wird
offenbar auch von den neuesten Versionen von
AlphaGo (AlphaGo Zero und AlphaZero) angewandt.
Dieses Verfahren testet so viele verschiedene
Ansätze, dass es einige optimierte Strategien ermit-
telt, an die Menschen gar nicht denken würden. In
bestimmten Fällen wurden menschliche Gegner tat-
sächlich abgehängt.
Der zweite Ansatz betrachtete den aktuellen Spiel-
stand und half dann dabei, den Algorithmus „Coun-
terfactual Regret Minimization“ zu fokussieren. Dies
war wichtig, da der primäre Algorithmus so nicht
AlphaGo ist ein komplexeres
Spiel als Schach. Sein Spiel-
brett besteht aus 19 x 19 Fel-
dern. Die zusätzliche Schwie-
rigkeit besteht darin, dass
Spielsteine geschlagen wer-
den können, wenn sie von
den Steinen des Spielgegners
umringt sind.
FRÜHJAHR
2018 | THE DOPPLER | 39