Na Go, heeft AI nu de sterkste schaakcomputers overwonnen

AlphaZero, het nieuwste algoritme uit de keuken van Google, heeft in 4 uur trainen het schaakspel onder de knie gekregen.

Aan het eind van het vorige millenium had IBM met DeepBlue de primeur van een schaakcomputer die de mens overstijgt. Deze schaakcomputer won in 1997 van Gary Kasparov, de toenmalige wereldkampioen.

In tegenstelling tot DeepBlue heeft AlphaZero geen openingen of eindspel database om te gebruiken. Met alleen de regels van het schaakspel heeft dit machine learning algoritme in 4 uur een niveau bereikt dat alle andere schaakcomputers lijkt te overtreffen. Van de 100 keer dat AlphaZero tegen Stockfish (de huidige wereldkampioen) speelde, won AlphaZero 25 keer met wit, 3 keer met zwart en de overgebleven keer eindigde het spel in gelijkspel.

AlphaZero is een aangepaste versie van AlphaGo Zero, het Google algoritme dat eerder dit jaar de wereldkampioen Go versloeg. De eerste versies van de AI werden geholpen door ze eerst wedstrijden van mensen te laten zien. Al snel kwam men er achter dat de AI zelf betere strategiĆ«n bedacht waar zelfs de beste spelers niet aan hadden gedacht. Het is superinteressant om te zien dat AlphaZero, de schaakengine, heel makkelijk stukken offert voor positioneel voordeel en zo veel “menselijker” speelt dan traditionele schaakengines als bijvoorbeeld Stockfish.

Natuurlijk zijn er ook wat punten van kritiek. AlphaZero had in vergelijking met Stockfish veel betere hardware tot haar beschikking. AlphaZero had speciaal ontwikkelde hardware van Google, zogenaamde Tensor Processing Units (TPUs), Stockfish had deze niet. Ook speelde Stockfish zonder de gebruikelijke openingendatabase en was er een tijdslimiet van 1 minuur per zet. Dit beperkt een traditioneel schaakprogramma aanzienlijk.

Nadat AlphaZero het schaakspel onder de knie had gekregen was het natuurlijk de beurt aan het volgende spel. Ook Shogi engine “Elmo” werd verslagen door het Neural net. Next! Wat denk je dat het volgende spel wordt waar Alphazero zich aan waagt?

 

Category: reinforcement learning