AlfaZero — AlphaZero

AlphaZero to program komputerowy opracowany przez firmę DeepMind zajmującą się badaniami nad sztuczną inteligencją, aby opanować gry w szachy , shogi i go . Ten algorytm wykorzystuje podejście podobne do AlphaGo Zero .

W dniu 5 grudnia 2017 roku, zespół DeepMind wydała preprint wprowadzającą AlphaZero, który w ciągu 24 godzin szkolenia osiągniętego nadludzką poziom gry w tych trzech meczach, pokonując programy światowej mistrz Sztokfisz , elmo , a wersja trzydniowe AlphaGo Zero . W każdym przypadku korzystał z niestandardowych procesorów tensorowych (TPU), z których zoptymalizowano programy Google. AlphaZero został przeszkolony wyłącznie poprzez „samodzielną grę” przy użyciu 5000 TPU pierwszej generacji do generowania gier i 64 TPU drugiej generacji do trenowania sieci neuronowych , wszystko równolegle , bez dostępu do otwieranych książek lub stołów końcowych . Po czterech godzinach treningu DeepMind oszacował, że AlphaZero grał w szachy z wyższym wskaźnikiem Elo niż Stockfish 8; po 9 godzinach treningu algorytm pokonał Stockfisha 8 w kontrolowanym czasowo turnieju 100 gier (28 wygranych, 0 przegranych i 72 remisy). Wytrenowany algorytm grał na jednej maszynie z czterema TPU.

Artykuł DeepMind na temat AlphaZero został opublikowany w czasopiśmie Science w dniu 7 grudnia 2018 r. W 2019 r. DeepMind opublikował nowy artykuł szczegółowo opisujący MuZero , nowy algorytm zdolny do uogólniania pracy AlphaZero, grając zarówno w Atari, jak i w gry planszowe bez znajomości zasad lub reprezentacji gra.

Związek z AlphaGo Zero

AlphaZero (AZ) jest bardziej uogólnioną odmianą algorytmu AlphaGo Zero (AGZ) i jest w stanie grać w shogi i szachy, a także w Go . Różnice między AZ i AGZ obejmują:

AZ ma ustalone zasady ustawiania hiperparametrów wyszukiwania .
Sieć neuronowa jest teraz stale aktualizowana.
Go (w przeciwieństwie do szachów) jest symetryczne pod pewnymi odbiciami i rotacjami; AlphaGo Zero został zaprogramowany tak, aby wykorzystać te symetrie. AlphaZero nie jest.
Szachy mogą zakończyć się remisem w przeciwieństwie do Go; dlatego AlphaZero bierze pod uwagę możliwość losowania gry.

Sztokfisz i elmo

Porównując wyszukiwania w drzewach Monte Carlo , AlphaZero przeszukuje tylko 80 000 pozycji na sekundę w szachach i 40 000 w shogi, w porównaniu do 70 milionów w przypadku sztokfisza i 35 milionów w przypadku elmo. AlphaZero kompensuje mniejszą liczbę ocen, wykorzystując swoją głęboką sieć neuronową do znacznie bardziej selektywnego skupienia się na najbardziej obiecującej odmianie.

Szkolenie

AlphaZero było trenowane wyłącznie poprzez samodzielną grę, przy użyciu 5000 jednostek TPU pierwszej generacji do generowania gier i 64 jednostek TPU drugiej generacji do trenowania sieci neuronowych . Równolegle trenujący AlphaZero był okresowo dopasowywany do swojego wzorca (Stockfish, elmo lub AlphaGo Zero) w krótkich grach jednosekundowych na ruch, aby określić, jak dobrze przebiegał trening. DeepMind ocenił, że wydajność AlphaZero przekroczyła benchmark po około czterech godzinach treningu dla Stockfish, dwóch godzinach dla elmo i ośmiu godzinach dla AlphaGo Zero.

Wstępne rezultaty

Wynik

Szachy

W meczu szachowym AlphaZero ze Sztokfiszem 8 ( mistrzem świata TCEC 2016 ) każdy program otrzymywał jedną minutę na ruch. Stockfishowi przydzielono 64 wątki i rozmiar skrótu 1 GB, ustawienie, które Tord Romstad ze Stockfisha później skrytykował jako nieoptymalne. AlphaZero trenował szachy w sumie dziewięć godzin przed meczem. Podczas meczu AlphaZero działał na jednej maszynie z czterema jednostkami TPU dostosowanymi do aplikacji . W 100 meczach z normalnej pozycji startowej AlphaZero wygrał 25 meczów białymi, 3 wygrali czarnymi, a pozostałe 72 zremisował. 12 najpopularniejszych otwarcia dla ludzi, AlphaZero wygrał 290, zremisował 886 i przegrał 24.

Shogi

AlphaZero było trenowane w shogi w sumie dwie godziny przed turniejem. W 100 meczach shogi przeciwko elmo (World Computer Shogi Championship 27 letnia wersja turniejowa 2017 z wyszukiwaniem YaneuraOu 4.73), AlphaZero wygrał 90 razy, przegrał 8 razy i zremisował dwa razy. Podobnie jak w grach szachowych, każdy program otrzymywał minutę na ruch, a elmo otrzymał 64 wątki i rozmiar hash 1 GB.

Udać się

Po 34 godzinach samodzielnej nauki Go i AlphaGo Zero, AlphaZero wygrał 60 gier i przegrał 40.

Analiza

DeepMind stwierdził w swoim wstępnym druku: „Gra w szachy stanowiła szczyt badań nad sztuczną inteligencją przez kilka dziesięcioleci. Najnowocześniejsze programy są oparte na potężnych silnikach, które przeszukują wiele milionów pozycji, wykorzystując ręcznie robioną wiedzę o domenach i wyrafinowane adaptacje domen. AlphaZero to ogólny algorytm uczenia się ze wzmocnieniem – pierwotnie opracowany do gry w go – który osiągnął doskonałe wyniki w ciągu kilku godzin, przeszukując tysiąc razy mniej pozycji, bez znajomości domeny poza zasadami”. Demis Hassabis z DeepMind , sam szachista, nazwał styl gry AlphaZero „obcym”. „To jak szachy z innego wymiaru”.

Biorąc pod uwagę trudność w szachach wymuszenia wygranej z silnym przeciwnikiem , wynik +28 –0 =72 jest znaczącym marginesem zwycięstwa. Jednak niektórzy arcymistrzowie, tacy jak Hikaru Nakamura i twórca Komodo Larry Kaufman , zbagatelizowali zwycięstwo AlphaZero, argumentując, że mecz byłby bliższy, gdyby programy miały dostęp do bazy danych otwarcia (ponieważ Stockfish został zoptymalizowany pod ten scenariusz). Romstad dodatkowo zwrócił uwagę, że Stockfish nie jest zoptymalizowany pod kątem ruchów o sztywno ustalonym czasie, a używana wersja miała rok.

Podobnie, niektórzy obserwatorzy shogi twierdzili, że rozmiar skrótu elmo jest zbyt niski, że ustawienia rezygnacji i ustawienia "EnteringKingRule" (por. shogi § Entering King ) mogły być nieodpowiednie i że elmo jest już przestarzały w porównaniu z nowszymi programami.

Reakcja i krytyka

W gazetach napisano, że trening szachowy trwał tylko cztery godziny: „Udało się to w niewiele więcej niż czas między śniadaniem a obiadem”. Wired rozreklamował AlphaZero jako „pierwszego wielozadaniowego mistrza gier planszowych AI”. Ekspert ds. sztucznej inteligencji Joanna Bryson zauważyła, że „smakiem Google do dobrej reklamy” jest stawianie go na silnej pozycji przeciwko konkurentom. „Nie chodzi tylko o zatrudnianie najlepszych programistów. Jest to również bardzo polityczne, ponieważ pomaga uczynić Google tak silnym, jak to tylko możliwe podczas negocjacji z rządami i organami regulacyjnymi zajmującymi się sektorem AI”.

Ludzcy arcymistrzowie szachowi generalnie wyrażali podekscytowanie AlphaZero. Duński arcymistrz Peter Heine Nielsen porównał grę AlphaZero do gry wyższego gatunku obcego. Norweski arcymistrz Jon Ludvig Hammer scharakteryzował grę AlphaZero jako „szalone szachy atakujące” z głębokim zrozumieniem pozycji. Były mistrz Garry Kasparow powiedział: „To niezwykłe osiągnięcie, nawet jeśli powinniśmy się tego spodziewać po AlphaGo”.

Wielki mistrz Hikaru Nakamura był pod mniejszym wrażeniem i stwierdził: „Niekoniecznie przywiązuję dużą wiarygodność do wyników tylko dlatego, że rozumiem, że AlphaZero zasadniczo korzysta z superkomputera Google, a Stockfish nie działa na tym sprzęcie; Stockfish w zasadzie działał na czym byłby mój laptop. Jeśli chcesz mieć mecz, który jest porównywalny, musisz mieć również uruchomionego Stockfisha na superkomputerze.

Czołowy amerykański szachista korespondencyjny Wolff Morrow również nie był pod wrażeniem, twierdząc, że AlphaZero prawdopodobnie nie awansuje do półfinału uczciwej konkurencji, takiej jak TCEC, gdzie wszystkie silniki grają na takim samym sprzęcie. Morrow stwierdził dalej, że chociaż może nie być w stanie pokonać AlphaZero, jeśli AlphaZero zagrałby niepewne otwarcia, takie jak obrona Petroffa, AlphaZero nie byłby w stanie pokonać go również w grze w szachy korespondencyjne .

Motohiro Isozaki, autor YaneuraOu, zauważył, że chociaż AlphaZero wszechstronnie pokonał elmo, ocena AlphaZero w shogi przestała rosnąć w punkcie, który jest co najwyżej 100~200 wyższy niż elmo. Ta przepaść nie jest tak duża, a elmo i inne oprogramowanie do shogi powinno nadrobić zaległości w ciągu 1-2 lat.

Ostateczne rezultaty

DeepMind odniósł się do wielu krytycznych uwag w swojej ostatecznej wersji artykułu, opublikowanej w grudniu 2018 r. w Science . Wyjaśnili dalej, że AlphaZero nie działa na superkomputerze; został przeszkolony przy użyciu 5000 jednostek przetwarzania tensorów (TPU), ale w swoich meczach działał tylko na czterech TPU i 44-rdzeniowym procesorze.

Szachy

W ostatecznych wynikach wersja 8 firmy Stockfish działała w tych samych warunkach, co w superfinale TCEC : 44 rdzenie procesora, bazy tabel gry końcowej Syzygy i rozmiar skrótu 32 GB. Zamiast ustalonej kontroli czasu jednego ruchu na minutę, oba silniki otrzymały 3 godziny plus 15 sekund na ruch, aby zakończyć grę. W meczu 1000 meczów AlphaZero wygrał z wynikiem 155 wygranych, 6 przegranych i 839 remisów. DeepMind rozegrał również serię gier z wykorzystaniem pozycji otwarcia TCEC; AlphaZero również wygrał przekonująco. Sztokfisz potrzebował kursów 10 do 1, aby dopasować AlphaZero.

Shogi

Podobnie jak Stockfish, Elmo prowadził w tych samych warunkach, co w mistrzostwach CSA 2017. Użyta wersja Elmo to WCSC27 w połączeniu z YaneuraOu 2017 Early KPPT 4.79 64AVX2 TOURNAMENT. Elmo działał na tym samym sprzęcie, co Stockfish: 44 rdzenie procesora i rozmiar skrótu 32 GB. AlphaZero wygrał 98,2% partii grając czarnymi (która gra jako pierwsza w shogi) i 91,2% ogółem.

Reakcje i krytyka

Ludzcy arcymistrzowie byli ogólnie pod wrażeniem gier AlphaZero przeciwko Stockfishowi. Były mistrz świata Garry Kasparow powiedział, że oglądanie gry AlphaZero to przyjemność, zwłaszcza że jej styl był otwarty i dynamiczny jak jego własny.

W społeczności szachów komputerowych twórca Komodo Mark Lefler nazwał to „całkiem niesamowitym osiągnięciem”, ale zwrócił również uwagę, że dane są stare, ponieważ Stockfish zyskał dużą siłę od stycznia 2018 r. (kiedy wydano Stockfish 8). Współtwórca Larry Kaufman powiedział, że AlphaZero prawdopodobnie przegra mecz z najnowszą wersją Stockfisha, Stockfish 10, w warunkach Top Chess Engine Championship (TCEC). Kaufman argumentował, że jedyną zaletą silników opartych na sieciach neuronowych jest to, że wykorzystują one procesor graficzny, więc jeśli nie uwzględniono zużycia energii (np. w konkursie na równy sprzęt, w którym oba silniki miały dostęp do tego samego procesora i procesora graficznego), wtedy cokolwiek osiągnięty GPU był „wolny”. Na tej podstawie stwierdził, że najsilniejszym silnikiem będzie prawdopodobnie hybryda z sieciami neuronowymi i standardowym wyszukiwaniem alfa-beta .

AlphaZero zainspirowało społeczność szachów komputerowych do opracowania Leela Chess Zero przy użyciu tych samych technik co AlphaZero. Leela rywalizowała w kilku mistrzostwach przeciwko Stockfishowi, gdzie wykazała mniej więcej podobną siłę jak Stockfish.

W 2019 roku DeepMind opublikował MuZero , zunifikowany system, który grał w doskonałe szachy, shogi i go, a także gry w Atari Learning Environment bez wcześniejszego zaprogramowania ich zasad.

Zobacz też

AlphaGo
AlfaFold
Ogólne zasady gry
- MuZero
- ReBeL , ogólny gracz Facebooka, który dodatkowo obsługuje pokera
Lilia Szachy Zero
Pluribus (bot pokerowy)

Languages

In other projects

AlfaZero — AlphaZero

Zawartość

Związek z AlphaGo Zero

Sztokfisz i elmo

Szkolenie

Wstępne rezultaty

Wynik

Szachy

Shogi

Udać się

Analiza

Reakcja i krytyka

Ostateczne rezultaty

Szachy

Shogi

Reakcje i krytyka

Zobacz też

Uwagi

Bibliografia

Zewnętrzne linki