Waga - Libratus

Libratus to program komputerowy wykorzystujący sztuczną inteligencję , zaprojektowany do gry w pokera , a konkretnie heads-upa w Texas Hold'em bez limitu . Twórcy Libratusa zamierzają, aby można go było uogólnić na inne, niespecyficzne dla pokera aplikacje. Został opracowany na Uniwersytecie Carnegie Mellon w Pittsburghu.

Tło

Libratus został napisany od podstaw, ale jest nominalnym następcą Claudico . Podobnie jak jego poprzednik, jego nazwa jest łacińskim wyrażeniem i oznacza „zrównoważony”.

Libratus został zbudowany z ponad 15 milionami podstawowych godzin obliczeń w porównaniu z 2-3 milionami dla Claudico. Obliczenia przeprowadzono na nowym superkomputerze „Bridges” w Centrum Superkomputerowym Pittsburgh . Według jednego z twórców Libratus, profesora Tuomasa Sandholma, Libratus nie ma ustalonej wbudowanej strategii, ale algorytm, który oblicza strategię. Zastosowana technika to nowy wariant kontrfaktycznej minimalizacji żalu , a mianowicie metoda CFR+ wprowadzona w 2014 roku przez Oskara Tammelina. Oprócz CFR+, Libratus zastosował nową technikę, którą Sandholm i jego doktorant Noam Brown opracowali w celu rozwiązania problemu rozwiązywania końcówek. Ich nowa metoda pozbywa się wcześniejszego de facto standardu w programowaniu pokera, zwanego "mapowaniem akcji".

Ponieważ Libratus gra tylko przeciwko jednemu graczowi będącemu człowiekiem lub komputerem, obowiązują specjalne zasady „heads up” dla dwóch graczy w Texas hold'em.

2017 mecz między ludźmi a sztuczną inteligencją

Od 11 do 31 stycznia 2017 roku Libratus wziął udział w turnieju przeciwko czterem najwyższej klasy graczom w pokera, a mianowicie Jasonowi Lesowi, Dong Kimowi, Danielowi McAulayowi i Jimmym Chou. Aby uzyskać wyniki bardziej istotne statystycznie, należało rozegrać 120 000 rozdań, co stanowi 50% wzrost w porównaniu z poprzednim turniejem, w którym Claudico grał w 2015 roku. Aby zarządzać dodatkowym wolumenem, czas trwania turnieju został wydłużony z 13 do 20 dni .

Czterech graczy podzielono na dwie podgrupy po dwóch graczy. Jedna z podgrup grała na otwartej przestrzeni, podczas gdy druga podgrupa znajdowała się w oddzielnym pomieszczeniu o nazwie „The Dungeon”, gdzie nie były dozwolone telefony komórkowe ani inna komunikacja zewnętrzna. Podzespół Lochu otrzymał taką samą sekwencję kart, jaka była rozdawana na otwartej przestrzeni, z wyjątkiem tego, że strony zostały zamienione: ludzie Lochu dostali karty, które sztuczna inteligencja dostała na otwartej przestrzeni i vice versa. Ten układ miał na celu zniwelowanie efektu szczęścia w kartach.

Nagroda pieniężna w wysokości 200 000 $ została podzielona wyłącznie między graczy ludzkich. Każdy gracz otrzymał co najmniej 20 000 $, a resztę rozdzielono w zależności od sukcesu w grze przeciwko AI. Jak napisano z góry w regulaminie turnieju, sama sztuczna inteligencja nie otrzymała nagrody pieniężnej, mimo że wygrała turniej z ludzką drużyną.

Podczas turnieju Libratus rywalizował z graczami w ciągu dni. Z dnia na dzień sam doskonalił swoją strategię, analizując poprzednią rozgrywkę i wyniki dnia, w szczególności straty. W związku z tym był w stanie stale korygować niedoskonałości, które ludzki zespół odkrył w swojej rozległej analizie, co doprowadziło do stałego wyścigu zbrojeń między ludźmi a Libratusem. Zużył kolejne 4 miliony godzin pracy na superkomputerze Bridges na potrzeby zawodów.

Siła AI

Libratus prowadził przeciwko ludzkim graczom od pierwszego dnia turnieju. Gracz Dong Kim był cytowany na temat siły sztucznej inteligencji w następujący sposób: „Do dzisiaj nie zdawałem sobie sprawy, jak dobrze było. Czułem, że gram z kimś, kto oszukuje, jakby mógł zobaczyć moje karty. Nie oskarżam to oszustwo. To było po prostu dobre”.

W 16. dniu zawodów Libratus po raz pierwszy przekroczył barierę 1 000 000 $. Pod koniec dnia miał przewagę 1.194.402 w żetonach przeciwko ludzkiej drużynie. Pod koniec rywalizacji Libratus miał 1.766.250$ w żetonach i dzięki temu wygrał imponująco. Ponieważ duża ciemna w meczach była ustawiona na 100$, wskaźnik wygranych Libratus jest równy 14,7 dużych ciemnych na 100 rozdań. Jest to uważane za wyjątkowo wysoki współczynnik wygranych w pokerze i jest wysoce istotne statystycznie.

Spośród ludzkich graczy pierwsze miejsce zajął Dong Kim, drugi MacAulay, trzeci Jimmy Chou, a czwarty Jason Les.

Nazwa Ranga Wyniki (w żetonach)
Dong Kim 1 -85 649 $
Daniel MacAulay 2 -277.657$
Jimmy Chou 3 -522,857$
Jason Les 4 -880 087 $
Całkowity: -1.766.250$

Inne możliwe zastosowania

Podczas gdy pierwszą aplikacją Libratusa była gra w pokera, jej projektanci mają na uwadze znacznie szerszą misję dla sztucznej inteligencji. Śledczy zaprojektowali sztuczną inteligencję tak, aby była w stanie nauczyć się każdej gry lub sytuacji, w których dostępne są niepełne informacje, a „przeciwnicy” mogą ukrywać informacje, a nawet angażować się w oszustwa. Z tego powodu Sandholm i jego koledzy proponują zastosowanie systemu również do innych, rzeczywistych problemów, w tym cyberbezpieczeństwa, negocjacji biznesowych lub planowania medycznego.

Zobacz też

Bibliografia

Zewnętrzne linki