Wybór akcji - Action selection

Wybór akcji to sposób na scharakteryzowanie najbardziej podstawowego problemu inteligentnych systemów: co dalej. W sztucznej inteligencji i kognitywistyce obliczeniowej „problem wyboru akcji” jest zwykle związany z inteligentnymi agentami i animatami — sztucznymi systemami, które wykazują złożone zachowanie w środowisku agenta . Termin ten jest również czasami używany w etologii lub zachowaniu zwierząt.

Jednym z problemów w zrozumieniu wyboru działania jest określenie poziomu abstrakcji użytego do określenia „czynu”. Na najbardziej podstawowym poziomie abstrakcji aktem atomowym może być cokolwiek, od skurczenia komórki mięśniowej po wywołanie wojny . Zazwyczaj dla każdego mechanizmu wyboru akcji zestaw możliwych akcji jest wstępnie zdefiniowany i ustalony.

Większość badaczy pracujących w tej dziedzinie stawia wysokie wymagania swoim agentom:

  • Działający agent zazwyczaj musi wybrać swoje działanie w dynamicznych i nieprzewidywalnych środowiskach.
  • Agenci zazwyczaj działają w czasie rzeczywistym ; dlatego muszą podejmować decyzje w odpowiednim czasie.
  • Agenty są zwykle tworzone do wykonywania kilku różnych zadań. Zadania te mogą kolidować z alokacją zasobów (np. czy agent może jednocześnie ugasić pożar i podać filiżankę kawy?)
  • Środowisko, w którym działają agenci, może obejmować ludzi , którzy mogą utrudniać agentowi (celowo lub próbując pomóc).
  • Same środki są często przeznaczone do modelowania zwierząt lub ludzi, a zachowanie zwierzę/człowiek jest dość skomplikowane.

Z tych powodów wybór działań nie jest trywialny i przyciąga wiele badań.

Charakterystyka problemu wyboru działań

Głównym problemem przy wyborze akcji jest złożoność . Ponieważ wszystkie obliczenia zajmują zarówno czas, jak i przestrzeń (w pamięci), agenci nie mogą rozważyć każdej dostępnej opcji w każdym momencie. W związku z tym muszą być stronnicze i w jakiś sposób ograniczać ich poszukiwania. W przypadku AI pytanie o wybór akcji jest najlepszym sposobem ograniczenia tego wyszukiwania ? W przypadku biologii i etologii pytanie brzmi, w jaki sposób różne rodzaje zwierząt ograniczają ich poszukiwania? Czy wszystkie zwierzęta stosują te same podejścia? Dlaczego używają tych, które robią?

Jedno z podstawowych pytań dotyczących doboru działań brzmi, czy jest to w ogóle problem dla agenta, czy jest to tylko opis wyłaniającej się właściwości zachowania inteligentnego agenta. Jeśli jednak zastanowimy się, jak zbudujemy inteligentnego agenta, to okaże się, że musi istnieć jakiś mechanizm selekcji działań. Mechanizm ten może mieć charakter wysoce rozproszony (jak w przypadku organizmów rozproszonych, takich jak kolonie owadów społecznych czy śluzowiec ) lub może być modułem specjalnego przeznaczenia.

Mechanizm selekcji akcji (ASM) określa nie tylko działania agenta pod kątem wpływu na świat, ale także kieruje jego uwagę percepcyjną i aktualizuje jego pamięć . Te egocentryczne rodzaje działań mogą z kolei skutkować modyfikacją podstawowych zdolności behawioralnych agenta, zwłaszcza że aktualizacja pamięci implikuje, że możliwa jest pewna forma uczenia maszynowego . Idealnie, sam wybór działania powinien również być w stanie uczyć się i dostosowywać, ale istnieje wiele problemów kombinatorycznej złożoności i wykonalności obliczeniowej, które mogą wymagać ograniczenia przestrzeni poszukiwań do uczenia się.

W AI ASM jest również czasami określany jako architektura agenta lub uważany za istotną jej część.

Mechanizmy AI

Generalnie, mechanizmy sztucznej selekcji działań można podzielić na kilka kategorii: systemy oparte na symbolach, czasami nazywane planowaniem klasycznym, rozwiązania rozproszone oraz planowanie reaktywne lub dynamiczne . Niektóre podejścia nie mieszczą się w żadnej z tych kategorii. Inne naprawdę bardziej dotyczą dostarczania modeli naukowych niż praktycznej kontroli sztucznej inteligencji; te ostatnie są opisane dalej w następnej sekcji.

Podejścia symboliczne

Na początku historii sztucznej inteligencji zakładano, że najlepszym sposobem na wybór przez agenta dalszych działań byłoby obliczenie prawdopodobnie optymalnego planu, a następnie wykonanie tego planu. Doprowadziło to do hipotezy fizycznego systemu symboli , że fizyczny agent, który może manipulować symbolami, jest konieczny i wystarczający dla inteligencji. Wielu agentów oprogramowania nadal używa tego podejścia do wyboru akcji. Zwykle wymaga opisania wszystkich odczytów czujników, świata, wszystkich działań i wszystkich swoich celów w jakiejś formie logiki predykatów . Krytycy tego podejścia skarżą się, że jest ono zbyt powolne dla planowania w czasie rzeczywistym i że pomimo dowodów, wciąż mało prawdopodobne jest stworzenie optymalnych planów, ponieważ sprowadzanie opisów rzeczywistości do logiki jest procesem podatnym na błędy.

Satysfakcja to strategia podejmowania decyzji, która stara się spełnić kryteria adekwatności, a nie identyfikować optymalne rozwiązanie. Strategia satysfakcjonująca często może być w rzeczywistości (prawie) optymalna, jeśli w rachunku wyników uwzględni się koszty samego procesu decyzyjnego, takie jak koszt uzyskania pełnej informacji.

Architektury sterowane celami — w tych symbolicznych architekturach zachowanie agenta jest zwykle opisywane przez zestaw celów. Każdy cel można osiągnąć za pomocą procesu lub działania, które są opisane w ustalonym planie. Agent musi po prostu zdecydować, jaki proces przeprowadzić, aby osiągnąć dany cel. Plan można rozszerzyć do celów cząstkowych, co sprawia, że ​​proces jest nieco rekurencyjny. Z technicznego punktu widzenia, mniej więcej, plany wykorzystują zasady dotyczące warunków. Te architektury są reaktywne lub hybrydowe. Klasycznymi przykładami architektur zorientowanych na cel są możliwe do wdrożenia udoskonalenia architektury przekonania-pragnienie-intencja, takie jak JAM lub IVE .

Podejścia rozproszone

W przeciwieństwie do podejścia symbolicznego, rozproszone systemy wyboru akcji tak naprawdę nie mają jednego „pudełka” w agencie, który decyduje o kolejnej akcji. Przynajmniej w swojej wyidealizowanej formie, systemy rozproszone mają wiele modułów działających równolegle i określających najlepsze działanie w oparciu o lokalną wiedzę ekspercką. W tych wyidealizowanych systemach oczekuje się, że ogólna spójność pojawi się jakoś, być może dzięki starannemu zaprojektowaniu współpracujących ze sobą komponentów. Takie podejście jest często inspirowane badaniami nad sztucznymi sieciami neuronowymi . W praktyce prawie zawsze istnieje jakiś scentralizowany system określający, który moduł jest „najbardziej aktywny” lub ma największe znaczenie. Istnieją dowody, że prawdziwe biologiczne mózgi również posiadają takie wykonawcze systemy decyzyjne, które oceniają, który z rywalizujących systemów zasługuje na największą uwagę , a właściwie, czy jego pożądane działania są odhamowane .

  • ASMO to architektura oparta na uwadze, opracowana przez Rony Novianto. Organizuje różnorodne modułowe procesy rozproszone, które mogą wykorzystywać własne reprezentacje i techniki do postrzegania środowiska, przetwarzania informacji, planowania działań i proponowania działań do wykonania.
  • Różne rodzaje architektur „ zwycięzca bierze wszystko” , w których pojedyncza wybrana akcja przejmuje pełną kontrolę nad układem motorycznym
  • Aktywacja rozprzestrzeniania, w tym Maes Nets (ANA)
  • Extended Rosenblatt & Payton to rozszerzająca się architektura aktywacji opracowana przez Toby'ego Tyrrella w 1993 roku. Zachowanie agenta jest przechowywane w postaci hierarchicznej sieci koneksjonizmu , którą Tyrrell nazwał hierarchią swobodnego przepływu. Ostatnio eksploatowany m.in. przez de Sevina i Thalmanna (2005) czy Kadlečka (2001).
  • Behaviour based AI , był odpowiedzią na powolną prędkość robotów wykorzystujących symboliczne techniki wyboru akcji. W tej formie oddzielne moduły reagują na różne bodźce i generują własne odpowiedzi. W pierwotnej formie, architektura subsumcji , składała się z różnych warstw, które mogły monitorować i tłumić wzajemnie swoje wejścia i wyjścia.
  • Stworzenia to wirtualne zwierzaki z gry komputerowej napędzanej przez trójwarstwową sieć neuronową , która jest adaptacyjna. Ich mechanizm jest reaktywny, ponieważ sieć na każdym kroku określa zadanie, które ma wykonać zwierzak. Sieć jest dobrze opisana w pracy Grand et al. (1997) oraz w The Creatures Developer Resources . Zobacz także Creatures Wiki .

Dynamiczne podejścia do planowania

Ponieważ systemy czysto rozproszone są trudne do zbudowania, wielu badaczy zwróciło się do używania jawnych, zakodowanych na sztywno planów, aby określić priorytety swojego systemu.

Dynamiczne lub reaktywne metody planowania obliczają tylko jedno następne działanie w każdej chwili w oparciu o bieżący kontekst i wstępnie zapisane plany. W przeciwieństwie do klasycznych metod planowania, podejścia reaktywne lub dynamiczne nie podlegają eksplozji kombinatorycznej . Z drugiej strony są czasami postrzegane jako zbyt sztywne, aby można je było uznać za silną sztuczną inteligencję , ponieważ plany są z góry zakodowane. Jednocześnie naturalna inteligencja może być sztywna w niektórych kontekstach, chociaż jest płynna i zdolna do adaptacji w innych.

Przykładowe mechanizmy planowania dynamicznego obejmują:

  • Maszyny skończone Są toarchitektury reaktywne używane głównie dla agentów gier komputerowych, w szczególności dla botów FPS lub wirtualnych aktorów filmowych. Zazwyczaj maszyny państwowe są hierarchiczne. Aby zapoznać się z konkretnymi przykładami gier, zobacz artykuł o botach Halo 2 autorstwa Damiana Isli (2005) lub pracę magisterską o botach Quake III autorstwa Jana Paula van Waverena (2001). Aby zapoznać się z przykładem filmu, zobacz Softimage .
  • Inne ustrukturyzowane plany reaktywne wyglądają trochę bardziej jak plany konwencjonalne, często ze sposobami reprezentowania struktury hierarchicznej i sekwencyjnej . Niektóre, takie jak „ustawy” PRS, mają poparcie dla planów cząstkowych . Wiele architektur agentów z połowy lat 90. zawierało takie plany jak „warstwa środkowa”, która zapewniała organizację modułów zachowania niskiego poziomu , będąc jednocześnie kierowaną przez planistę wyższego poziomu w czasie rzeczywistym. Pomimo tej rzekomej interoperacyjności z automatycznymi planerami, większość ustrukturyzowanych planów reaktywnych jest kodowana ręcznie (Bryson 2001, rozdz. 3). Przykłady strukturyzowanych planów reaktywnych należą James Firby „s RAP systemu i Nils Nilsson ” s Teleo-reaktywne plany . PRS, RAP i TRP nie są już rozwijane ani obsługiwane. Jednym z wciąż aktywnych (od 2006 r.) potomków tego podejścia jest równolegle zakorzeniony system wyboru akcji Ordered Slip-stack Hierarchical (lub POSH ), który jest częścią Behavior Oriented Design Joanny Bryson.

Czasami, aby spróbować rozwiązać problem postrzeganej nieelastyczności planowania dynamicznego, stosuje się techniki hybrydowe. W nich bardziej konwencjonalny system planowania AI wyszukuje nowe plany, gdy agent ma wolny czas, i aktualizuje dynamiczną bibliotekę planów, gdy znajdzie dobre rozwiązania. Ważnym aspektem każdego takiego systemu jest to, że gdy agent musi wybrać akcję, istnieje rozwiązanie, które można zastosować natychmiast (patrz dalej algorytm w dowolnym momencie ).

Inni

  • CogniTAO jest silnikiem decyzyjnym opartym na BDI (przekonanie-pragnienie-zamiar), zawiera wbudowane możliwości pracy zespołowej.
  • Soar to symboliczna architektura poznawcza . Opiera się na regułach warunkowych, znanych jako produkcje . Programiści mogą używać zestawu narzędzi programistycznych Soar do budowania agentów reaktywnych i planistycznych lub dowolnego kompromisu między tymi dwoma skrajnościami.
  • Excalibur był projektem badawczym prowadzonym przez Alexandra Nareyeka, obejmującym agentów planujących gry komputerowe w dowolnym momencie. Architektura opiera się na spełnianiu ograniczeń strukturalnych, która jest zaawansowanątechniką sztucznej inteligencji .
  • ACT-R jest podobny do Soar. Zawiera Bayesowski system uczenia się, który pomaga ustalać priorytety produkcji.
  • ABL/Hap
  • Fuzzy architektur Fuzzy podejście w wyborze akcji produkuje bardziej płynne niż zachowanie może być wytwarzany przez architektur wykorzystujących logicznych zasad warunek działania (jak Soar lub POSH). Architektury te są w większości reaktywne i symboliczne .

Teorie doboru działań w przyrodzie

Wiele dynamicznych modeli sztucznego doboru działań zostało pierwotnie zainspirowanych badaniami w dziedzinie etologii . W szczególności Konrad Lorenz i Nikolaas Tinbergen przedstawili ideę wrodzonego mechanizmu uwalniania, aby wyjaśnić zachowania instynktowne ( ustalone wzorce działania ). Pod wpływem idei Williama McDougalla Lorenz rozwinął to w „ psychohydrauliczny ” model motywacji zachowania. W etologii idee te miały wpływ w latach 60., ale obecnie uważa się je za przestarzałe, ponieważ wykorzystują metaforę przepływu energii ; układ nerwowy oraz kontroli zachowania są obecnie traktowane raczej jako obejmujące przekazywanie informacji, a nie przepływ energii. Plany dynamiczne i sieci neuronowe są bardziej podobne do przekazywania informacji, podczas gdy rozprzestrzenianie się aktywacji jest bardziej podobne do rozproszonej kontroli systemów emocjonalnych/hormonalnych.

Stan Franklin zaproponował, że dobór działania jest właściwą perspektywą, aby zrozumieć rolę i ewolucję umysłu . Zobacz jego stronę na temat paradygmatu wyboru akcji . Zarchiwizowane 2006-10-09 w Wayback Machine

Modele AI doboru akcji neuronowych

Niektórzy badacze tworzą rozbudowane modele selekcji działań neuronowych. Zobacz na przykład:

Zobacz też

Bibliografia

Dalsza lektura

Zewnętrzne linki