Stan-akcja-nagroda-stan-akcja - State–action–reward–state–action

Stan-akcja-nagroda-stan-akcja ( Sertse ) to algorytm uczenia się Markowa procesu decyzyjnego polityki, używany w uczenia zbrojenia dziedzinie uczenia maszynowego . Został on zaproponowany przez Rummery'ego i Niranjana w notatce technicznej pod nazwą „Modified Connectionist Q-Learning” (MCQ-L). Alternatywna nazwa SARSA, zaproponowana przez Richa Suttona , została wymieniona tylko w przypisie.

Nazwa ta po prostu odzwierciedla fakt, że główna funkcja aktualizacji wartości Q zależy od aktualnego stanu agenta „ S 1 ”, akcji, którą agent wybrał „ A 1 ”, nagrody „ R ”, którą agent otrzymuje za wybranie tej akcja, stan " S 2 ", w który agent wchodzi po wykonaniu tej akcji, i na końcu następna akcja " A 2 ", którą agent wybierze w swoim nowym stanie. Skrót od pięciokrotnych (s , T , A , T , R , T , S , T + 1 , A t + 1 ) jest Sertse. Niektórzy autorzy nieco inną konwencją zapisu i pięciokrotny (s t , ą t r t + 1 , y t + 1 , A t + 1 ), zależnie, do którego czas kroku nagroda formalnie przypisany. W dalszej części artykułu zastosowano dawną konwencję.

Algorytm

Agent SARSA wchodzi w interakcję ze środowiskiem i aktualizuje politykę na podstawie podjętych działań, dlatego jest to znane jako algorytm uczenia się na polisie . Wartość Q dla akcji stanu jest aktualizowana przez błąd, skorygowany o współczynnik alfa. Wartości Q reprezentują możliwą nagrodę otrzymaną w następnym kroku czasowym za podjęcie działania a w stanie s oraz zdyskontowaną przyszłą nagrodę otrzymaną z obserwacji następnego stanu-działania.

Q-learning Watkina aktualizuje oszacowanie optymalnej funkcji wartości stan-działanie w oparciu o maksymalną nagrodę za dostępne działania. Podczas gdy SARSA uczy się wartości Q związanych z przyjęciem polityki, którą sam stosuje, Q-learning Watkina uczy się wartości Q związanych z przyjęciem optymalnej polityki podczas prowadzenia polityki eksploracji/eksploatacji .

W SARSA można zastosować pewne optymalizacje Q-learningu Watkina.

Hiperparametry

Szybkość uczenia się (alfa)

Szybkość uczenia się określa, w jakim stopniu nowo zdobyte informacje zastępują stare informacje. Współczynnik 0 sprawi, że agent niczego się nie nauczy, podczas gdy współczynnik 1 sprawi, że agent weźmie pod uwagę tylko najnowsze informacje.

Współczynnik dyskontowy (gamma)

Czynnik dyskontowy określa znaczenie przyszłych nagród. Czynnik dyskontowy równy 0 sprawia, że ​​agent jest „oportunistyczny” lub „krótkowzroczny”, np. biorąc pod uwagę tylko bieżące nagrody, podczas gdy czynnik zbliżający się do 1 spowoduje, że będzie dążył do długoterminowej wysokiej nagrody. Jeżeli współczynnik dyskonta osiągnie lub przekroczy 1, wartości mogą się różnić.

Warunki początkowe ( Q ( s 0 , a 0 ) )

Ponieważ SARSA jest algorytmem iteracyjnym, domyślnie zakłada stan początkowy przed wystąpieniem pierwszej aktualizacji. Niska (nieskończona) wartość początkowa, znana również jako „optymistyczne warunki początkowe”, może zachęcać do eksploracji: niezależnie od tego, jakie działanie ma miejsce, reguła aktualizacji powoduje, że ma ona wyższe wartości niż inne alternatywy, zwiększając w ten sposób prawdopodobieństwo ich wyboru. W 2013 roku zasugerowano, że pierwszą nagrodę r można wykorzystać do zresetowania warunków początkowych. Zgodnie z tą ideą, przy pierwszym wykonaniu działania nagroda jest wykorzystywana do ustalenia wartości Q . Pozwala to na natychmiastowe uczenie się w przypadku stałych, deterministycznych nagród. To podejście polegające na zresetowaniu warunków początkowych (RIC) wydaje się być spójne z ludzkim zachowaniem w powtarzanych eksperymentach z wyborem binarnym.

Bibliografia