Stan-akcja-nagroda-stan-akcja - State–action–reward–state–action

Stan-akcja-nagroda-stan-akcja ( Sertse ) to algorytm uczenia się Markowa procesu decyzyjnego polityki, używany w uczenia zbrojenia dziedzinie uczenia maszynowego . Został on zaproponowany przez Rummery'ego i Niranjana w notatce technicznej pod nazwą „Modified Connectionist Q-Learning” (MCQ-L). Alternatywna nazwa SARSA, zaproponowana przez Richa Suttona , została wymieniona tylko w przypisie.

Nazwa ta po prostu odzwierciedla fakt, że główna funkcja aktualizacji wartości Q zależy od aktualnego stanu agenta „ S ₁ ”, akcji, którą agent wybrał „ A ₁ ”, nagrody „ R ”, którą agent otrzymuje za wybranie tej akcja, stan " S ₂ ", w który agent wchodzi po wykonaniu tej akcji, i na końcu następna akcja " A ₂ ", którą agent wybierze w swoim nowym stanie. Skrót od pięciokrotnych (s _{, T} , A _{, T} , R _{, T} , S _{, T + 1} , A _{t + 1} ) jest Sertse. Niektórzy autorzy nieco inną konwencją zapisu i pięciokrotny (s _t , ą _t r _{t + 1} , y _{t + 1} , A _{t + 1} ), zależnie, do którego czas kroku nagroda formalnie przypisany. W dalszej części artykułu zastosowano dawną konwencję.

Algorytm

{\ Displaystyle Q (s_ {t}, a_ {t}) \ leftarrow Q (s_ {t}, a_ {t}) + \ alfa \, [r_ {t} + \ gamma \, Q (s_ {t +) 1},a_{t+1})-Q(s_{t},a_{t})]}

Agent SARSA wchodzi w interakcję ze środowiskiem i aktualizuje politykę na podstawie podjętych działań, dlatego jest to znane jako algorytm uczenia się na polisie . Wartość Q dla akcji stanu jest aktualizowana przez błąd, skorygowany o współczynnik alfa. Wartości Q reprezentują możliwą nagrodę otrzymaną w następnym kroku czasowym za podjęcie działania a w stanie s oraz zdyskontowaną przyszłą nagrodę otrzymaną z obserwacji następnego stanu-działania.

Q-learning Watkina aktualizuje oszacowanie optymalnej funkcji wartości stan-działanie w oparciu o maksymalną nagrodę za dostępne działania. Podczas gdy SARSA uczy się wartości Q związanych z przyjęciem polityki, którą sam stosuje, Q-learning Watkina uczy się wartości Q związanych z przyjęciem optymalnej polityki podczas prowadzenia polityki eksploracji/eksploatacji . ${\ Displaystyle Q ^ {*}}$

W SARSA można zastosować pewne optymalizacje Q-learningu Watkina.

Hiperparametry

Szybkość uczenia się (alfa)

Szybkość uczenia się określa, w jakim stopniu nowo zdobyte informacje zastępują stare informacje. Współczynnik 0 sprawi, że agent niczego się nie nauczy, podczas gdy współczynnik 1 sprawi, że agent weźmie pod uwagę tylko najnowsze informacje.

Współczynnik dyskontowy (gamma)

Czynnik dyskontowy określa znaczenie przyszłych nagród. Czynnik dyskontowy równy 0 sprawia, że agent jest „oportunistyczny” lub „krótkowzroczny”, np. biorąc pod uwagę tylko bieżące nagrody, podczas gdy czynnik zbliżający się do 1 spowoduje, że będzie dążył do długoterminowej wysokiej nagrody. Jeżeli współczynnik dyskonta osiągnie lub przekroczy 1, wartości mogą się różnić. $Q$

Warunki początkowe ( $Q (s 0, a 0)$ )

Ponieważ SARSA jest algorytmem iteracyjnym, domyślnie zakłada stan początkowy przed wystąpieniem pierwszej aktualizacji. Niska (nieskończona) wartość początkowa, znana również jako „optymistyczne warunki początkowe”, może zachęcać do eksploracji: niezależnie od tego, jakie działanie ma miejsce, reguła aktualizacji powoduje, że ma ona wyższe wartości niż inne alternatywy, zwiększając w ten sposób prawdopodobieństwo ich wyboru. W 2013 roku zasugerowano, że pierwszą nagrodę $r$ można wykorzystać do zresetowania warunków początkowych. Zgodnie z tą ideą, przy pierwszym wykonaniu działania nagroda jest wykorzystywana do ustalenia wartości $Q$ . Pozwala to na natychmiastowe uczenie się w przypadku stałych, deterministycznych nagród. To podejście polegające na zresetowaniu warunków początkowych (RIC) wydaje się być spójne z ludzkim zachowaniem w powtarzanych eksperymentach z wyborem binarnym.

Languages

In other projects

Stan-akcja-nagroda-stan-akcja - State–action–reward–state–action

Zawartość

Algorytm

Hiperparametry

Szybkość uczenia się (alfa)

Współczynnik dyskontowy (gamma)

Warunki początkowe ( $Q (s 0, a 0)$ )

Bibliografia

Languages

In other projects

Stan-akcja-nagroda-stan-akcja - State–action–reward–state–action

Algorytm

Hiperparametry

Szybkość uczenia się (alfa)

Współczynnik dyskontowy (gamma)

Warunki początkowe ( Q ( s 0 , a 0 ) )

Bibliografia

Warunki początkowe ( $Q (s 0, a 0)$ )