Nauka różnic czasowych - Temporal difference learning

Uczenie różnic czasowych ( TD ) odnosi się do klasy metod uczenia się ze wzmocnieniem bez modelu , które uczą się poprzez ładowanie początkowe z bieżącego oszacowania funkcji wartości. Metody te pobierają próbki ze środowiska, takie jak metody Monte Carlo , i wykonują aktualizacje na podstawie bieżących szacunków, takich jak metody programowania dynamicznego .

Podczas gdy metody Monte Carlo dostosowują swoje szacunki dopiero po poznaniu ostatecznego wyniku, metody TD dostosowują prognozy, aby dopasować późniejsze, dokładniejsze prognozy dotyczące przyszłości, zanim ostateczny wynik będzie znany. Jest to forma ładowania początkowego , co ilustruje poniższy przykład:

„Załóżmy, że chcesz przewidzieć pogodę na sobotę i masz model, który przewiduje pogodę w sobotę, biorąc pod uwagę pogodę każdego dnia tygodnia. W standardowym przypadku poczekasz do soboty, a następnie dostosujesz wszystkie swoje modele. kiedy jest na przykład piątek, powinieneś dobrze wiedzieć, jaka będzie pogoda w sobotę – i dzięki temu możesz zmienić, powiedzmy, sobotni model przed nadejściem soboty”.

Metody różnic czasowych są powiązane z modelem różnic czasowych uczenia się zwierząt.

Sformułowanie matematyczne

Metoda tabelaryczna TD(0) jest jedną z najprostszych metod TD. Jest to szczególny przypadek bardziej ogólnych metod przybliżenia stochastycznego. Szacuje funkcję wartości stanu skończonego procesu decyzyjnego Markowa (MDP) w ramach polityki . Niech oznaczają funkcję wartości stanu MDP z państw , nagród i obniżone stawki w ramach polityki :

Dla wygody usuwamy akcję z notacji. spełnia równanie Hamiltona-Jacobiego-Bellmana :

tak samo jest bezstronne oszacowanie dla . Ta obserwacja uzasadnia następujący algorytm szacowania .

Algorytm rozpoczyna się od arbitralnego zainicjowania tabeli , z jedną wartością dla każdego stanu MDP. Wybrano pozytywny wskaźnik uczenia się.

Następnie wielokrotnie oceniamy polisę , otrzymujemy nagrodę i aktualizujemy funkcję wartości dla starego stanu za pomocą reguły:

gdzie i są odpowiednio stare i nowe państwa. Wartość ta jest znana jako docelowa wartość TD.

TD-Lambda

TD-Lambda to algorytm uczenia się wymyślony przez Richarda S. Suttona na podstawie wcześniejszych prac Arthura Samuela dotyczących uczenia się różnic czasowych . Algorytm ten został wykorzystany przez Geralda Tesauro do stworzenia TD-Gammon , programu, który nauczył się grać w backgammona na poziomie doświadczonych graczy.

Parametr lambda ( ) odnosi się do parametru śledzenia zaniku z . Wyższe ustawienia prowadzą do trwalszych śladów; oznacza to, że większa część uznania z nagrody może być przyznana bardziej odległym stanom i działaniom, gdy jest ona wyższa, z równoległym uczeniem się do algorytmów Monte Carlo RL.

Algorytm TD w neuronauce

Algorytm TD zwrócił również uwagę w dziedzinie neuronauki . Naukowcy odkryli, że szybkość odpalania neuronów dopaminowych w obszarze brzusznej nakrywki (VTA) i istocie czarnej (SNc) wydaje się naśladować funkcję błędu w algorytmie. Funkcja błędu zgłasza z powrotem różnicę między szacowaną nagrodą w dowolnym stanie lub kroku czasowym a faktyczną otrzymaną nagrodą. Im większa funkcja błędu, tym większa różnica między oczekiwaną a rzeczywistą nagrodą. Gdy jest to połączone z bodźcem, który dokładnie odzwierciedla przyszłą nagrodę, błąd można wykorzystać do powiązania bodźca z przyszłą nagrodą .

Wydaje się, że komórki dopaminy zachowują się w podobny sposób. W jednym eksperymencie pomiary komórek dopaminy zostały wykonane podczas szkolenia małpy, aby powiązać bodziec z nagrodą w postaci soku. Początkowo komórki dopaminowe zwiększały tempo wypalania, gdy małpa otrzymywała sok, co wskazuje na różnicę w oczekiwanych i rzeczywistych nagrodach. Z biegiem czasu ten wzrost oddawania strzałów rozprzestrzeniał się na najwcześniejszy wiarygodny bodziec do nagrody. Gdy małpa była w pełni wytrenowana, nie było wzrostu szybkości strzelania po przedstawieniu przewidywanej nagrody. Następnie szybkość wystrzeliwania komórek dopaminowych spadła poniżej normalnej aktywacji, gdy oczekiwana nagroda nie została wytworzona. To dokładnie naśladuje sposób, w jaki funkcja błędu w TD jest używana do uczenia się przez wzmacnianie .

Związek między modelem a potencjalną funkcją neurologiczną zaowocował badaniami próbującymi wykorzystać TD do wyjaśnienia wielu aspektów badań behawioralnych. Stosowano go również do badania takich schorzeń, jak schizofrenia czy konsekwencje farmakologicznych manipulacji dopaminą na uczenie się.

Zobacz też

Uwagi

  1. ^ B Richard Sutton & Andrew Barto (1998). Nauka zbrojenia . MIT Naciśnij. Numer ISBN 978-0-585-02445-5. Zarchiwizowane od oryginału 30.03.2017.
  2. ^ B Richard Sutton (1988). „Nauka przewidywania metodami różnic czasowych” . Uczenie maszynowe . 3 (1): 9–44. doi : 10.1007/BF00115009 .(Zmieniona wersja jest dostępna na stronie publikacji Richarda Suttona Archived 2017-03-30 w Wayback Machine )
  3. ^ B Schultz, W Dayan, P Montague Pr. (1997). „Nerwowy substrat przewidywania i nagrody”. Nauka . 275 (5306): 1593-1599. CiteSeerX  10.1.1.133.6176 . doi : 10.1126/science.275.5306.1593 . PMID  9054347 .CS1 maint: wiele nazwisk: lista autorów ( link )
  4. ^ B Montague PR; Dayan, P.; Sejnowski, TJ (1996-03-01). „Ramy dla systemów dopaminy śródmózgowia oparte na predykcyjnym uczeniu Hebba” (PDF) . Dziennik Neuronauki . 16 (5): 1936-1947. doi : 10.1523/JNEUROSCI.16-05-01936.1996 . ISSN  0270-6474 . PMC  6578666 . PMID  8774460 .
  5. ^ B Montague PR; Dayan, P.; Nowlan SJ; Pouget, A.; Sejnowski, TJ (1993). „Wykorzystanie wzmocnienia aperiodycznego do ukierunkowanej samoorganizacji” (PDF) . Postępy w neuronowych systemach przetwarzania informacji . 5 : 969–976.
  6. ^ B Montague PR; Sejnowski, TJ (1994). „Mózg predykcyjny: czasowa koincydencja i porządek czasowy w synaptycznych mechanizmach uczenia się”. Nauka i pamięć . 1 (1): 1-33. ISSN  1072-0502 . PMID  10467583 .
  7. ^ B Sejnowski TJ; Dayan, P.; Montague, PR (1995). „Przewidywanie nauki hebbowskiej” (PDF) . Proceedings of 8. ACM Conference on Computational Learning Theory : 15-18. doi : 10.1145/225298.225300 . Numer ISBN 0897917235.
  8. ^ Parametr stopy dyskontowej pozwala na preferencję czasową w kierunku bardziej bezpośrednich nagród i z dala od odległych przyszłych nagród
  9. ^ Wzmacnianie nauki: wprowadzenie (PDF) . str. 130. Zarchiwizowane z oryginału (PDF) w dniu 2017-07-12.
  10. ^ Tezauro Gerald (marzec 1995). „Uczenie się różnic czasowych i TD-Gammon” . Komunikaty ACM . 38 (3): 58-68. doi : 10.1145/203330.203343 . Pobrano 08.02.2010 .
  11. ^ Schultz, W. (1998). „Przewidywalny sygnał nagrody neuronów dopaminy”. Czasopismo Neurofizjologii . 80 (1): 1-27. CiteSeerX  10.1.1.408.5994 . doi : 10.1152/jn.1998.80.1.1 . PMID  9658025 .
  12. ^ Dayan, P. (2001). „Zmotywowane uczenie się przez wzmacnianie” (PDF) . Postępy w neuronowych systemach przetwarzania informacji . MIT Naciśnij. 14 : 11–18.
  13. ^ Smith, A., Li, M., Becker, S. i Kapur, S. (2006). „Dopamina, błąd przewidywania i asocjacyjne uczenie się: konto oparte na modelu”. Sieć: Obliczenia w systemach neuronowych . 17 (1): 61–84. doi : 10.1080/09548980500361624 . PMID  16613795 .CS1 maint: wiele nazwisk: lista autorów ( link )

Bibliografia

Linki zewnętrzne