Bramkowana jednostka nawrotowa - Gated recurrent unit

Bramkowane jednostki rekurencyjne ( GRU ) to mechanizm bramkowania w rekurencyjnych sieciach neuronowych , wprowadzony w 2014 roku przez Kyunghyun Cho i in. GRU jest jak długotrwała pamięć krótkotrwała (LSTM) z bramką zapominania, ale ma mniej parametrów niż LSTM, ponieważ nie ma bramki wyjściowej. Stwierdzono, że wyniki GRU w niektórych zadaniach polifonicznego modelowania muzyki, modelowania sygnału mowy i przetwarzania języka naturalnego są podobne do wyników LSTM. Wykazano, że GRU wykazują lepszą wydajność na niektórych mniejszych i rzadszych zestawach danych.

Architektura

Istnieje kilka odmian pełnej jednostki bramkowanej, z bramkowaniem wykonanym przy użyciu poprzedniego stanu ukrytego i odchylenia w różnych kombinacjach oraz uproszczoną formą zwaną minimalną jednostką bramkowaną.

Operator oznacza produkt Hadamarda w następujący sposób.

W pełni ogrodzona jednostka

Gated Recurrent Unit, w pełni bramkowana wersja

Początkowo dla , wektor wyjściowy to .

Zmienne

  • : wektor wejściowy
  • : wektor wyjściowy
  • : kandydujący wektor aktywacji
  • : zaktualizuj wektor bramki
  • : zresetuj wektor bramki
  • , oraz : macierze parametrów i wektor

Funkcje aktywacji

Możliwe są alternatywne funkcje aktywacji, pod warunkiem, że .

Typ 1
Wpisz 2
Wpisz 3

Alternatywne formy można tworzyć, zmieniając i

  • Typ 1, każda bramka zależy tylko od poprzedniego stanu ukrytego i nastawienia.
  • Typ 2, każda brama zależy tylko od poprzedniego stanu ukrytego.
  • Typ 3, każda bramka jest obliczana tylko przy użyciu odchylenia.

Minimalna jednostka bramkowana

Minimalna jednostka bramkowana jest podobna do jednostki w pełni bramkowanej, z wyjątkiem tego, że wektor bramek aktualizacji i resetowania jest scalany w bramkę zapominania. Oznacza to również, że równanie wektora wyjściowego musi zostać zmienione:

Zmienne

  • : wektor wejściowy
  • : wektor wyjściowy
  • : kandydujący wektor aktywacji
  • : zapomnij o wektorze
  • , oraz : macierze parametrów i wektor

Bibliografia