Prostownik (sieci neuronowe) - Rectifier (neural networks)

Wykres funkcji prostownika ReLU (niebieski) i GELU (zielony) w pobliżu x = 0

W kontekście sztucznych sieci neuronowych , prostownika lub Relu funkcji aktywacji (wyprostowanego liniowa katalogowa) jest aktywacja funkcji zdefiniowano jako dodatnią część jej argumentu

{\ Displaystyle f (x) = x ^ {+} = \ max (0, x)}

gdzie x jest wejściem do neuronu. Jest to również znane jako funkcja rampy i jest analogiczne do prostowania półfalowego w elektrotechnice .

Ta funkcja aktywacji zaczęła pojawiać się w kontekście ekstrakcji cech wizualnych w hierarchicznych sieciach neuronowych od końca lat sześćdziesiątych. Później argumentowano, że ma silne motywacje biologiczne i uzasadnienie matematyczne. W 2011 r. stwierdzono, że umożliwia lepsze wytrenowanie głębszych sieci, w porównaniu do powszechnie stosowanych funkcji aktywacji sprzed 2011 r., np. esicy logistycznej (inspirowanej teorią prawdopodobieństwa ; patrz regresja logistyczna ) i jej bardziej praktycznego odpowiednika, tangensa hiperbolicznego . Prostownik jest od 2017 roku najpopularniejszą funkcją aktywacji głębokich sieci neuronowych .

Wyprostowane jednostki liniowe znajdują zastosowanie w widzeniu komputerowym i rozpoznawaniu mowy przy użyciu głębokich sieci neuronowych i neuronauki obliczeniowej .

Zalety

Rzadka aktywacja: Na przykład w losowo zainicjowanej sieci tylko około 50% ukrytych jednostek jest aktywowanych (mają niezerowe wyjście).
Lepsza propagacja gradientu: mniej problemów z zanikającym gradientem w porównaniu z sigmoidalnymi funkcjami aktywacji, które nasycają się w obu kierunkach.
Wydajne obliczenia: tylko porównywanie, dodawanie i mnożenie.
Niezmiennicze skali: . ${\ Displaystyle \ max (0, ax) = a \ max (0, x) {\ tekst {dla}} a \ geq 0}$

Do oddzielenia specyficznego wzbudzenia i nieswoistego hamowania w neuronowej piramidzie abstrakcji, która została wytrenowana w nadzorowany sposób, aby nauczyć się kilku zadań widzenia komputerowego, użyto korygujących funkcji aktywacji. W 2011 roku wykazano, że zastosowanie prostownika jako nieliniowości umożliwia trenowanie głęboko nadzorowanych sieci neuronowych bez konieczności nienadzorowanego treningu wstępnego. Zrektyfikowane jednostki liniowe, w porównaniu z funkcją sigmoidalną lub podobnymi funkcjami aktywacji, umożliwiają szybsze i efektywne trenowanie głębokich architektur neuronowych na dużych i złożonych zbiorach danych.

Potencjalne problemy

Nieróżnicowalne na zero; jednak jest różniczkowalny gdziekolwiek indziej, a wartość pochodnej na zero może być arbitralnie wybrana jako 0 lub 1.
Nie zorientowany na zero.
Bezgraniczny.
Problem z umierającym ReLU: Neurony ReLU (Rectified Linear Unit) mogą czasami być wprowadzane w stany, w których stają się nieaktywne dla zasadniczo wszystkich sygnałów wejściowych. W tym stanie przez neuron nie płyną żadne gradienty, przez co neuron utknie w stanie wiecznie nieaktywnym i „umiera”. Jest to forma problemu znikającego gradientu . W niektórych przypadkach duża liczba neuronów w sieci może utknąć w stanach martwych, skutecznie zmniejszając pojemność modelu. Ten problem pojawia się zwykle, gdy szybkość uczenia się jest ustawiona na zbyt wysoką. Można to złagodzić, stosując zamiast tego nieszczelne jednostki ReLU, które przypisują małe dodatnie nachylenie dla x < 0, jednak wydajność jest zmniejszona.

Warianty

Warianty liniowe

Nieszczelny ReLU

Nieszczelne jednostki ReLU pozwalają na niewielki, dodatni gradient, gdy jednostka nie jest aktywna.

{\ Displaystyle f (x) = {\ zacząć {przypadki} x i {\ tekst {jeśli}} x> 0 \ \ 0,01 x i {\ tekst {w przeciwnym razie}}. \ koniec {przypadki}}}

Parametryczne ReLU

Parametric ReLUs (PReLUs) rozwijają tę ideę, przekształcając współczynnik wycieku w parametr, którego można się nauczyć wraz z innymi parametrami sieci neuronowej.

{\ Displaystyle f (x) = {\ zacząć {przypadki} x i {\ tekst {jeśli}} x> 0 \ \ ax i {\ tekst {inaczej}}. \ koniec {przypadki}}}

Zauważ, że dla a ≤ 1 jest to równoważne

{\ Displaystyle f (x) = \ max (x, ax)}

a zatem ma związek z sieciami „maxout”.

Warianty nieliniowe

Jednostka liniowa błędu Gaussa (GELU)

GELU to płynne przybliżenie prostownika. Ma niemonotoniczny „bump”, gdy x < 0 i służy jako domyślna aktywacja dla modeli takich jak BERT .

${\ Displaystyle f (x) = x \ cdot \ Phi (x)}$ ,

gdzie Φ( x ) jest funkcją skumulowanego rozkładu standardowego rozkładu normalnego .

Ta funkcja aktywacji została zilustrowana na rysunku na początku tego artykułu.

SiLU

SiLU (Sigmoid Linear Unit) to kolejne gładkie przybliżenie wprowadzone po raz pierwszy w artykule GELU.

${\ Displaystyle f (x) = x \ cdot \ nazwa operatora {sigmoid} (x)}$

Softplus

Gładkie przybliżenie prostownika to funkcja analityczna

{\ Displaystyle f (x) = \ ln (1 + e ^ {x})}

który nazywa się softplus lub SmoothReLU funkcja. Dla dużego negatywu chodzi o to nieco powyżej 0, a dla dużego pozytywu o tak tuż powyżej . $x$ ${\ Displaystyle e ^ {x}}$ $x$ ${\ Displaystyle x + e ^ {-x}}$ $x$

Można uwzględnić parametr ostrości : $k$

{\ Displaystyle f (x) = {\ Frac {\ ln \ lewo (1 + e ^ {kx} \ prawo)} {k}}}

Pochodną softplus jest funkcja logistyczna . Począwszy od wersji parametrycznej,

{\ Displaystyle f '(x) = {\ Frac {e ^ {kx}} {1 + e ^ {kx}}} = {\ Frac {1} {1 + e ^ {-kx}}}}

Logistyczna funkcja sigmoidalna jest gładkim przybliżeniem pochodnej prostownika, funkcji skokowej Heaviside'a .

Wielowymiarowe uogólnienie softplus jednej zmiennej to LogSumExp z pierwszym argumentem ustawionym na zero:

\operator {LSE_{0}} ^{+}(x_{1},\kropki,x_{n}):=\operator {LSE} (0,x_{1},\kropki,x_{n })=\log \left(1+e^{x_{1}}+\cdots +e^{x_{n}}\right).

Funkcja LogSumExp to

{\ Displaystyle \ Operatorname {LSE} (x_ {1}, \ kropki, x_ {n}) = \ log \ lewo (e ^ {x_ {1}} + \ cdots + e ^ {x_ {n}} \ prawo ),}

a jego gradientem jest softmax ; softmax z pierwszym argumentem ustawionym na zero jest wielowymiarowym uogólnieniem funkcji logistycznej. Zarówno LogSumExp, jak i softmax są używane w uczeniu maszynowym.

ELU

Wykładnicze jednostki liniowe starają się zbliżyć średnie aktywacje do zera, co przyspiesza uczenie się. Wykazano, że jednostki ELU mogą uzyskać wyższą dokładność klasyfikacji niż jednostki ReLU.

{\ Displaystyle f (x) = {\ zacząć {przypadki} x i {\ tekst {jeśli}} x> 0 \ \ a \ lewo (e ^ {x} -1 \ po prawej) i {\ tekst {w przeciwnym razie}} ,\end{przypadki}}}

gdzie jest hiperparametrem do dostrojenia i jest ograniczeniem. $a$ $a\geq 0$

Jednostka ELU może być postrzegana jako wygładzona wersja przesuniętej jednostki ReLU (SReLU), która ma postać o tej samej interpretacji . ${\ Displaystyle f (x) = \ max (-a, x)}$ $a$

Zobacz też

Bibliografia

</ref>

Languages

In other projects