Funkcja aktywacji - Activation function

Funkcja aktywacji logistycznej

W sztucznych sieci neuronowych , aktywacja funkcji węzła określa wyjście tego węzła danego wejścia lub zestawu komponentów. Standardowy układ scalony może być postrzegany jako cyfrowa sieć funkcji aktywacji, które mogą być „ON” (1) lub „OFF” (0), w zależności od wejścia. Jest to podobne do liniowego perceptronu w sieciach neuronowych . Jednak tylko nieliniowe funkcje aktywacji umożliwiają takim sieciom obliczanie nietrywialnych problemów przy użyciu jedynie niewielkiej liczby węzłów, a takie funkcje aktywacji nazywane są nieliniowościami .

Klasyfikacja funkcji aktywacji

W większości typowych funkcji aktywacji można podzielić na trzy kategorie: funkcje grzbiet , funkcje promieniowe i zagięcia funkcji .

Funkcje aktywacji grzbietu

Funkcje grzbietowe to funkcje wielowymiarowe działające na liniową kombinację zmiennych wejściowych. Często używane przykłady to:

Aktywacja liniowa : , ${\ Displaystyle \ phi (\ mathbf {v} ) = a + \ mathbf {v} '\ mathbf {b}}$
Aktywacja ReLU : , ${\ Displaystyle \ phi (\ mathbf {v} ) = \ max (0, a + \ mathbf {v} '\ mathbf {b})}$
Aktywacja Heaviside : , ${\ Displaystyle \ phi (\ mathbf {v} ) = 1 _ {a + \ mathbf {v} '\ mathbf {b} > 0}}$
Aktywacja logistyczna : . ${\ Displaystyle \ phi (\ mathbf {v} ) = (1 + \ exp (-a- \ mathbf {v} '\ mathbf {b} )) ^ {-1}}$

W biologicznie inspirowanych sieciach neuronowych funkcja aktywacji jest zwykle abstrakcją reprezentującą tempo wyzwalania potencjału czynnościowego w komórce. W najprostszej postaci ta funkcja jest binarna — to znaczy, że albo neuron jest aktywowany, albo nie. Funkcja wygląda tak , gdzie jest funkcja kroku Heaviside'a . ${\ Displaystyle \ phi (\ mathbf {v} ) = U (a + \ mathbf {v} '\ mathbf {b} )}$ ${\ Displaystyle U}$

Linia o dodatnim nachyleniu może być wykorzystana do odzwierciedlenia wzrostu szybkości wypalania, który występuje wraz ze wzrostem prądu wejściowego. Taka funkcja miałaby formę . ${\ Displaystyle \ phi (\ mathbf {v} ) = a + \ mathbf {v} '\ mathbf {b}}$

Wyprostowana jednostka liniowa i funkcje aktywacji jednostki liniowej błędu Gaussa

Neurony również nie mogą strzelać szybciej niż określona szybkość, motywując sigmoidalne funkcje aktywacji, których zakres jest skończonym interwałem.

Funkcje aktywacji promieniowej

Specjalna klasa funkcji aktywacji znana jako radialne funkcje bazowe (RBFs) jest stosowana w sieciach RBF , które są niezwykle wydajne jako uniwersalne aproksymatory funkcji. Te funkcje aktywacji mogą przybierać różne formy, takie jak:

Gaussa : ${\ Displaystyle \, \ phi (\ mathbf {v} ) = \ exp \ lewo (- {\ Frac {\ | \ mathbf {v} - \ mathbf {c} \ | ^ {2}} {2 \ sigma ^ {2}}}\prawo)}$
Wielokwadratowe: ${\ Displaystyle \ \ phi (\ mathbf {v} ) = {\ sqrt {\ | \ mathbf {v} - \ mathbf {c} \ | ^ {2} + a ^ {2}}}}$

gdzie jest wektorem reprezentującym funkcję centrum i i są parametry wpływające na rozprzestrzenianie się promienia. $\mathbf {c}$ $a$ $\sigma$

Funkcje aktywacji składania

Funkcje aktywacji składania są szeroko stosowane w warstwach puli w splotowych sieciach neuronowych oraz w warstwach wyjściowych wieloklasowych sieci klasyfikacji. Aktywacje te wykonują agregację na danych wejściowych, na przykład biorąc średnią , minimalną lub maksymalną . W klasyfikacji wieloklasowej często stosowana jest aktywacja softmax .

Porównanie funkcji aktywacji

Istnieje wiele funkcji aktywacji. Przełomowy artykuł Hinton i wsp. z 2012 r. na temat automatycznego rozpoznawania mowy wykorzystuje logistyczną funkcję aktywacji sigmoidalnej. Nowatorska architektura wizji komputerowej AlexNet 2012 wykorzystuje funkcję aktywacji ReLU, podobnie jak nowatorska architektura wizji komputerowej 2015 ResNet . Przełomowy model przetwarzania języka 2018 BERT wykorzystuje płynną wersję ReLU, GELU.

Oprócz ich empirycznej wydajności, funkcje aktywacji mają również inne właściwości matematyczne:

Nieliniowy: Gdy funkcja aktywacji jest nieliniowa, można udowodnić, że dwuwarstwowa sieć neuronowa jest uniwersalnym aproksymatorem funkcji. Jest to znane jako twierdzenie o uniwersalnej aproksymacji . Funkcja aktywacji tożsamości nie spełnia tej właściwości. Gdy wiele warstw korzysta z funkcji aktywacji tożsamości, cała sieć odpowiada modelowi jednowarstwowemu.
Zasięg: Gdy zakres funkcji aktywacji jest skończony, metody treningu oparte na gradiencie są zwykle bardziej stabilne, ponieważ prezentacje wzorców znacząco wpływają tylko na ograniczoną wagę. Gdy zakres jest nieskończony, trening jest ogólnie bardziej wydajny, ponieważ prezentacje wzorców znacząco wpływają na większość wag. W tym drugim przypadku zwykle konieczne są mniejsze wskaźniki uczenia się.
Ciągle różniczkowalny: Ta właściwość jest pożądana ( ReLU nie jest ciągle różniczkowalna i ma pewne problemy z optymalizacją opartą na gradientach, ale nadal jest możliwa) w celu włączenia metod optymalizacji opartych na gradientach. Funkcja aktywacji kroku binarnego nie jest różniczkowalna przy 0 i różnicuje się do 0 dla wszystkich innych wartości, więc metody oparte na gradientach nie mogą poczynić żadnych postępów.

Znak równoważności z funkcją tożsamości

Mówi się, że dwie funkcje o wartościach rzeczywistych f i g są równoważne znakowo, jeśli dla wszystkich wartości z w dziedzinie. Gdzie znak jest funkcją signum . Funkcje aktywacyjne takie jak tanh, Leaky ReLU, GELU, ELU, Swish i Mish są znakowymi odpowiednikami funkcji tożsamości i nie mogą nauczyć się funkcji XOR z pojedynczym neuronem. Wyjście pojedynczego neuronu lub jego aktywacja to , gdzie g jest funkcją aktywacji. Granica decyzyjna dla pojedynczego neuronu to zbiór punktów, które wywołują zero. Zatem granica decyzyjna dla neuronu wykorzystującego dowolny znak funkcji aktywacji równoważny funkcji tożsamości jest pojedynczą hiperpłaszczyzną. Jednak funkcje aktywacji oscylacyjnej mogą mieć wiele zer, a zatem pojedynczy neuron może mieć wiele hiperpłaszczyzn jako część swojej granicy decyzyjnej. Chociaż do osiągnięcia nieliniowych granic decyzyjnych potrzebne są sieci wielowarstwowe, zastosowanie funkcji aktywacji oscylacyjnej pozwala nawet pojedynczym neuronom wykazywać nieliniowe granice decyzyjne. ${\ Displaystyle znak (f (z)) = znak (g (z))}$ ${\ Displaystyle a = g (z) = g ({\ pogrubienie {w}} ^ {T} {\ pogrubienie {x}} + b)}$

Właściwości te nie mają decydującego wpływu na wydajność, ani nie są jedynymi właściwościami matematycznymi, które mogą być przydatne. Na przykład ściśle dodatni zakres softplus sprawia, że jest on odpowiedni do przewidywania wariancji w autoenkoderach wariacyjnych .

Tabela funkcji aktywacji

Poniższa tabela porównuje właściwości kilku funkcji aktywacji, które są funkcjami jednego zagięcia $x$ z poprzedniej warstwy lub warstw:

Nazwa	Funkcjonować, $f(x)$	Pochodna z , $f$ $f'(x)$	Zasięg	Porządek ciągłości
Tożsamość	$x$	${\ Displaystyle 1}$	$(-\infty ,\infty )$	$C^{\infty}$
Krok binarny	${\ Displaystyle {\ zacząć {przypadki} 0 i {\ tekst {jeśli}} x <0 \ \ 1 i {\ tekst {jeśli}} x \ geq 0 \ koniec {przypadki}}}$	${\ Displaystyle {\ zacząć {przypadki} 0 i {\ tekst {jeśli}} x \ neq 0 \ \ {\ tekst {niezdefiniowany}} i {\ tekst {jeśli}} x = 0 \ koniec {przypadki}}}$	${\ Displaystyle \ {0,1 \}}$	${\ Displaystyle C ^ {-1}}$
Logistyczny , sigmoidalny lub miękki krok	${\ Displaystyle \ sigma (x) = {\ Frac {1} {1 + e ^ {-x}}}}$	${\ Displaystyle f (x) (1-f (x))}$	${\ Displaystyle (0,1)}$	$C^{\infty}$
Tangens hiperboliczny ( tanh )	${\ Displaystyle \ tanh (x) = {\ Frac {e ^ {x} -e ^ {-x}} {e ^ {x} + e ^ {-x}}}}$	${\ Displaystyle 1-f (x) ^ {2}}$	${\ Displaystyle (-1,1)}$	$C^{\infty}$
Rektyfikowana jednostka liniowa (ReLU)	${\ Displaystyle {\ zacząć {wyrównany} i {\ zacząć {przypadki} 0 i {\ tekst {jeśli}} x \ leq 0 \ \ x i {\ tekst {jeśli}} x> 0 \ koniec {przypadki}} \ \ { }={}&\max\{0,x\}=x{\textbf {1}}_{x>0}\end{wyrównany}}}$	${\ Displaystyle {\ zacząć {przypadki} 0 i {\ tekst {jeśli}} x <0 \ \ 1 i {\ tekst {jeśli}} x> 0 \ \ {\ tekst {niezdefiniowany}} i {\ tekst {jeśli}} x=0\end{przypadki}}}$	$[0,\infty )$	${\ Displaystyle C ^ {0}}$
Jednostka liniowa błędu Gaussa (GELU)	${\ Displaystyle {\ zacząć {wyrównany} i {\ Frac {1} {2}} x \ lewo (1 + {\ tekst {erf}} \ lewo ({\ Frac {x} {\ sqrt {2}}} \right)\right)\\{}={}&x\Phi (x)\end{aligned}}}$	${\ Displaystyle \ Phi (x) + x \ phi (x)}$	$(-0,17\ldots,\infty)$	$C^{\infty}$
Softplus	${\ Displaystyle \ ln \ lewo (1 + e ^ {x} \ prawo)}$	${\ Displaystyle {\ Frac {1} {1 + e ^ {-x}}}}$	$(0,\infty)$	$C^{\infty}$
Wykładnicza jednostka liniowa (ELU)	${\ Displaystyle {\ zacząć {przypadki} \ alfa \ lewo (e ^ {x} -1 \ po prawej) i {\ tekst {jeśli}} x \ leq 0 \ \ x i {\ tekst {jeśli}} x> 0 \ koniec{sprawy}}}$ z parametrem ${\ Displaystyle \ alfa}$	${\ Displaystyle {\ zacząć {przypadki} \ alfa e ^ {x} i {\ tekst {jeśli}} x <0 \ \ 1 i {\ tekst {jeśli}} x> 0 \ \ 1 i {\ tekst {jeśli}} x=0{\text{ i }}\alpha =1\end{przypadki}}}$	$(-\alfa ,\infty )$	${\ Displaystyle {\ zacząć {przypadki} C ^ {1} i {\ tekst {jeśli}} \ alfa = 1 \ \ C ^ {0} i {\ tekst {inaczej}} \ koniec {przypadki}}}$
Skalowana wykładnicza jednostka liniowa (SELU)	${\ Displaystyle \ lambda {\ zacząć {przypadki} \ alfa (e ^ {x} -1) i {\ tekst {jeśli}} x <0 \ \ x i {\ tekst {jeśli}} x \ geq 0 \ koniec { sprawy}}}$ z parametrami i ${\ Displaystyle \ lambda = 1,0507}$ ${\ Displaystyle \ alfa = 1,67326}$	${\ Displaystyle \ lambda {\ zacząć {przypadki} \ alfa e ^ {x} i {\ tekst {jeśli}} x <0 \ \ 1 i {\ tekst {jeśli}} x \ geq 0 \ koniec {przypadki}}}$	$(-\lambda \alfa,\infty)$	${\ Displaystyle C ^ {0}}$
Nieszczelna rektyfikowana jednostka liniowa (Leaky ReLU)	${\ Displaystyle {\ zacząć {przypadki} 0,01 x i {\ tekst {jeśli}} x <0 \ \ x i {\ tekst {jeśli}} x \ geq 0 \ koniec {przypadki}}}$	${\ Displaystyle {\ zacząć {przypadki} 0,01 i {\ tekst {jeśli}} x <0 \ \ 1 i {\ tekst {jeśli}} x \ geq 0 \ koniec {przypadki}}}$	$(-\infty ,\infty )$	${\ Displaystyle C ^ {0}}$
Parametryczna rektyfikowana jednostka liniowa (PReLU)	${\ Displaystyle {\ zacząć {przypadki} \ alfa x i {\ tekst {jeśli}} x <0 \ \ x i {\ tekst {jeśli}} x \ geq 0 \ koniec {przypadki}}}$ z parametrem ${\ Displaystyle \ alfa}$	${\ Displaystyle {\ zacząć {przypadki} \ alfa i {\ tekst {jeśli}} x <0 \ \ 1 & {\ tekst {jeśli}} x \ geq 0 \ koniec {przypadki}}}$	$(-\infty ,\infty )$	${\ Displaystyle C ^ {0}}$
Sigmoidalna jednostka liniowa (SiLU, skurcz sigmoidalny, SiL lub Swish-‍1)	${\ Displaystyle {\ Frac {x} {1 + e ^ {-x}}}}$	${\ Displaystyle {\ Frac {1 + e ^ {-x} + xe ^ {-x}} {\ lewo (1 + e ^ {-x} \ prawej) ^ {2}}}}$	$[-0,278\ldots,\infty)$	$C^{\infty}$
Misz	${\ Displaystyle x \ tanh (\ ln (1 + e ^ {x}))}$	${\ Displaystyle {\ Frac {(e ^ {x} (4e ^ {2x} + e ^ {3x} + 4 (1 + x) + e ^ {x} (6 + 4x))} {(2+ 2e^{x}+e^{2x})^{2}}}}$	$[-0,308\ldots,\infty)$	$C^{\infty}$
Gaussa	${\ Displaystyle e ^ {-x ^ {2}}}$	${\ Displaystyle -2xe ^ {-x ^ {2}}}$	$(0,1]$	$C^{\infty}$

W poniższej tabeli wymieniono funkcje aktywacji, które nie są funkcjami pojedynczego zagięcia $x$ z poprzedniej warstwy lub warstw:

Nazwa	Równanie, ${\ Displaystyle f_ {i} \ lewo ({\ vec {x}} \ po prawej)}$	instrumenty pochodne , ${\ Displaystyle {\ Frac {\ częściowy f_ {i} \ lewo ({\ vec {x}} \ prawo)} {\ częściowy x_ {j}}}}$	Zasięg	Porządek ciągłości
Softmax	${\ Displaystyle {\ Frac {e ^ {x_ {i}}} {\ suma _ {j = 1} ^ {J} e ^ {x_ {j}}}}}$ dla $i$ = 1, …, $J$	${\ Displaystyle f_ {i} \ lewo ({\ vec {x}} \ po prawej) \ po lewej (\ delta _ {ij}-f_ {j} \ po lewej ({\ vec {x}} \ po prawej) \ po prawej) }$	${\ Displaystyle (0,1)}$	$C^{\infty}$
Maksout	${\ Displaystyle \ max _ {i} x_ {i}}$	${\ Displaystyle {\ zacząć {przypadki} 1 i {\ tekst {jeśli}} j = {\ underset {i} \ operatorname {argmax}}} \, x_ {i} \ \ 0 i {\ tekst {jeśli}} j \neq {\underset {i}{\operatorname {argmax} }}\,x_{i}\end{cases}}}$	$(-\infty ,\infty )$	${\ Displaystyle C ^ {0}}$