Reguła delta — Delta rule

W nauce maszyny The zasada delta jest największego spadku zasada uczenia się dla aktualizacji wagi wejść do sztucznych neuronów w jednowarstwowej sieci neuronowej . Jest to szczególny przypadek bardziej ogólnego algorytmu propagacji wstecznej. Do neuronu z funkcji aktywacji , zasada delta neuronu „S p masa jest przez ${\ Displaystyle j}$ $g(x)$ ${\ Displaystyle j}$ $i$ $w_{ji}$

{\ Displaystyle \ Delta w_ {ji} = \ alfa (t_ {j}-y_ {j}) g '(h_ {j}) x_ {i}}

,

gdzie

	${\ Displaystyle \ alfa}$ to mała stała zwana szybkością uczenia się
	$g(x)$ jest funkcją aktywacji neuronu
	$g'$ jest pochodną od $g$
	$t_{j}$ jest docelowym wyjściem
	$h_{j}$ to ważona suma wejść neuronu
	$y_{j}$ jest rzeczywista moc wyjściowa
	$x_{i}$ to th wejście. $i$

Posiada to i . ${\ Displaystyle h_ {j} = \ suma x_ {i} w_ {ji}}$ ${\ Displaystyle y_ {j} = g (h_ {j})}$

Reguła delta jest powszechnie określana w uproszczonej formie dla neuronu z liniową funkcją aktywacji jako

{\ Displaystyle \ Delta w_ {ji} = \ alfa (t_ {j}-y_ {j}) x_ {i}}

Chociaż reguła delta jest podobna do reguły aktualizacji perceptronu , wyprowadzenie jest inne. Perceptron wykorzystuje funkcję kroku Heaviside'a jako funkcję aktywacji , co oznacza, że nie istnieje ona w zerze i jest równa zeru gdzie indziej, co uniemożliwia bezpośrednie zastosowanie reguły delta. ${\ Displaystyle g (h)}$ $g'(h)$

Wyprowadzenie reguły delta

Reguła delta jest wyprowadzana przez próbę zminimalizowania błędu w wyjściu sieci neuronowej poprzez gradient gradientu . Błąd dla sieci neuronowej z wyjściami można zmierzyć jako ${\ Displaystyle j}$

{\ Displaystyle E = \ suma _ {j} {\ Frac {1} {2}} (t_ {j}-y_ {j}) ^ {2}}

.

W tym przypadku chcemy poruszać się po "przestrzeni wag" neuronu (przestrzeni wszystkich możliwych wartości wszystkich wag neuronu) proporcjonalnie do gradientu funkcji błędu względem każdej wagi. W tym celu obliczamy pochodną cząstkową błędu po każdej wadze. Dla tej wagi pochodną tę można zapisać jako $i$

{\ Displaystyle {\ Frac {\ częściowy E}{\ częściowy w_ {ji}}}}

.

Ponieważ zajmujemy się tylko neuronem th, możemy podstawić powyższą formułę błędu, pomijając sumowanie: ${\ Displaystyle j}$

{\ Displaystyle {\ Frac {\ częściowy E} {\ częściowy w_ {ji}}} = {\ Frac {\ częściowy \ lewo ({\ Frac {1} {2}} \ lewo (t_ {j}-y_ {) j}\right)^{2}\right)}{\częściowa w_{ji}}}}

Następnie używamy reguły łańcucha, aby podzielić to na dwie pochodne:

{\ Displaystyle = {\ Frac {\ częściowy \ lewo ({\ Frac {1} {2}} \ lewo (t_ {j}-y_ {j} \ po prawej) ^ {2} \ po prawej)} {\ częściowy y_ {j}}}{\frac {\częściowy y_{j}}{\częściowy w_{ji}}}}

Aby znaleźć lewą pochodną, po prostu stosujemy regułę łańcucha :

{\ Displaystyle =- \ lewo (t_ {j}-y_ {j} \ prawo) {\ Frac {\ częściowy y_ {j}} {\ częściowy w_ {ji}}}}

Aby znaleźć właściwą pochodną, ponownie stosujemy regułę łańcucha, tym razem różnicując względem całkowitego wejścia do , : ${\ Displaystyle j}$ $h_{j}$

{\ Displaystyle =- \ lewo (t_ {j}-y_ {j} \ prawo) {\ Frac {\ częściowe y_ {j}} {\ częściowe h_ {j}}} {\ Frac {\ częściowe h_ {j} }{\częściowy w_{ji}}}}

Zauważ, że wyjście neuronu th jest po prostu funkcją aktywacji neuronu zastosowaną do wejścia neuronu . Możemy zatem zapisać pochodną w odniesieniu do po prostu jako pierwszą pochodną : ${\ Displaystyle j}$ $y_{j}$ $g$ $h_{j}$ $y_{j}$ $h_{j}$ $g$

{\ Displaystyle = - \ lewo (t_ {j}-y_ {j} \ prawo) g '(h_ {j}) {\ Frac {\ częściowe h_ {j}} {\ częściowe w_ {ji}}}}

Następnie przepisujemy ostatni termin jako sumę wszystkich wag każdej wagi pomnożoną przez odpowiadające jej dane wejściowe : $h_{j}$ $k$ $w_{jk}$ $x_{k}$

{\ Displaystyle = - \ lewo (t_ {j}-y_ {j} \ prawo) g '(h_ {j}) {\ Frac {\ częściowy \ lewo (\ suma _ {i} x_ {i} w_ {ji }\right)}{\częściowy w_{ji}}}}

Ponieważ zajmujemy się tylko wagą, jedynym istotnym terminem sumowania jest . Wyraźnie, $i$ $x_{i}w_{ji}$

{\ Displaystyle {\ Frac {\ częściowy x_ {i} w_ {ji}}{\ częściowy w_ {ji}}} = x_ {i}}

,

dając nam nasze końcowe równanie gradientu:

{\ Displaystyle {\ Frac {\ częściowy E} {\ częściowy w_ {ji}}} = - \ lewo (t_ {j}-y_ {j} \ prawo) g '(h_ {j}) x_ {i}}

Jak wspomniano powyżej, spadek gradientu mówi nam, że nasza zmiana dla każdej wagi powinna być proporcjonalna do gradientu. Wybierając stałą proporcjonalności i eliminując znak minus, aby umożliwić nam przesunięcie ciężaru w kierunku ujemnym gradientu w celu zminimalizowania błędu, dochodzimy do naszego równania docelowego: ${\ Displaystyle \ alfa}$

{\ Displaystyle \ Delta w_ {ji} = \ alfa (t_ {j}-y_ {j}) g '(h_ {j}) x_ {i}}

.

Zobacz też

Stochastyczne zejście gradientowe
Propagacja wsteczna
Model Rescorli–Wagnera – geneza reguły delta

Languages

In other projects

Reguła delta — Delta rule

Wyprowadzenie reguły delta

Zobacz też

Bibliografia