Reguła delta — Delta rule

W nauce maszyny The zasada delta jest największego spadku zasada uczenia się dla aktualizacji wagi wejść do sztucznych neuronów w jednowarstwowej sieci neuronowej . Jest to szczególny przypadek bardziej ogólnego algorytmu propagacji wstecznej. Do neuronu z funkcji aktywacji , zasada delta neuronu „S p masa jest przez

,

gdzie

to mała stała zwana szybkością uczenia się
jest funkcją aktywacji neuronu
jest pochodną od
jest docelowym wyjściem
to ważona suma wejść neuronu
jest rzeczywista moc wyjściowa
to th wejście.

Posiada to i .

Reguła delta jest powszechnie określana w uproszczonej formie dla neuronu z liniową funkcją aktywacji jako

Chociaż reguła delta jest podobna do reguły aktualizacji perceptronu , wyprowadzenie jest inne. Perceptron wykorzystuje funkcję kroku Heaviside'a jako funkcję aktywacji , co oznacza, że nie istnieje ona w zerze i jest równa zeru gdzie indziej, co uniemożliwia bezpośrednie zastosowanie reguły delta.

Wyprowadzenie reguły delta

Reguła delta jest wyprowadzana przez próbę zminimalizowania błędu w wyjściu sieci neuronowej poprzez gradient gradientu . Błąd dla sieci neuronowej z wyjściami można zmierzyć jako

.

W tym przypadku chcemy poruszać się po "przestrzeni wag" neuronu (przestrzeni wszystkich możliwych wartości wszystkich wag neuronu) proporcjonalnie do gradientu funkcji błędu względem każdej wagi. W tym celu obliczamy pochodną cząstkową błędu po każdej wadze. Dla tej wagi pochodną tę można zapisać jako

.

Ponieważ zajmujemy się tylko neuronem th, możemy podstawić powyższą formułę błędu, pomijając sumowanie:

Następnie używamy reguły łańcucha, aby podzielić to na dwie pochodne:

Aby znaleźć lewą pochodną, ​​po prostu stosujemy regułę łańcucha :

Aby znaleźć właściwą pochodną, ​​ponownie stosujemy regułę łańcucha, tym razem różnicując względem całkowitego wejścia do , :

Zauważ, że wyjście neuronu th jest po prostu funkcją aktywacji neuronu zastosowaną do wejścia neuronu . Możemy zatem zapisać pochodną w odniesieniu do po prostu jako pierwszą pochodną :

Następnie przepisujemy ostatni termin jako sumę wszystkich wag każdej wagi pomnożoną przez odpowiadające jej dane wejściowe :

Ponieważ zajmujemy się tylko wagą, jedynym istotnym terminem sumowania jest . Wyraźnie,

,

dając nam nasze końcowe równanie gradientu:

Jak wspomniano powyżej, spadek gradientu mówi nam, że nasza zmiana dla każdej wagi powinna być proporcjonalna do gradientu. Wybierając stałą proporcjonalności i eliminując znak minus, aby umożliwić nam przesunięcie ciężaru w kierunku ujemnym gradientu w celu zminimalizowania błędu, dochodzimy do naszego równania docelowego:

.

Zobacz też

Bibliografia