Reguła delta jest powszechnie określana w uproszczonej formie dla neuronu z liniową funkcją aktywacji jako
Chociaż reguła delta jest podobna do reguły aktualizacji perceptronu , wyprowadzenie jest inne. Perceptron wykorzystuje funkcję kroku Heaviside'a jako funkcję aktywacji , co oznacza, że nie istnieje ona w zerze i jest równa zeru gdzie indziej, co uniemożliwia bezpośrednie zastosowanie reguły delta.
Wyprowadzenie reguły delta
Reguła delta jest wyprowadzana przez próbę zminimalizowania błędu w wyjściu sieci neuronowej poprzez gradient gradientu . Błąd dla sieci neuronowej z wyjściami można zmierzyć jako
.
W tym przypadku chcemy poruszać się po "przestrzeni wag" neuronu (przestrzeni wszystkich możliwych wartości wszystkich wag neuronu) proporcjonalnie do gradientu funkcji błędu względem każdej wagi. W tym celu obliczamy pochodną cząstkową błędu po każdej wadze. Dla tej wagi pochodną tę można zapisać jako
.
Ponieważ zajmujemy się tylko neuronem th, możemy podstawić powyższą formułę błędu, pomijając sumowanie:
Następnie używamy reguły łańcucha, aby podzielić to na dwie pochodne:
Aby znaleźć lewą pochodną, po prostu stosujemy regułę łańcucha :
Aby znaleźć właściwą pochodną, ponownie stosujemy regułę łańcucha, tym razem różnicując względem całkowitego wejścia do , :
Zauważ, że wyjście neuronu th jest po prostu funkcją aktywacji neuronu zastosowaną do wejścia neuronu . Możemy zatem zapisać pochodną w odniesieniu do po prostu jako pierwszą pochodną :
Następnie przepisujemy ostatni termin jako sumę wszystkich wag każdej wagi pomnożoną przez odpowiadające jej dane wejściowe :
Ponieważ zajmujemy się tylko wagą, jedynym istotnym terminem sumowania jest . Wyraźnie,
,
dając nam nasze końcowe równanie gradientu:
Jak wspomniano powyżej, spadek gradientu mówi nam, że nasza zmiana dla każdej wagi powinna być proporcjonalna do gradientu. Wybierając stałą proporcjonalności i eliminując znak minus, aby umożliwić nam przesunięcie ciężaru w kierunku ujemnym gradientu w celu zminimalizowania błędu, dochodzimy do naszego równania docelowego: