Rozcieńczenie (sieci neuronowe) - Dilution (neural networks)

Rozcieńczanie (zwane również Dropout ) to technika regularyzacji służąca do zmniejszania nadmiernego dopasowania w sztucznych sieciach neuronowych poprzez zapobieganie złożonym koadaptacji danych szkoleniowych . Jest to skuteczny sposób uśredniania modelu w sieciach neuronowych. Termin rozcieńczenie odnosi się do przerzedzania ciężarków. Termin dropout odnosi się do przypadkowego „ wypadania ” lub pomijania jednostek (zarówno ukrytych, jak i widocznych) podczas procesu uczenia sieci neuronowej. Zarówno zmniejszenie masy, jak i zanikanie jednostek wywołują ten sam rodzaj regularyzacji i często termin rezygnacja jest używany w odniesieniu do rozcieńczania ciężarów.

Rodzaje i zastosowania

Rozcieńczenie jest zwykle dzielone na słabe i mocne rozcieńczenie . Słabe rozcieńczenie opisuje proces, w którym skończona część usuniętych połączeń jest mała, a silne rozcieńczenie dotyczy sytuacji, gdy ta frakcja jest duża. Nie ma wyraźnego rozróżnienia, gdzie jest granica między silnym i słabym rozcieńczeniem, i często to rozróżnienie jest bez znaczenia, chociaż ma implikacje dla tego, jak znaleźć dokładne rozwiązania.

Czasami stosuje się rozcieńczanie w celu dodania szumu tłumiącego do wejść. W takim przypadku słabe rozcieńczenie oznacza dodanie niewielkiej ilości hałasu tłumiącego, podczas gdy silne rozcieńczenie oznacza dodanie większej ilości hałasu tłumiącego. Oba można przepisać jako warianty rozcieńczania masy.

Techniki te są czasami nazywane losowym przycinaniem ciężarów, ale zwykle jest to jednorazowa operacja jednokierunkowa. Sieć jest przycinana, a następnie zachowywana, jeśli jest to ulepszenie w stosunku do poprzedniego modelu. Zarówno rozwodnienie, jak i odpadnięcie odnoszą się do procesu iteracyjnego. Przycinanie wag zwykle nie oznacza, że sieć kontynuuje naukę, podczas gdy w przypadku rozcieńczania / zaniku, sieć kontynuuje naukę po zastosowaniu techniki.

Uogólniona sieć liniowa

Wyjście z warstwy węzłów liniowych w sztucznej sieci neuronowej można opisać jako

{\ Displaystyle y_ {i} = \ suma _ {j} w_ {ij} x_ {j}}

( 1 )

${\ displaystyle y_ {i}}$ - wyjście z węzła ${\ displaystyle i}$
${\ displaystyle w_ {ij}}$ - waga rzeczywista przed rozcieńczeniem, zwana także siłą połączenia Hebba
${\ displaystyle x_ {j}}$ - wejście z węzła ${\ displaystyle j}$

Można to zapisać w notacji wektorowej jako

{\ displaystyle \ mathbf {y} = \ mathbf {W} \ mathbf {x}}

( 2 )

${\ displaystyle \ mathbf {y}}$ - wektor wyjściowy
${\ displaystyle \ mathbf {W}}$ - macierz wag
${\ displaystyle \ mathbf {x}}$ - wektor wejściowy

W kolejnych rozdziałach wykorzystano równania (1) i (2).

Słabe rozcieńczenie

Podczas słabego rozcieńczenia, skończony ułamek usuniętych połączeń (wagi) jest mały, co powoduje niewielką niepewność. Ten przypadek skrajny można dokładnie rozwiązać za pomocą teorii pola średniego . W słabym rozcieńczeniu wpływ na ciężary można opisać jako

{\ displaystyle {\ hat {w_ {ij}}} = {\ rozpocząć {przypadków} w_ {ij} i {\ mbox {with}} P (c) \\ 0, i {\ mbox {inaczej}} \ koniec {sprawy}}}

( 3 )

${\ displaystyle {\ hat {w_ {ij}}}}$ - masa rozcieńczona
${\ displaystyle w_ {ij}}$ - waga rzeczywista przed rozcieńczeniem
${\ Displaystyle P (c)}$ - prawdopodobieństwo , prawdopodobieństwo utrzymania wagi ${\ displaystyle c}$

Interpretację prawdopodobieństwa można również zmienić z utrzymywania wagi na przycinanie wagi. ${\ Displaystyle P (c)}$

W notacji wektorowej można to zapisać jako

{\ displaystyle {\ hat {\ mathbf {W}}} = \ operatorname {g} \ lewo (\ mathbf {W}, c \ po prawej)}

( 4 )

gdzie funkcja narzuca poprzednie rozcieńczenie. ${\ displaystyle \ operatorname {g} (\ cdot)}$

W słabym rozcieńczeniu tylko niewielka i ustalona część odważników jest rozcieńczana. Kiedy liczba wyrazów w sumie osiąga nieskończoność (wagi dla każdego węzła), nadal jest nieskończona (ułamek jest stały), można zatem zastosować teorię pola średniego . W notacji Hertza i in. byłoby to zapisane jako

{\ Displaystyle \ lewo \ langle h_ {i} \ prawo \ rangle = c \ suma _ {j} w_ {ij} \ lewo \ langle S_ {j} \ prawo \ rangle}

( 5 )

${\ displaystyle \ left \ langle h_ {i} \ right \ rangle}$ średnia temperatura pola
${\ displaystyle c}$ - współczynnik skalujący temperaturę na podstawie prawdopodobieństwa utrzymania wagi
${\ displaystyle w_ {ij}}$ - waga rzeczywista przed rozcieńczeniem, zwana także siłą połączenia Hebba
${\ displaystyle \ left \ langle S_ {j} \ right \ rangle}$ - średnie stany stabilnej równowagi

Istnieje kilka założeń, które należy spełnić, ale nie są one tutaj wymienione.

Silne rozcieńczenie

Gdy rozcieńczenie jest silne, skończony ułamek usuniętych połączeń (wag) jest duży, co powoduje ogromną niepewność.

Spadkowicz

Spadek jest szczególnym przypadkiem poprzedniego równania wagi ( 3 ), w którym powyższe równanie jest korygowane w celu usunięcia całego wiersza z macierzy wektorowej, a nie tylko losowych wag

{\ displaystyle {\ hat {\ mathbf {w} _ {j}}} = {\ początek {przypadków} \ mathbf {w} _ {j}, & {\ mbox {with}} P (c) \\\ mathbf {0}, & {\ mbox {inaczej}} \ end {cases}}}

( 6 )

${\ Displaystyle P (c)}$ - prawdopodobieństwo utrzymania wiersza w macierzy wag ${\ displaystyle c}$
${\ displaystyle \ mathbf {w} _ {j}}$ - prawdziwy wiersz w macierzy wag przed rezygnacją
${\ displaystyle {\ hat {\ mathbf {w} _ {j}}}}$ - rozwodniony wiersz w macierzy wag

Ponieważ dropout usuwa cały wiersz z macierzy wektorowej, poprzednie (niewymienione) założenia dotyczące słabego rozcieńczenia i wykorzystania teorii pola średniego nie mają zastosowania.

Proces, w którym węzeł jest zerowany, czy to przez ustawienie wag na zero, przez „usunięcie węzła”, czy w inny sposób, nie wpływa na wynik końcowy i nie tworzy nowego i niepowtarzalnego przypadku. Jeśli sieć neuronowa jest przetwarzana przez wysokowydajny cyfrowy multiplikator tablicowy, wówczas prawdopodobnie bardziej efektywne będzie doprowadzenie wartości do zera na późnym etapie wykresu procesu. Jeśli sieć jest przetwarzana przez ograniczony procesor, być może nawet analogowy procesor neuromorficzny, prawdopodobnie bardziej energooszczędnym rozwiązaniem jest doprowadzenie wartości do zera na początku wykresu procesu.

Patent Google

Chociaż istnieją przykłady losowego usuwania połączeń między neuronami w sieci neuronowej w celu ulepszenia modeli, technika ta została po raz pierwszy wprowadzona wraz z rezygnacją z nazwy przez Geoffrey Hinton i in. w 2012 roku. Google posiada obecnie patent na technikę przerywania nauki.

Zobacz też

Uwagi

^ Patent najprawdopodobniej jest nieważny ze względu na poprzedni art. „Porzucenie” zostało opisane w poprzednich publikacjach jako „rozcieńczenie”. Jest to opisane przez Hertza, Krogha i Palmera we Wstępie do teorii obliczeń neuronowych (1991) ISBN 0-201-51560-1 , s. 45, Weak Dilution . Tekst odwołuje się do Sompolinsky'ego Theory of Neural Networks: The Hebb Rules and Beyond w Heidelberg Colloquium on Glossy Dynamics (1987) oraz Canninga i Gardnera Partically Connected Models of Neural Networks w Journal of Physics (1988). Dalej opisuje silne rozcieńczenie. Jest to starsze niż artykuł Hintona.

Bibliografia

[8] Patent najprawdopodobniej jest nieważny ze względu na poprzedni art. „Porzucenie” zostało opisane w poprzednich publikacjach jako „rozcieńczenie”. Jest to opisane przez Hertza, Krogha i Palmera we Wstępie do teorii obliczeń neuronowych (1991) ISBN 0-201-51560-1 , s. 45, Weak Dilution . Tekst odwołuje się do Sompolinsky'ego Theory of Neural Networks: The Hebb Rules and Beyond w Heidelberg Colloquium on Glossy Dynamics (1987) oraz Canninga i Gardnera Partically Connected Models of Neural Networks w Journal of Physics (1988). Dalej opisuje silne rozcieńczenie. Jest to starsze niż artykuł Hintona.

Languages

In other projects