Metoda Newtona w optymalizacji - Newton's method in optimization

Porównanie opadania gradientu (zielony) i metody Newtona (czerwony) w celu minimalizacji funkcji (z małymi krokami). Metoda Newtona wykorzystuje informacje o krzywiźnie (tj. druga pochodna), aby obrać bardziej bezpośrednią drogę.

W rachunku , metoda Newtona jest iteracyjna metoda celu znalezienia korzenie o różniczkowej funkcji F , które są do rozwiązania w równaniu F ( x ) = 0 . Jako taka metoda Newtona mogą być stosowane do pochodnej f ' o dwukrotnie różniczkowalną funkcją f znaleźć korzenie pochodnych (roztwory do F ' ( x ) = 0 ), znany również jako krytyczne punkty z F . Tymi rozwiązaniami mogą być minima, maksima lub punkty siodłowe; patrz rozdział "Kilka zmiennych" w punkcie Krytyczny (matematyka) oraz rozdział "Interpretacja geometryczna" w tym artykule. Ma to znaczenie w optymalizacji , której celem jest znalezienie (globalnych) minimów funkcji f .

Metoda Newtona

Głównym problemem optymalizacji jest minimalizacja funkcji. Rozważmy najpierw przypadek funkcji jednowymiarowych, tj. funkcji pojedynczej zmiennej rzeczywistej. Później rozważymy bardziej ogólny i bardziej praktyczny przypadek wielowymiarowy.

Mając podwójną różniczkowalną funkcję , staramy się rozwiązać problem optymalizacji

Metoda Newtona próby rozwiązania tego problemu przez skonstruowanie sekwencję od początkowej przypuszczenie (punkt początkowy) , że zbiega się w kierunku do Minimizer o stosując sekwencję drugiego rzędu Taylor przybliżeń wokół iteruje. Drugiego rzędu rozwinięcie Taylora z f WOKÓł jest

Kolejna iteracja jest zdefiniowana tak, aby zminimalizować to przybliżenie kwadratowe w i ustawienie . Jeśli druga pochodna jest dodatnia, przybliżenie kwadratowe jest funkcją wypukłą , a jej minimum można znaleźć, ustawiając pochodną na zero. Odkąd

minimum jest osiągane dla

Składając wszystko razem, metoda Newtona wykonuje iterację

Interpretacja geometryczna

Interpretacja geometryczna metody Newtona jest taka, że ​​w każdej iteracji sprowadza się to do dopasowania paraboli do wykresu o wartości próby , mającej takie samo nachylenie i krzywiznę jak wykres w tym punkcie, a następnie przejście do maksimum lub minimum tej paraboli (w wyższych wymiarach może to być również punkt siodłowy ), patrz poniżej. Zauważ, że jeśli zdarza się być funkcją kwadratową, a następnie dokładne ekstremum znajduje się w jednym etapie.

Wyższe wymiary

Powyższy iteracyjny schemat może być uogólnione do wymiarów zastępując pochodna z gradientem (inni autorzy stosują różne zapisu gradientu, łącznie ) i wzajemne drugiej pochodnej z odwrotności z Heskiego matrycy (inni autorzy stosują różne notację Heski, w tym ). W ten sposób otrzymujemy schemat iteracyjny

Często metoda Newtona jest modyfikowana, aby uwzględnić mały rozmiar kroku zamiast :

Jest to często wykonywane, aby zapewnić spełnienie warunków Wolfe'a lub znacznie prostszego i wydajniejszego warunku Armijo na każdym etapie metody. W przypadku stopni o rozmiarach innych niż 1, metoda ta jest często określana jako metoda zrelaksowanego lub wytłumionego Newtona.

Konwergencja

Jeśli f jest mocno wypukła funkcja Lipschitz z juty, i pod warunkiem, że znajduje się wystarczająco blisko aby sekwencja generowanych metodą Newtona, będą zbliżać się do (koniecznie unikalne) Minimizer z kwadratu szybko. To jest,

Obliczanie kierunku Newtona

Znalezienie odwrotności hessu w dużych wymiarach w celu obliczenia kierunku Newtona może być kosztowną operacją. W takich przypadkach, zamiast bezpośrednio odwracać hes, lepiej obliczyć wektor jako rozwiązanie układu równań liniowych

które można rozwiązać za pomocą różnych faktoryzacji lub w przybliżeniu (ale z dużą dokładnością) przy użyciu metod iteracyjnych . Wiele z tych metod ma zastosowanie tylko do niektórych typów równań, na przykład faktoryzacja Cholesky'ego i gradient sprzężony będą działać tylko wtedy, gdy jest dodatnią określoną macierzą. Chociaż może się to wydawać ograniczeniem, często jest to przydatny wskaźnik, że coś poszło nie tak; na przykład, jeśli podchodzi się do problemu minimalizacji, który nie jest określony dodatnio, iteracje zbiegają się do punktu siodłowego, a nie do minimum.

Z drugiej strony, jeśli zostanie wykonana optymalizacja z ograniczeniami (na przykład z mnożnikami Lagrange'a ), problemem może być znalezienie punktu siodłowego, w którym to przypadku Hessian będzie symetryczny nieskończony, a rozwiązanie woli będzie musiało być wykonane za pomocą metoda, która będzie działać dla takich, jak wariant faktoryzacji Cholesky'ego lub sprzężona metoda rezydualna .

Istnieją również różne metody quasi-Newtona , w których przybliżenie hessu (lub jego odwrotność bezpośrednio) jest budowane na podstawie zmian w gradiencie.

Jeśli hesjan jest bliski macierzy nieodwracalnej , odwrócony hesjan może być numerycznie niestabilny, a rozwiązanie może się różnić. W tym przypadku w przeszłości wypróbowano pewne obejścia, które przyniosły różne sukcesy z pewnymi problemami. Można na przykład zmodyfikować hesjan, dodając macierz korekcji tak, aby była określona dodatnio. Jednym z podejść jest diagonalizacja hesjanu i wybór tak, aby miał takie same wektory własne jak hes, ale z każdą ujemną wartością własną zastąpioną przez .

Podejście wykorzystywane w algorytmie Levenberga-Marquardta (który wykorzystuje przybliżony hes) polega na dodaniu skalowanej macierzy tożsamości do Hessian , ze skalą dostosowywaną w każdej iteracji w razie potrzeby. W przypadku dużych i małych hesjan iteracje będą się zachowywać jak zejście gradientowe z rozmiarem kroku . Powoduje to wolniejszą, ale bardziej niezawodną zbieżność, w której hes nie dostarcza użytecznych informacji.

Niektóre zastrzeżenia

Metoda Newtona w swojej pierwotnej wersji ma kilka zastrzeżeń:

  1. Nie działa, jeśli hes nie jest odwracalny. Wynika to jasno z samej definicji metody Newtona, która wymaga przyjęcia odwrotności hessu.
  2. Może wcale nie być zbieżne, ale może wejść w cykl mający więcej niż 1 punkt. Zobacz rozdział "Analiza awarii" w metodzie Newtona .
  3. Może zbiegać się do punktu siodłowego zamiast do lokalnego minimum, zobacz sekcję „Interpretacja geometryczna” w tym artykule.

Popularne modyfikacje metody Newtona, takie jak wspomniane powyżej metody quasi-Newtona czy algorytm Levenberga-Marquardta, również mają swoje zastrzeżenia:

Na przykład, zwykle wymagane jest, aby funkcja kosztu była (silnie) wypukła, a hesj był globalnie ograniczony lub ciągły Lipschitz, na przykład jest to wspomniane w sekcji „Zbieżność” w tym artykule. Jeśli spojrzy się na prace Levenberga i Marquardta w referencji do algorytmu Levenberga–Marquardta , które są oryginalnymi źródłami wspomnianej metody, to można zauważyć, że w pracy Levenberga w zasadzie nie ma analizy teoretycznej, natomiast praca Marquardta analizuje jedynie sytuację lokalną i nie udowadnia globalnego wyniku konwergencji. Można porównać z metodą wyszukiwania linii z nawrotem dla gradientu opadania, która ma dobrą gwarancję teoretyczną przy bardziej ogólnych założeniach i może być zaimplementowana i dobrze sprawdza się w praktycznych problemach dużej skali, takich jak głębokie sieci neuronowe.

Zobacz też

Uwagi

Bibliografia

Zewnętrzne linki