Macierz Hesji - Hessian matrix

W matematyce The Heskie matrycy lub Heskie jest macierzą kwadratową z drugiego rzędu pochodnych cząstkowych skalarnej wartościami funkcji , lub pola skalarnego . Opisuje lokalną krzywiznę funkcji wielu zmiennych. Matryca Hesji została opracowana w XIX wieku przez niemieckiego matematyka Ludwiga Otto Hesse i później nazwana jego imieniem. Hesse pierwotnie używał terminu „determinanty funkcjonalne”.

Definicje i właściwości

Załóżmy, że jest to funkcja sobą na wejściu wektor i wyprowadzania skalarne Jeżeli wszystkie drugie pochodne cząstkowe w istnieją i są ciągłe na domenie funkcyjnych, Heskiego matrycy z jest kwadratem matrycy, zwykle określona i umieszczona w następujący sposób:

lub, podając równanie współczynników z wykorzystaniem wskaźników i oraz j,

Macierz Hesja jest macierzą symetryczną , ponieważ z hipotezy o ciągłości drugich pochodnych wynika, że ​​porządek różniczkowania nie ma znaczenia ( twierdzenie Schwarza ).

Determinantę z Heskiego matrycy zwany Heskie determinantą .

Hessian matrycy funkcją jest jakobian matrycy z gradientem funkcji ; to jest:

Aplikacje

Punkty przegięcia

Jeśli jest jednorodny wielomian trzech zmiennych, równanie jest niejawne równanie z krzywej płaszczyzny rzutowej . Te punkty przegięcia krzywej są dokładnie nieosobliwe punkty Hesji, gdzie wyznacznikiem jest zero. Wynika z twierdzenia Bézout, że krzywa płaszczyzny sześciennej ma w większości punktów przegięcia, ponieważ wyznacznik Hess jest wielomianem stopnia

Test drugiej pochodnej

Macierz Hessian funkcji wypukłej jest dodatnia półokreślona . Udoskonalenie tej właściwości pozwala nam przetestować, czy punkt krytyczny jest lokalnym maksimum, lokalnym minimum lub punktem siodłowym, w następujący sposób:

Jeśli hes jest określony dodatnio w wtedy osiąga izolowane lokalne minimum w Jeśli hes jest określony ujemnie w wtedy osiąga izolowane lokalne maksimum w Jeśli hes ma zarówno dodatnie, jak i ujemne wartości własne , wtedy jest punktem siodłowym dla W przeciwnym razie test jest nieprzekonywający. Oznacza to, że przy minimum lokalnym hes jest półokreślony dodatnio, a przy maksimum lokalnym hes jest półokreślony ujemnie.

W przypadku hesów dodatnich półokreślonych i ujemnych półokreślonych test nie jest rozstrzygający (punkt krytyczny, w którym hes jest półokreślony, ale nieokreślony, może być lokalnym ekstremum lub punktem siodłowym). Z punktu widzenia teorii Morse'a można jednak powiedzieć więcej .

Test drugiej pochodnej dla funkcji jednej i dwóch zmiennych jest prostszy niż przypadek ogólny. W jednej zmiennej Hessian zawiera dokładnie jedną drugą pochodną; jeśli jest dodatnia, to jest lokalne minimum, a jeśli jest ujemna, to jest lokalne maksimum; jeśli wynosi zero, test jest niejednoznaczny. W dwóch zmiennych, wyznacznikiem może być używany, ponieważ jest wyznacznikiem iloczyn wartości własnych. Jeśli jest dodatnia, to wartości własne są obie dodatnie lub obie ujemne. Jeśli jest ujemna, to te dwie wartości własne mają różne znaki. Jeśli wynosi zero, to test drugiej pochodnej nie jest rozstrzygający.

Odpowiednio, warunki drugiego rzędu, które są wystarczające dla lokalnego minimum lub maksimum, mogą być wyrażone w postaci sekwencji głównych (najbardziej lewych górnych) nieletnich (wyznaczników podmacierzy) heskiego; warunki te są szczególnym przypadkiem tych podanych w następnej sekcji dla graniczących Hessians dla ograniczonej optymalizacji — przypadek, w którym liczba ograniczeń wynosi zero. Konkretnie, wystarczającym warunkiem minimum jest to, aby wszystkie te główne niepełnoletnie były dodatnie, podczas gdy wystarczającym warunkiem maksimum jest to, aby małoletni naprzemiennie w znaku, przy czym małoletni jest ujemny.

Punkt krytyczny

Jeśli gradient (wektor pochodnych cząstkowych) funkcji wynosi w pewnym momencie zero, to ma punkt krytyczny (lub punkt stacjonarny ) w . Wyznacznik hesjanu o nazywany jest w niektórych kontekstach dyskryminatorem . Jeśli to wyznacznik jest zerem wtedy nazywany jest zdegenerowany punkt krytyczny z lub punkt krytyczny non-Morse'a w przeciwnym razie nie jest zdegenerowany, a nazywa się punkt krytyczny Morse z

Macierz Hesja odgrywa ważną rolę w teorii Morse'a i teorii katastrof , ponieważ jej jądro i wartości własne pozwalają na klasyfikację punktów krytycznych.

Wyznacznik macierzy Hessego, oceniany w punkcie krytycznym funkcji, jest równy krzywiźnie Gaussa funkcji rozpatrywanej jako rozmaitość. Wartości własne hesjanu w tym punkcie są głównymi krzywiznami funkcji, a wektory własne są głównymi kierunkami krzywizny. (Zobacz Krzywizna Gaussa § Stosunek do krzywizn głównych .)

Użyj w optymalizacji

Macierze Hessowskie są używane w problemach optymalizacji wielkoskalowej w ramach metod typu Newtona , ponieważ są współczynnikiem członu kwadratowego lokalnego rozwinięcia Taylora funkcji. To jest,

gdzie jest gradientem obliczeniowe i przechowywanie pełnej Macierz Hessego trwa pamięć, co jest nieosiągalne dla wysokich-wymiarowej funkcji, takich jak funkcje strat w sieciach neuronowych , warunkowych pól losowych i innych modeli statystycznych z dużą liczbą parametrów. Dla takich sytuacji opracowano algorytmy obciętego Newtona i quasi-Newtona . Ta ostatnia rodzina algorytmów wykorzystuje przybliżenia do Hess; jednym z najpopularniejszych algorytmów quasi-Newtona jest BFGS .

Takie przybliżenia mogą wykorzystywać fakt, że algorytm optymalizacji używa hessu tylko jako operatora liniowego, a następnie zauważyć, że hes pojawia się również w lokalnym rozwinięciu gradientu:

Pozwalając na jakiś skalar to daje

to jest,
więc jeśli gradient jest już obliczony, przybliżony Hessian można obliczyć przez liniową (w wielkości gradientu) liczbę operacji skalarnych. (Chociaż ten schemat aproksymacji jest prosty w programowaniu, ten schemat aproksymacji nie jest stabilny liczbowo, ponieważ musi być niewielki, aby zapobiec błędom ze względu na człon, ale jego zmniejszenie traci precyzję w pierwszym członie).

Inne aplikacje

Macierz Hesja jest powszechnie używana do wyrażania operatorów przetwarzania obrazu w przetwarzaniu obrazu i wizji komputerowej (patrz detektor blobów Laplace'a Gaussa (LoG), wyznacznik Hessian (DoH) detektor blob i przestrzeń skali ). Macierz Hesja może być również wykorzystana w analizie w trybie normalnym do obliczenia różnych częstotliwości molekularnych w spektroskopii w

podczerwieni .

Uogólnienia

Graniczy z Hesji

Graniczy Heskie stosuje się do badania drugiego pochodne w pewnych ograniczonych problemów optymalizacyjnych. Biorąc pod uwagę funkcję rozważaną wcześniej, ale dodając funkcję ograniczającą taką, że obramowany Hessian jest Hessian

funkcji Lagrange'a

Jeśli są, powiedzmy, ograniczenia, to zero w lewym górnym rogu jest blokiem zer, a na górze znajdują się wiersze obramowania, a po lewej kolumny obramowania.

Powyższe zasady stwierdzające, że ekstrema są charakteryzowane (wśród punktów krytycznych z niepojedynczym hesjanem) przez dodatnio określony lub określony ujemnie hes nie mogą mieć tu zastosowania, ponieważ graniczny hes nie może być ani określony ani ujemny, ani dodatnio określony, jak gdyby był każdy wektor, którego jedyny niezerowy wpis jest pierwszym.

Drugi test pochodnych składa się tutaj z ograniczeń znakowych wyznaczników pewnego zbioru podmacierzy graniczącego Hessu. Intuicyjnie, ograniczenia można traktować jako redukujące problem do jednego ze zmiennymi wolnymi. (Na przykład maksymalizacja przedmiotu z ograniczeniem może zostać zredukowana do maksymalizacji bez ograniczenia.)

W szczególności, warunki znaku są nakładane na sekwencję wiodących głównych drugorzędnych (wyznaczniki górnych-lewych wyrównanych podmatryc) obramowanego heskiego, dla którego pierwsze wiodące główne drugorzędne są pomijane, najmniejsza drugorzędna składa się z obciętych pierwszych rzędów i kolumny, następna składa się z obciętych pierwszych rzędów i kolumn itd., przy czym ostatnia to cała granica hesji; jeśli jest większy niż wtedy, najmniejszym wiodącym głównym drugorzędnym jest sam Hes. W związku z tym należy wziąć pod uwagę nieletnich, z których każdy oceniany w konkretnym momencie jest uważany za kandydata maksimum lub minimum . Wystarczająca warunkiem lokalnym maksimum , że Nieletni naprzemiennie znak z najmniejszym mającym znak warunek wystarczający do lokalnego minimum, jest to, że wszystkie z tych nieletnich posiadać znak (w swobodnej przypadku z tych warunków pokrywa się z warunki, aby bez granic Hessian był odpowiednio ujemnie określony lub dodatnio określony).

Funkcje o wartościach wektorowych

Jeśli zamiast tego jest polem wektorowym , czyli

wtedy zbiór drugich pochodnych cząstkowych nie jest macierzą, lecz tensorem trzeciego rzędu . Można to traktować jako tablicę macierzy heskich, po jednej dla każdego składnika :
Tensor degeneruje się do zwykłej macierzy Hess, gdy

Uogólnienie na złożony przypadek

W kontekście kilku zmiennych złożonych , hes można uogólnić. Załóżmy i napisz Wtedy uogólniony hes to Jeśli spełnia n-wymiarowe

warunki Cauchy'ego-Riemanna , to złożona macierz Hesjan jest identycznie zerowa.

Uogólnienia na rozmaitości riemannowskie

Niech będzie

rozmaitością Riemanna i jej połączeniem Levi-Civita . Niech będzie gładką funkcją. Zdefiniuj tensor heski przez
gdzie wykorzystuje to fakt, że pierwsza pochodna kowariantna funkcji jest taka sama jak jej zwykła pochodna. Wybór lokalnych współrzędnych daje lokalne wyrażenie dla heskiego as
gdzie są
symbole Christoffel połączenia. Inne równoważne formy dla hessu są podane przez

Zobacz też

Uwagi

Dalsza lektura

Zewnętrzne linki