Informacje o rybaku - Fisher information

W statystyce matematycznej , informacje Fisher (czasem nazywana po prostu informacja ) jest sposobem pomiaru ilości informacji , że obserwowalne zmienna losowa X niesie o nieznanym parametrze θ z rozkładu, że modele X . Formalnie, jest to odchylenie w średniej lub wartość oczekiwana w obserwowanym informacji . W statystyce Bayesa The asymptotycznej dystrybucja na tylnej trybie zależy od informacji Fishera, a nie na przed (zgodnie z twierdzeniem Bernstein-von Misesa , co było przewidywane przez Laplace'a dla wykładniczych rodzin ). Rolę informacji Fishera w asymptotycznej teorii estymacji maksymalnego prawdopodobieństwa podkreślił statystyk Ronald Fisher (po wstępnych wynikach Francisa Ysidro Edgewortha ). Informacje Fishera są również wykorzystywane do obliczania wcześniejszej wartości Jeffreysa , która jest używana w statystyce bayesowskiej.

Macierz informacyjna Fishera służy do obliczania macierzy kowariancji związanych z oszacowaniami maksymalnego prawdopodobieństwa . Może być również stosowany do formułowania statystyk testowych, takich jak test Walda .

Wykazano, że systemy statystyczne o charakterze naukowym (fizyczne, biologiczne itp.), których funkcje prawdopodobieństwa podlegają niezmienności zmian, są zgodne z maksymalną informacją Fishera. Poziom maksimum zależy od natury ograniczeń systemu.

Definicja

Informacja Fishera to sposób pomiaru ilości informacji, które obserwowalna zmienna losowa X niesie ze sobą nieznany parametr θ, od którego zależy prawdopodobieństwo X. Niech f ( X ; θ ) będzie funkcją gęstości prawdopodobieństwa (lub funkcją masy prawdopodobieństwa ) dla X uwarunkowaną wartością θ . Opisuje prawdopodobieństwo, że mamy do czynienia dany wynik X , podane znanym wartość θ . Jeśli f ma ostre maksimum w odniesieniu do zmian θ , łatwo jest wskazać „prawidłową” wartość θ na podstawie danych lub równoważnie, że dane X dostarczają wielu informacji o parametrze θ . Jeśli prawdopodobieństwo f jest płaskie i rozłożone, wtedy oszacowanie rzeczywistej „prawdziwej” wartości θ, która zostałaby uzyskana przy użyciu całej badanej populacji , wymagałoby wielu próbek X. Sugeruje to badanie pewnego rodzaju wariancji względem θ .

Formalnie, częściowe pochodne względem θ z naturalnego logarytmu funkcji prawdopodobieństwa nazywany jest wynik . W pewnych warunkach regularności, jeśli θ jest prawdziwym parametrem (tj. X jest faktycznie rozłożony jako f ( X ; θ ) ), można wykazać, że oczekiwana wartość (pierwszy moment ) wyniku, oszacowana przy prawdziwej wartości parametru , wynosi 0:

Odchylenie od średniej jest zdefiniowane jako informacje Fisher :

Zauważ, że . Zmienna losowa niosąca wysoką informację Fishera implikuje, że wartość bezwzględna wyniku jest często wysoka. Informacja Fishera nie jest funkcją konkretnej obserwacji, ponieważ zmienna losowa X została uśredniona.

Jeżeli log  f ( x ; θ ) jest dwukrotnie różniczkowalny względem θ i pod pewnymi warunkami regularności, to informacja Fishera może być również zapisana jako

odkąd

oraz

Zatem informacja Fishera może być postrzegana jako krzywizna krzywej wsparcia (wykres logarytmicznego prawdopodobieństwa). W pobliżu oszacowania największego prawdopodobieństwa , niska informacja Fishera wskazuje zatem, że maksimum wydaje się „tępe”, to znaczy maksimum jest płytkie i istnieje wiele pobliskich wartości o podobnym logarytmicznym prawdopodobieństwie. I odwrotnie, wysoka informacja Fishera wskazuje, że maksimum jest ostre.

Warunki regularności

Warunki prawidłowości są następujące:

  1. Pochodna cząstkowa f ( X ; θ ) po θ istnieje prawie wszędzie . (Może nie istnieć w zestawie zerowym, o ile ten zestaw nie zależy od θ .)
  2. Całka z f ( X ; θ ) może być zróżnicowana pod znakiem całki względem θ .
  3. Wspornik z F ( x , θ ) nie zależy od θ .

Jeśli θ jest wektorem, to warunki regularności muszą być spełnione dla każdego składnika θ . Łatwo znaleźć przykład gęstości, która nie spełnia warunków regularności: Gęstość zmiennej Uniform(0, θ ) nie spełnia warunków 1 i 3. W tym przypadku, mimo że informację Fishera można obliczyć z definicji, nie będzie miał właściwości, które zwykle zakłada.

Pod względem prawdopodobieństwa

Ponieważ prawdopodobieństwo z θ podane X zawsze jest proporcjonalna do prawdopodobieństwa f ( X ; θ ), ich logarytmy konieczności różnią się stałą, która jest niezależna od θ i pochodne tych logarytmów względem θ muszą być równe. Tak więc można zastąpić logarytmem prawdopodobieństwa l ( θ ; X ) zamiast log f ( X ; θ ) w definicjach informacji Fishera.

Próbki o dowolnej wielkości

Wartość X może reprezentować pojedynczą próbkę pobraną z pojedynczego rozkładu lub może reprezentować zbiór próbek pobranych z kolekcji rozkładów. Jeżeli istnieje n próbek i odpowiadające N rozkłady są statystycznie niezależne , to informacje Fisher koniecznie być suma pojedynczych przykładowe wartości informacyjnych Fisher, po jednym dla każdej pojedynczej próbce od jej rozkładu. W szczególności, jeśli rozkłady nniezależne i mają identyczny rozkład, wtedy informacja Fishera będzie z konieczności n razy większa niż informacja Fishera pojedynczej próbki ze wspólnego rozkładu.

Nieformalne wyprowadzenie granicy Cramér-Rao

Cramera-Rao stany że odwrotność informacji Fishera jest dolna granica na wariancji każdego nieobciążonego estymatora z θ . HL Van Trees (1968) i B. Roy Frieden (2004) dostarczają następującej metody wyprowadzania wiązania Craméra-Rao , wyniku opisującego wykorzystanie informacji Fishera.

Nieformalnie zaczynamy od rozważenia bezstronnego estymatora . Matematycznie „bezstronny” oznacza, że

To wyrażenie jest zerem niezależne od θ , więc jego pochodna cząstkowa po θ również musi wynosić zero. Zgodnie z regułą iloczynu ta pochodna cząstkowa jest również równa

Dla każdego θ funkcja prawdopodobieństwa jest funkcją gęstości prawdopodobieństwa, a zatem . Z podstawowych obliczeń wynika, że

Korzystając z tych dwóch faktów w powyższym, otrzymujemy

Faktoring daje całkę

Podnosząc do kwadratu wyrażenie w całce, nierówność Cauchy'ego-Schwarza daje

Drugi czynnik w nawiasach jest zdefiniowany jako informacja Fishera, podczas gdy pierwszy czynnik w nawiasach to oczekiwany błąd średniokwadratowy estymatora . Zmieniając układ, nierówność mówi nam, że

Innymi słowy, dokładność, z jaką możemy oszacować θ, jest zasadniczo ograniczona przez informację Fishera funkcji wiarygodności.

Jednoparametrowy eksperyment Bernoulliego

Próba Bernoulliego jest zmienną losową z dwoma możliwymi wynikami, „sukcesem” i „porażką”, przy czym prawdopodobieństwo sukcesu wynosi θ . Wynik można uznać za określony przez rzut monetą, przy czym prawdopodobieństwo, że orła wynosi θ, a prawdopodobieństwo reszki wynosi 1 − θ .

Niech X będzie procesem Bernoulliego. Informacje Fishera zawarte w X można obliczyć jako:

Ponieważ informacje Fishera są addytywne, informacje Fishera zawarte w n niezależnych próbach Bernoulliego są zatem:

Jest to odwrotność wariancji średniej liczby sukcesów w n próbach Bernoulliego , więc w tym przypadku granica Craméra-Rao jest równością.

Forma macierzowa

Gdy istnieje N parametrów, tak że θ jest wektorem N × 1, informacja Fishera przybiera postać macierzy N × N . Ta macierz nazywa się macierzą informacji Fishera (FIM) i ma typowy element

FIM jest macierzą N × N dodatnią półokreśloną . Jeżeli jest ona dodatnio określona, ​​to definiuje metrykę Riemanna w N - wymiarowej przestrzeni parametrów . Geometria informacji tematu używa tego do połączenia informacji Fishera z geometrią różniczkową iw tym kontekście ta metryka jest znana jako metryka informacji Fishera .

W pewnych warunkach regularności macierz informacji Fishera może być również zapisana jako

Wynik jest interesujący na kilka sposobów:

  • Można ją określić jako juty o względnej entropii .
  • Może być używana jako metryka Riemanna do definiowania geometrii Fishera-Rao, gdy jest ona dodatnio określona.
  • Można ją rozumieć jako metrykę indukowaną z metryki euklidesowej , po odpowiedniej zmianie zmiennej.
  • W swojej postaci o wartościach zespolonych jest to metryka Fubini-Study .
  • Jest to kluczowa część dowodu twierdzenia Wilksa , która umożliwia oszacowanie obszaru ufności dla oszacowania maksymalnego prawdopodobieństwa (dla tych warunków, do których ma zastosowanie) bez konieczności stosowania zasady prawdopodobieństwa .
  • W przypadkach, w których obliczenia analityczne powyższego FIM są trudne, możliwe jest utworzenie średniej z łatwych oszacowań Monte Carlo hesjanu ujemnej logarytmicznej funkcji prawdopodobieństwa jako oszacowania FIM. Szacunki mogą być oparte na wartościach ujemnej logarytmicznej funkcji prawdopodobieństwa lub na gradiencie ujemnej logarytmicznej funkcji prawdopodobieństwa; nie jest potrzebne analityczne obliczenie hesjanu ujemnej logarytmicznej funkcji prawdopodobieństwa.

Parametry ortogonalne

Mówimy, że dwa parametry θ i oraz θ j są ortogonalne, jeśli element i- tego wiersza i j- tej kolumny macierzy informacyjnej Fishera wynosi zero. Parametry ortogonalne są łatwe do radzenia sobie w tym sensie, że ich oszacowania maksymalnego prawdopodobieństwa są niezależne i można je obliczyć oddzielnie. Podczas rozwiązywania problemów badawczych bardzo często badacz poświęca trochę czasu na poszukiwanie ortogonalnej parametryzacji gęstości związanych z problemem.

Pojedynczy model statystyczny

Jeżeli macierz informacji Fishera jest dodatnio określona dla wszystkich θ , to odpowiadający jej model statystyczny jest uważany za regularny ; w przeciwnym razie mówi się, że model statystyczny jest pojedynczy . Przykładami osobliwych modeli statystycznych są: mieszaniny normalne, mieszaniny dwumianowe, mieszaniny wielomianowe, sieci bayesowskie, sieci neuronowe, radialne funkcje bazowe, ukryte modele Markowa, stochastyczne gramatyki bezkontekstowe, regresje zredukowanych rang, maszyny Boltzmanna.

W uczeniu maszynowym , jeśli model statystyczny jest opracowany tak, aby wydobywał ukrytą strukturę ze zjawiska losowego, to w naturalny sposób staje się on pojedynczy.

Wielowymiarowy rozkład normalny

FIM dla A N -variate wielowymiarowej rozkładu normalnego , ma szczególny kształt. Niech K- wymiarowy wektor parametrów będzie i wektor losowych zmiennych normalnych będzie . Załóżmy, że średnie wartości tych zmiennych losowych to , i niech będzie macierzą kowariancji . Wtedy, dla , wpis ( m , n ) FIM to:

gdzie oznacza transpozycję w wektorze, oznacza ślad o kwadratowej macierzy , przy czym:

Zauważ, że szczególnym, ale bardzo powszechnym przypadkiem jest ten, w którym , stała. Następnie

W tym przypadku informacje matryca Fisher mogą być identyfikowane z matrycą współczynnik normalnych równań o najmniejszych kwadratów teorii estymacji.

Inny szczególny przypadek ma miejsce, gdy średnia i kowariancja zależą od dwóch różnych parametrów wektora, powiedzmy β i θ . Jest to szczególnie popularne w analizie danych przestrzennych, która często wykorzystuje model liniowy ze skorelowanymi resztami. W tym przypadku,

gdzie

Nieruchomości

Zasada łańcuchowa

Podobnie jak entropia lub wzajemna informacja , informacja Fishera posiada również rozkład reguł łańcucha . W szczególności, jeśli X i Y są wspólnie rozłożonymi zmiennymi losowymi, wynika z tego, że:

gdzie i jest informacją Fishera Y względem obliczoną w odniesieniu do warunkowej gęstości Y przy określonej wartości  X  =  x .

W szczególnym przypadku, jeśli dwie zmienne losowe są niezależne , informacja uzyskana przez dwie zmienne losowe jest sumą informacji z każdej zmiennej losowej oddzielnie:

W konsekwencji informacja w losowej próbie n niezależnych i identycznie rozłożonych obserwacji jest n razy większa od informacji w próbie o rozmiarze 1.

Wystarczająca statystyka

Informacje dostarczone przez wystarczającą statystykę są takie same jak w próbie X . Można to zobaczyć za pomocą kryterium faktoryzacji Neymana dla wystarczającej statystyki. Jeśli T ( X ) jest wystarczające dla θ , to

dla niektórych funkcji g i h . Niezależność h ( X ) od θ implikuje

a równość informacji wynika z definicji informacji Fishera. Bardziej ogólnie, jeśli T = t ( X ) jest statystyką , to

z równością wtedy i tylko wtedy, gdy T jest wystarczającą statystyką .

Reparametryzacja

Informacja Fishera zależy od parametryzacji problemu. Jeśli θ i η są dwiema skalarnymi parametryzacjami problemu estymacji, a θ jest ciągle różniczkowalną funkcją η , to

gdzie i są miarami informacyjnymi Fishera odpowiednio η i θ .

W przypadku wektora załóżmy i są k -wektorami, które parametryzują problem estymacji i załóżmy, że jest to ciągle różniczkowalna funkcja , wtedy,

gdzie ( i , j )-ty element macierzy k  ×  k jakobianu jest określony przez

i gdzie jest transpozycja macierzy

W geometrii informacyjnej jest to postrzegane jako zmiana współrzędnych na rozmaitości riemannowskiej , a wewnętrzne właściwości krzywizny pozostają niezmienione przy różnych parametryzacjach. Ogólnie rzecz biorąc, macierz informacji Fishera zapewnia metrykę Riemanna (dokładniej metrykę Fishera-Rao) dla różnorodności stanów termodynamicznych i może być używana jako miara złożoności informacji geometrycznej do klasyfikacji przejść fazowych , np. skalar Krzywizna termodynamicznego tensora metrycznego odbiega w (i tylko w) punkcie przejścia fazowego.

W kontekście termodynamicznym macierz informacji Fishera jest bezpośrednio powiązana z szybkością zmian odpowiednich parametrów porządku . W szczególności takie relacje identyfikują przejścia fazowe drugiego rzędu poprzez rozbieżności poszczególnych elementów macierzy informacyjnej Fishera.

Nierówność izoperymetryczna

Macierz informacji Fishera odgrywa rolę w nierówności, takiej jak nierówność izoperymetryczna . Ze wszystkich rozkładów prawdopodobieństwa o danej entropii ten, którego macierz informacyjna Fishera ma najmniejszy ślad, jest rozkładem Gaussa. To tak, jak ze wszystkich zbiorów ograniczonych o danej objętości kula ma najmniejszą powierzchnię.

Dowód polega na wzięciu wielowymiarowej zmiennej losowej z funkcją gęstości i dodaniu parametru lokalizacji w celu utworzenia rodziny gęstości . Następnie, przez analogię do wzoru Minkowskiego-Steinera , „pole powierzchni” definiuje się jako

gdzie jest zmienną Gaussa z macierzą kowariancji . Nazwa „powierzchnia” jest trafna, ponieważ siła entropii jest objętością „efektywnego zbioru podporowego”, podobnie jak „pochodna” objętości efektywnego zbioru podporowego, podobnie jak wzór Minkowskiego-Steinera. Pozostała część dowodu wykorzystuje nierówność potęgową entropii , która jest podobna do nierówności Brunna-Minkowskiego . Stwierdzono, że ślad macierzy informacyjnej Fishera jest czynnikiem .

Aplikacje

Optymalny projekt eksperymentów

Informacje Fishera są szeroko stosowane w optymalnym projektowaniu eksperymentów . Z powodu wzajemności estymatora-wariancji danych Fisher, minimalizując przez wariancji odpowiada maksymalizuje się informacje .

Gdy liniowy (lub linearyzowany ) statystycznego modelu ma kilka parametrów The średnią estymatora parametrów jest wektor i jego odchylenie jest matryca . Odwrotność macierzy wariancji nazywana jest „macierzą informacji”. Ponieważ wariancja estymatora wektora parametrów jest macierzą, problem „minimalizacji wariancji” jest skomplikowany. Stosując teorię statystyczną , statystycy kompresują macierz informacji za pomocą statystyk podsumowujących o wartościach rzeczywistych ; będąc funkcjami o wartościach rzeczywistych, te „kryteria informacyjne” można maksymalizować.

Tradycyjnie statystycy oceniali estymatory i projekty, biorąc pod uwagę pewną sumaryczną statystykę macierzy kowariancji (nieobciążonego estymatora), zwykle o dodatnich wartościach rzeczywistych (takich jak wyznacznik lub zapis macierzy ). Praca z dodatnimi liczbami rzeczywistymi ma kilka zalet: Jeśli estymator pojedynczego parametru ma dodatnią wariancję, to zarówno wariancja, jak i informacja Fishera są dodatnimi liczbami rzeczywistymi; stąd są one członkami wypukłego stożka nieujemnych liczb rzeczywistych (których niezerowe elementy mają odwrotności w tym samym stożku).

Dla kilku parametrów macierze kowariancji i macierze informacyjne są elementami wypukłego stożka nieujemnych-określonych macierzy symetrycznych w częściowo uporządkowanej przestrzeni wektorowej , pod rzędem Loewnera (Löwnera). Stożek ten jest domknięty przy dodawaniu i odwracaniu macierzy, a także przy mnożeniu dodatnich liczb rzeczywistych i macierzy. W Pukelsheim pojawia się wykład teorii macierzy i porządku Loewnera.

Tradycyjne kryteria optymalności to niezmienniki macierzy informacji , w sensie teorii niezmienników ; algebraicznie, tradycyjne kryteria optymalności są Funkcjonały tych wartości własnych macierzy (Fisher) informacje (patrz optymalnego projektu ).

Jeffreys wcześniej w statystykach bayesowskich

W statystyce bayesowskiej informacje Fishera są używane do obliczania przedrostka Jeffreysa , który jest standardową, nieinformacyjną przedstawioną wartością przedstawioną dla parametrów rozkładu ciągłego.

Neuronauka obliczeniowa

Informacje Fishera zostały wykorzystane do znalezienia granic dokładności kodów neuronowych. W takim przypadku X jest zazwyczaj wspólną odpowiedzią wielu neuronów reprezentujących zmienną niskowymiarową θ (taką jak parametr bodźca). W szczególności zbadano rolę korelacji w szumie odpowiedzi neuronalnych.

Wyprowadzenie praw fizycznych

Informacje Fishera odgrywają kluczową rolę w kontrowersyjnej zasadzie przedstawionej przez Friedena jako podstawa praw fizycznych, twierdzenie, które zostało zakwestionowane.

Nauczanie maszynowe

Informacje Fishera są wykorzystywane w technikach uczenia maszynowego, takich jak elastyczna konsolidacja wag , która ogranicza katastrofalne zapominanie w sztucznych sieciach neuronowych .

Związek z entropią względną

Informacje Fishera są powiązane z entropią względną . Względna entropia lub rozbieżność Kullbacka-Leiblera między dwoma rozkładami i może być zapisana jako

Rozważmy teraz rodzinę rozkładów prawdopodobieństwa sparametryzowaną przez . Następnie rozbieżność Kullbacka-Leiblera między dwoma rozkładami w rodzinie można zapisać jako

Jeśli jest ustalona, ​​to względna entropia między dwoma rozkładami tej samej rodziny jest minimalizowana w . Dla close można rozszerzyć poprzednie wyrażenie w serii aż do drugiego rzędu:

Ale pochodną drugiego rzędu można zapisać jako

Zatem informacja Fishera reprezentuje krzywiznę względnej entropii.

Historia

Informacje Fishera zostały omówione przez kilku wczesnych statystyków, w szczególności FY Edgewortha . Na przykład Savage mówi: „W tym [informacje Fishera], on [Fisher] był do pewnego stopnia oczekiwany (Edgeworth 1908-9, zwłaszcza 502, 507-8, 662, 677-8, 82-5 i przywołuje on [Edgeworth ] cytuje m.in. Pearsona i Filona 1898 [...])." Istnieje wiele wczesnych źródeł historycznych i wiele recenzji tej wczesnej pracy.

Zobacz też

Inne środki stosowane w teorii informacji :

Uwagi

Bibliografia