Informacje o rybaku - Fisher information

W statystyce matematycznej , informacje Fisher (czasem nazywana po prostu informacja ) jest sposobem pomiaru ilości informacji , że obserwowalne zmienna losowa X niesie o nieznanym parametrze θ z rozkładu, że modele X . Formalnie, jest to odchylenie w średniej lub wartość oczekiwana w obserwowanym informacji . W statystyce Bayesa The asymptotycznej dystrybucja na tylnej trybie zależy od informacji Fishera, a nie na przed (zgodnie z twierdzeniem Bernstein-von Misesa , co było przewidywane przez Laplace'a dla wykładniczych rodzin ). Rolę informacji Fishera w asymptotycznej teorii estymacji maksymalnego prawdopodobieństwa podkreślił statystyk Ronald Fisher (po wstępnych wynikach Francisa Ysidro Edgewortha ). Informacje Fishera są również wykorzystywane do obliczania wcześniejszej wartości Jeffreysa , która jest używana w statystyce bayesowskiej.

Macierz informacyjna Fishera służy do obliczania macierzy kowariancji związanych z oszacowaniami maksymalnego prawdopodobieństwa . Może być również stosowany do formułowania statystyk testowych, takich jak test Walda .

Wykazano, że systemy statystyczne o charakterze naukowym (fizyczne, biologiczne itp.), których funkcje prawdopodobieństwa podlegają niezmienności zmian, są zgodne z maksymalną informacją Fishera. Poziom maksimum zależy od natury ograniczeń systemu.

Definicja

Informacja Fishera to sposób pomiaru ilości informacji, które obserwowalna zmienna losowa X niesie ze sobą nieznany parametr θ, od którego zależy prawdopodobieństwo X. Niech f ( X ; θ ) będzie funkcją gęstości prawdopodobieństwa (lub funkcją masy prawdopodobieństwa ) dla X uwarunkowaną wartością θ . Opisuje prawdopodobieństwo, że mamy do czynienia dany wynik X , podane znanym wartość θ . Jeśli f ma ostre maksimum w odniesieniu do zmian θ , łatwo jest wskazać „prawidłową” wartość θ na podstawie danych lub równoważnie, że dane X dostarczają wielu informacji o parametrze θ . Jeśli prawdopodobieństwo f jest płaskie i rozłożone, wtedy oszacowanie rzeczywistej „prawdziwej” wartości θ, która zostałaby uzyskana przy użyciu całej badanej populacji , wymagałoby wielu próbek X. Sugeruje to badanie pewnego rodzaju wariancji względem θ .

Formalnie, częściowe pochodne względem θ z naturalnego logarytmu funkcji prawdopodobieństwa nazywany jest wynik . W pewnych warunkach regularności, jeśli θ jest prawdziwym parametrem (tj. X jest faktycznie rozłożony jako f ( X ; θ ) ), można wykazać, że oczekiwana wartość (pierwszy moment ) wyniku, oszacowana przy prawdziwej wartości parametru , wynosi 0: $\theta$

{\ Displaystyle {\ zacząć {wyrównany} i \ operatorname {E} \ lewo [\ lewo. {\ Frac {\ częściowy} {\ częściowy \ theta}} \ log f (X; \ theta) \ prawo | \ theta \ prawo]\\[3pt]={}&\int _{\mathbb {R} }{\frac {{\frac {\partial }{\partial \theta }}f(x;\theta )}{f( x;\theta )}}f(x;\theta )\,dx\\[3pt]={}&{\frac {\partial }{\partial \theta }}\int _{\mathbb {R} } f(x;\theta )\,dx\\[3pt]={}&{\frac {\partial }{\partial \theta }}1=0.\end{aligned}}}

Odchylenie od średniej jest zdefiniowane jako informacje Fisher :

{\ Displaystyle {\ mathcal {I}} (\ theta ) = \ operatorname {E} \ lewo [\ lewo. \ lewo ({\ Frac {\ częściowy} {\ częściowy \ theta}} \ log f (X; \ theta )\right)^{2}\right|\theta \right]=\int _{\mathbb {R} }\left({\frac {\partial }{\partial \theta }}\log f(x ;\theta )\right)^{2}f(x;\theta )\,dx,}

Zauważ, że . Zmienna losowa niosąca wysoką informację Fishera implikuje, że wartość bezwzględna wyniku jest często wysoka. Informacja Fishera nie jest funkcją konkretnej obserwacji, ponieważ zmienna losowa X została uśredniona. $0\leq {\mathcal {I}}(\theta)$

Jeżeli log f ( x ; θ ) jest dwukrotnie różniczkowalny względem θ i pod pewnymi warunkami regularności, to informacja Fishera może być również zapisana jako

{\ Displaystyle {\ mathcal {I}} (\ theta ) = - \ nazwa operatora {E} \ lewo [\ lewo. {\ Frac {\ częściowy ^ {2}} \ częściowy \ teta ^ {2}}} \ log f(X;\theta )\right|\theta \right],}

odkąd

{\ Displaystyle {\ Frac {\ częściowy ^ {2}} \ częściowy \ theta ^ {2}}} \ log f (X; \ theta ) = {\ Frac {{\ Frac {\ częściowy ^ {2}} {\partial \theta ^{2}}}f(X;\theta )}{f(X;\theta )}}-\left({\frac {{\frac {\partial }{\partial \theta } }f(X;\theta )}{f(X;\theta )}}\right)^{2}={\frac {{\frac {\partial ^{2}}{\partial \theta ^{2 }}}f(X;\theta )}{f(X;\theta )}}-\left({\frac {\partial }{\partial \theta }}\log f(X;\theta )\right )^{2}}

oraz

{\ Displaystyle \ Operatorname {E} \ lewo [\ lewo. {\ Frac {{\ Frac {\ częściowy ^ {2}} {\ częściowy \ theta ^ {2}}} f (X; \ theta)} {f (X;\theta )}}\right|\theta \right]={\frac {\partial ^{2}}{\partial \theta ^{2}}}\int _{\mathbb {R} }f (x;\theta )\,dx=0.}

Zatem informacja Fishera może być postrzegana jako krzywizna krzywej wsparcia (wykres logarytmicznego prawdopodobieństwa). W pobliżu oszacowania największego prawdopodobieństwa , niska informacja Fishera wskazuje zatem, że maksimum wydaje się „tępe”, to znaczy maksimum jest płytkie i istnieje wiele pobliskich wartości o podobnym logarytmicznym prawdopodobieństwie. I odwrotnie, wysoka informacja Fishera wskazuje, że maksimum jest ostre.

Warunki regularności

Warunki prawidłowości są następujące:

Pochodna cząstkowa f ( X ; θ ) po θ istnieje prawie wszędzie . (Może nie istnieć w zestawie zerowym, o ile ten zestaw nie zależy od θ .)
Całka z f ( X ; θ ) może być zróżnicowana pod znakiem całki względem θ .
Wspornik z F ( x , θ ) nie zależy od θ .

Jeśli θ jest wektorem, to warunki regularności muszą być spełnione dla każdego składnika θ . Łatwo znaleźć przykład gęstości, która nie spełnia warunków regularności: Gęstość zmiennej Uniform(0, θ ) nie spełnia warunków 1 i 3. W tym przypadku, mimo że informację Fishera można obliczyć z definicji, nie będzie miał właściwości, które zwykle zakłada.

Pod względem prawdopodobieństwa

Ponieważ prawdopodobieństwo z θ podane X zawsze jest proporcjonalna do prawdopodobieństwa f ( X ; θ ), ich logarytmy konieczności różnią się stałą, która jest niezależna od θ i pochodne tych logarytmów względem θ muszą być równe. Tak więc można zastąpić logarytmem prawdopodobieństwa l ( θ ; X ) zamiast $log f (X; θ)$ w definicjach informacji Fishera.

Próbki o dowolnej wielkości

Wartość X może reprezentować pojedynczą próbkę pobraną z pojedynczego rozkładu lub może reprezentować zbiór próbek pobranych z kolekcji rozkładów. Jeżeli istnieje n próbek i odpowiadające N rozkłady są statystycznie niezależne , to informacje Fisher koniecznie być suma pojedynczych przykładowe wartości informacyjnych Fisher, po jednym dla każdej pojedynczej próbce od jej rozkładu. W szczególności, jeśli rozkłady n są niezależne i mają identyczny rozkład, wtedy informacja Fishera będzie z konieczności n razy większa niż informacja Fishera pojedynczej próbki ze wspólnego rozkładu.

Nieformalne wyprowadzenie granicy Cramér-Rao

Cramera-Rao stany że odwrotność informacji Fishera jest dolna granica na wariancji każdego nieobciążonego estymatora z θ . HL Van Trees (1968) i B. Roy Frieden (2004) dostarczają następującej metody wyprowadzania wiązania Craméra-Rao , wyniku opisującego wykorzystanie informacji Fishera.

Nieformalnie zaczynamy od rozważenia bezstronnego estymatora . Matematycznie „bezstronny” oznacza, że ${\kapelusz {\theta}}(X)$

{\ Displaystyle \ Operatorname {E} \ lewo [\ lewo. {\ kapelusz {\ theta}} (X) - \ theta \ prawo | \ theta \ prawo] = \ int \ lewo ({\ kapelusz {\ theta}} (x)-\theta \right)\,f(x;\theta )\,dx=0{\text{ niezależnie od wartości }}\theta .}

To wyrażenie jest zerem niezależne od θ , więc jego pochodna cząstkowa po θ również musi wynosić zero. Zgodnie z regułą iloczynu ta pochodna cząstkowa jest również równa

{\ Displaystyle 0 = {\ Frac {\ częściowy} {\ częściowy \ theta}} \ int \ lewo ({\ kapelusz {\ theta}} (x) - \ theta \ prawej) \, f (x; \ theta) \,dx=\int \left({\hat {\theta }}(x)-\theta \right){\frac {\partial f}{\partial \theta }}\,dx-\int f\, dx.}

Dla każdego θ funkcja prawdopodobieństwa jest funkcją gęstości prawdopodobieństwa, a zatem . Z podstawowych obliczeń wynika, że $\int f\,dx=1$

{\ Displaystyle {\ Frac {\ częściowy f}{\ częściowy \ theta}} = f \, {\ Frac {\ częściowy \ log f}{\ częściowy \ theta}}.}

Korzystając z tych dwóch faktów w powyższym, otrzymujemy

{\ Displaystyle \ int \ lewo ({\ kapelusz {\ theta}} - \ theta \ po prawej) f \ {\ Frac {\ częściowy \ log f} {\ częściowy \ theta}} \ dx = 1.}

Faktoring daje całkę

{\ Displaystyle \ int \ lewo (\ lewo ({\ kapelusz {\ theta}} - \ theta \ prawo) {\ sqrt {f}} \ po prawej) \ lewo ({\ sqrt {f}} \, {\ Frac {\częściowy \log f}{\częściowy \theta }}\right)\,dx=1.}

Podnosząc do kwadratu wyrażenie w całce, nierówność Cauchy'ego-Schwarza daje

{\ Displaystyle 1 = {\ biggl (} \ int \ lewo [\ lewo ({\ kapelusz {\ theta}} - \ theta \ prawo) {\ sqrt {f}} \ prawo] \ cdot \ lewo [{\ sqrt {f}}\,{\frac {\partial \log f}{\partial \theta }}\right]\,dx{\biggr )}^{2}\leq \left[\int \left({\ hat {\theta }}-\theta \right)^{2}f\,dx\right]\cdot \left[\int \left({\frac {\częściowy \log f}{\częściowy \theta }} \right)^{2}f\,dx\right].}

Drugi czynnik w nawiasach jest zdefiniowany jako informacja Fishera, podczas gdy pierwszy czynnik w nawiasach to oczekiwany błąd średniokwadratowy estymatora . Zmieniając układ, nierówność mówi nam, że ${\kapelusz {\theta}}$

{\ Displaystyle \ operatorname {Var} \ lewo ({\ kapelusz {\ theta}} \ po prawej) \ geq {\ Frac {1} {{\ mathcal {I}} \ po lewej (\ theta \ po prawej)}}.}

Innymi słowy, dokładność, z jaką możemy oszacować θ, jest zasadniczo ograniczona przez informację Fishera funkcji wiarygodności.

Jednoparametrowy eksperyment Bernoulliego

Próba Bernoulliego jest zmienną losową z dwoma możliwymi wynikami, „sukcesem” i „porażką”, przy czym prawdopodobieństwo sukcesu wynosi θ . Wynik można uznać za określony przez rzut monetą, przy czym prawdopodobieństwo, że orła wynosi θ, a prawdopodobieństwo reszki wynosi 1 − θ .

Niech X będzie procesem Bernoulliego. Informacje Fishera zawarte w X można obliczyć jako:

{\ Displaystyle {\ zacząć {wyrównany} {\ mathcal {ja}} (\ theta) & = - \ nazwa operatora {E} \ lewo [\ lewo. {\ Frac {\ częściowy ^ {2}} {\ częściowy \ teta ^{2}}}\log \left(\theta ^{X}(1-\theta )^{1-X}\right)\right|\theta \right]\\[5pt]&=-\operatorname {E} \left[\left.{\frac {\partial ^{2}}{\partial \theta ^{2}}}\left(X\log \theta +(1-X)\log(1- \theta )\right)\right|\theta \right]\\[5pt]&=\nazwa operatora {E} \left[\left.{\frac {X}{\theta ^{2}}}+{\ frac {1-X}{(1-\theta )^{2}}}\right|\theta \right]\\[5pt]&={\frac {\theta }{\theta ^{2}}} +{\frac {1-\theta }{(1-\theta )^{2}}}\\[5pt]&={\frac {1}{\theta (1-\theta )}}.\end {wyrównany}}}

Ponieważ informacje Fishera są addytywne, informacje Fishera zawarte w n niezależnych próbach Bernoulliego są zatem:

{\ Displaystyle {\ mathcal {I}} (\ theta ) = {\ Frac {n} {\ theta (1-\ theta)}}.}

Jest to odwrotność wariancji średniej liczby sukcesów w n próbach Bernoulliego , więc w tym przypadku granica Craméra-Rao jest równością.

Forma macierzowa

Gdy istnieje N parametrów, tak że θ jest wektorem N × 1, informacja Fishera przybiera postać macierzy N × N . Ta macierz nazywa się macierzą informacji Fishera (FIM) i ma typowy element ${\ Displaystyle \ theta = {\ zacząć {bmatrix} \ theta _ {1} i \ theta _ {2} i \ kropki i \ theta _ {N} \ koniec {bmatrix}} ^ {\ textsf {T}}, }$

{\ Displaystyle {\ bigl [}{\ mathcal {I}} (\ theta ) {\ bigr ]} _ {i, j} = \ operatorname {E} \ lewo [\ lewo. \ lewo ({\ Frac {\ częściowy }{\partial \theta _{i}}}\log f(X;\theta )\right)\left({\frac {\partial }{\partial \theta _{j}}}\log f( X;\theta )\right)\right|\theta \right].}

FIM jest macierzą N × N dodatnią półokreśloną . Jeżeli jest ona dodatnio określona, to definiuje metrykę Riemanna w N - wymiarowej przestrzeni parametrów . Geometria informacji tematu używa tego do połączenia informacji Fishera z geometrią różniczkową iw tym kontekście ta metryka jest znana jako metryka informacji Fishera .

W pewnych warunkach regularności macierz informacji Fishera może być również zapisana jako

{\ Displaystyle {\ bigl [}{\ mathcal {I}} (\ theta ) {\ duży ]} _ {i, j} = - \ operatorname {E} \ lewo [\ lewo. {\ Frac {\ częściowy ^ {2}}{\partial \theta _{i}\,\partial \theta _{j}}}\log f(X;\theta )\right|\theta \right]\,.}

Wynik jest interesujący na kilka sposobów:

Można ją określić jako juty o względnej entropii .
Może być używana jako metryka Riemanna do definiowania geometrii Fishera-Rao, gdy jest ona dodatnio określona.
Można ją rozumieć jako metrykę indukowaną z metryki euklidesowej , po odpowiedniej zmianie zmiennej.
W swojej postaci o wartościach zespolonych jest to metryka Fubini-Study .
Jest to kluczowa część dowodu twierdzenia Wilksa , która umożliwia oszacowanie obszaru ufności dla oszacowania maksymalnego prawdopodobieństwa (dla tych warunków, do których ma zastosowanie) bez konieczności stosowania zasady prawdopodobieństwa .
W przypadkach, w których obliczenia analityczne powyższego FIM są trudne, możliwe jest utworzenie średniej z łatwych oszacowań Monte Carlo hesjanu ujemnej logarytmicznej funkcji prawdopodobieństwa jako oszacowania FIM. Szacunki mogą być oparte na wartościach ujemnej logarytmicznej funkcji prawdopodobieństwa lub na gradiencie ujemnej logarytmicznej funkcji prawdopodobieństwa; nie jest potrzebne analityczne obliczenie hesjanu ujemnej logarytmicznej funkcji prawdopodobieństwa.

Parametry ortogonalne

Mówimy, że dwa parametry θ _i oraz θ _j są ortogonalne, jeśli element i- tego wiersza i j- tej kolumny macierzy informacyjnej Fishera wynosi zero. Parametry ortogonalne są łatwe do radzenia sobie w tym sensie, że ich oszacowania maksymalnego prawdopodobieństwa są niezależne i można je obliczyć oddzielnie. Podczas rozwiązywania problemów badawczych bardzo często badacz poświęca trochę czasu na poszukiwanie ortogonalnej parametryzacji gęstości związanych z problemem.

Pojedynczy model statystyczny

Jeżeli macierz informacji Fishera jest dodatnio określona dla wszystkich $θ$ , to odpowiadający jej model statystyczny jest uważany za regularny ; w przeciwnym razie mówi się, że model statystyczny jest pojedynczy . Przykładami osobliwych modeli statystycznych są: mieszaniny normalne, mieszaniny dwumianowe, mieszaniny wielomianowe, sieci bayesowskie, sieci neuronowe, radialne funkcje bazowe, ukryte modele Markowa, stochastyczne gramatyki bezkontekstowe, regresje zredukowanych rang, maszyny Boltzmanna.

W uczeniu maszynowym , jeśli model statystyczny jest opracowany tak, aby wydobywał ukrytą strukturę ze zjawiska losowego, to w naturalny sposób staje się on pojedynczy.

Wielowymiarowy rozkład normalny

FIM dla A N -variate wielowymiarowej rozkładu normalnego , ma szczególny kształt. Niech K- wymiarowy wektor parametrów będzie i wektor losowych zmiennych normalnych będzie . Załóżmy, że średnie wartości tych zmiennych losowych to , i niech będzie macierzą kowariancji . Wtedy, dla , wpis ( m , n ) FIM to: ${\ Displaystyle \ X \ SIM N \ lewo (\ mu (\ theta), \, \ Sigma (\ theta) \ prawo)}$ ${\ Displaystyle \ theta = {\ zacząć {bmatrix} \ theta _ {1} i \ teta _ {K} \ koniec {bmatrix}} ^ {\ textsf {T}}}$ ${\ Displaystyle X = {\ zacząć {bmatrix} X_ {1} i \ kropki i X_ {N} \ koniec {bmatrix}} ^ {\ textsf {T}}}$ ${\ Displaystyle \ \ mu (\ theta ) = {\ zacząć {bmatrix} \ mu _ {1} (\ theta) i \ kropki i \ mu _ {N} (\ theta) \ koniec {bmatrix}} ^ { \textsf {T}}}$ $\,\Sigma (\theta)$ $1\leq m,\,n\leq K$

{\ Displaystyle {\ mathcal {I}} _ {m, n} = {\ Frac {\ częściowy \ mu ^ {\ textsf {T}}}} {\ częściowy \ teta _ {m}}} \ Sigma ^ {- 1}{\frac {\partial \mu }{\partial \theta _{n}}}+{\frac {1}{2}}\operatorname {tr} \left(\Sigma ^{-1}{\ frac {\partial \Sigma }{\partial \theta _{m}}}\Sigma ^{-1}{\frac {\partial \Sigma }{\partial \theta _{n}}}\right),}

gdzie oznacza transpozycję w wektorze, oznacza ślad o kwadratowej macierzy , przy czym: ${\ Displaystyle (\ cdot ) ^ {\ textsf {T}}}$ $\operatorname {tr} (\cdot)$

{\ Displaystyle {\ zacząć {wyrównany} {\ Frac {\ częściowy \ mu} {\ częściowy \ theta _ {m}}} i = {\ zacząć {bmatrix} {\ Frac {\ częściowy \ mu _ {1}} {\partial \theta _{m}}}&{\frac {\partial \mu _{2}}{\partial \theta _{m}}}&\cdots &{\frac {\partial \mu _{ N}}{\partial \theta _{m}}}\end{bmatrix}}^{\textsf {T}};\\{\frac {\partial \Sigma }{\partial \theta _{m}} }&={\begin{bmatrix}{\frac {\partial \Sigma _{1,1}}{\partial \theta _{m}}}&{\frac {\partial \Sigma _{1,2} }{\partial \theta _{m}}}&\cdots &{\frac {\partial \Sigma _{1,N}}{\partial \theta _{m}}}\\[5pt]{\frac {\partial \Sigma _{2,1}}{\partial \theta _{m}}}&{\frac {\partial \Sigma _{2,2}}{\partial \theta _{m}}} &\cdots &{\frac {\partial \Sigma _{2,N}}{\partial \theta _{m}}}\\\vdots &\vdots &\ddots &\vdots \\{\frac {\ częściowa \Sigma _{N,1}}{\partial \theta _{m}}}&{\frac {\partial \Sigma _{N,2}}{\partial \theta _{m}}}&\ cdots &{\frac {\partial \Sigma _{N,N}}{\partial \theta _{m}}}\end{bmatrix}}.\end{aligned}}}

Zauważ, że szczególnym, ale bardzo powszechnym przypadkiem jest ten, w którym , stała. Następnie ${\ Displaystyle \ Sigma (\ theta) = \ Sigma}$

{\ Displaystyle {\ mathcal {I}} _ {m, n} = {\ Frac {\ częściowy \ mu ^ {\ textsf {T}}}} {\ częściowy \ teta _ {m}}} \ Sigma ^ {- 1}{\frac {\częściowy \mu }{\częściowy \theta _{n}}}.\ }

W tym przypadku informacje matryca Fisher mogą być identyfikowane z matrycą współczynnik normalnych równań o najmniejszych kwadratów teorii estymacji.

Inny szczególny przypadek ma miejsce, gdy średnia i kowariancja zależą od dwóch różnych parametrów wektora, powiedzmy β i θ . Jest to szczególnie popularne w analizie danych przestrzennych, która często wykorzystuje model liniowy ze skorelowanymi resztami. W tym przypadku,

{\ Displaystyle {\ mathcal {ja}} (\ beta, \ theta ) = \ operatorname {diag} \ lewo ({\ mathcal {ja}} (\ beta), {\ mathcal {ja}} (\ teta) \ Prawidłowy)}

gdzie

{\ Displaystyle {\ zacząć {wyrównany} {\ mathcal {I}} {(\ beta ) _ {m, n}} i = {\ Frac {\ częściowy \ mu ^ {\ textsf {T}}} {\ częściowy \beta _{m}}}\Sigma ^{-1}{\frac {\partial \mu }{\partial \beta _{n}}},\\[5pt]{\mathcal {I}}{( \theta )_{m,n}}&={\frac {1}{2}}\operatorname {tr} \left(\Sigma ^{-1}{\frac {\partial \Sigma }{\partial \ theta _{m}}}{\Sigma ^{-1}}{\frac {\partial \Sigma }{\partial \theta _{n}}}\right)\end{aligned}}}

Nieruchomości

Zasada łańcuchowa

Podobnie jak entropia lub wzajemna informacja , informacja Fishera posiada również rozkład reguł łańcucha . W szczególności, jeśli X i Y są wspólnie rozłożonymi zmiennymi losowymi, wynika z tego, że:

{\ Displaystyle {\ mathcal {I}} _ {X, Y} (\ theta) = {\ mathcal {I}} _ {X} (\ theta) + {\ mathcal {I}} _ {Y \ średni X }(\theta ),}

gdzie i jest informacją Fishera Y względem obliczoną w odniesieniu do warunkowej gęstości Y przy określonej wartości X = x . ${\ Displaystyle {\ mathcal {I}} _ {Y \ mid X} (\ theta) = \ operatorname {E} _ {X} \ lewo [{\ mathcal {I}} _ {Y \ mid X = x} (\theta )\prawo]}$ ${\ Displaystyle {\ mathcal {I}} _ {Y \ mid X = x} (\ theta)}$ $\theta$

W szczególnym przypadku, jeśli dwie zmienne losowe są niezależne , informacja uzyskana przez dwie zmienne losowe jest sumą informacji z każdej zmiennej losowej oddzielnie:

{\ Displaystyle {\ mathcal {I}} _ {X, Y} (\ theta) = {\ mathcal {I}} _ {X} (\ theta) + {\ mathcal {I}} _ {Y} (\ theta ).}

W konsekwencji informacja w losowej próbie n niezależnych i identycznie rozłożonych obserwacji jest n razy większa od informacji w próbie o rozmiarze 1.

Wystarczająca statystyka

Informacje dostarczone przez wystarczającą statystykę są takie same jak w próbie X . Można to zobaczyć za pomocą kryterium faktoryzacji Neymana dla wystarczającej statystyki. Jeśli T ( X ) jest wystarczające dla θ , to

f(X;\theta)=g(T(X),\theta)h(X)

dla niektórych funkcji g i h . Niezależność h ( X ) od θ implikuje

{\ Displaystyle {\ Frac {\ częściowy} {\ częściowy \ theta}} \ log \ lewo [f (X; \ theta) \ prawo] = {\ Frac {\ częściowy} {\ częściowy \ theta}} \ log \ lewo[g(T(X);\theta )\prawo],}

a równość informacji wynika z definicji informacji Fishera. Bardziej ogólnie, jeśli T = t ( X ) jest statystyką , to

{\ Displaystyle {\ mathcal {I}} _ {T} (\ theta) \ leq {\ mathcal {I}} _ {X} (\ teta)}

z równością wtedy i tylko wtedy, gdy T jest wystarczającą statystyką .

Reparametryzacja

Informacja Fishera zależy od parametryzacji problemu. Jeśli θ i η są dwiema skalarnymi parametryzacjami problemu estymacji, a θ jest ciągle różniczkowalną funkcją η , to

{\ Displaystyle {\ mathcal {ja}} _ {\ eta } (\ eta ) = {\ mathcal {ja}} _ {\ theta} (\ theta (\eta )) \ lewo ({\ Frac {d\ theta }{d\eta }}\prawo)^{2}}

gdzie i są miarami informacyjnymi Fishera odpowiednio η i θ . ${\mathcal {ja}}_{\eta}$ ${\ Displaystyle {\ mathcal {I}} _ {\ theta}}$

W przypadku wektora załóżmy i są k -wektorami, które parametryzują problem estymacji i załóżmy, że jest to ciągle różniczkowalna funkcja , wtedy, ${\boldsymbol {\theta}}$ ${\boldsymbol {\eta}}$ ${\boldsymbol {\theta}}$ ${\boldsymbol {\eta}}$

{\ Displaystyle {\ mathcal {ja}} _ {\ boldsymbol {\ eta}} ({\ boldsymbol {\eta}}) = {\ boldsymbol {J}} ^ {\ textsf {T}} {\ mathcal {ja }}_{\boldsymbol {\theta }}({\boldsymbol {\theta }}({\boldsymbol {\eta }})){\boldsymbol {J}}}

gdzie ( i , j )-ty element macierzy k × k jakobianu jest określony przez ${\boldsymbol {J}}$

{\ Displaystyle J_ {ij} = {\ Frac {\ częściowy \ theta _ {i}} {\ częściowy \ _ eta {j}}}}

i gdzie jest transpozycja macierzy ${\ Displaystyle {\ pogrubienie {J}} ^ {\ textsf {T}}}$ ${\boldsymbol {J}}.$

W geometrii informacyjnej jest to postrzegane jako zmiana współrzędnych na rozmaitości riemannowskiej , a wewnętrzne właściwości krzywizny pozostają niezmienione przy różnych parametryzacjach. Ogólnie rzecz biorąc, macierz informacji Fishera zapewnia metrykę Riemanna (dokładniej metrykę Fishera-Rao) dla różnorodności stanów termodynamicznych i może być używana jako miara złożoności informacji geometrycznej do klasyfikacji przejść fazowych , np. skalar Krzywizna termodynamicznego tensora metrycznego odbiega w (i tylko w) punkcie przejścia fazowego.

W kontekście termodynamicznym macierz informacji Fishera jest bezpośrednio powiązana z szybkością zmian odpowiednich parametrów porządku . W szczególności takie relacje identyfikują przejścia fazowe drugiego rzędu poprzez rozbieżności poszczególnych elementów macierzy informacyjnej Fishera.

Nierówność izoperymetryczna

Macierz informacji Fishera odgrywa rolę w nierówności, takiej jak nierówność izoperymetryczna . Ze wszystkich rozkładów prawdopodobieństwa o danej entropii ten, którego macierz informacyjna Fishera ma najmniejszy ślad, jest rozkładem Gaussa. To tak, jak ze wszystkich zbiorów ograniczonych o danej objętości kula ma najmniejszą powierzchnię.

Dowód polega na wzięciu wielowymiarowej zmiennej losowej z funkcją gęstości i dodaniu parametru lokalizacji w celu utworzenia rodziny gęstości . Następnie, przez analogię do wzoru Minkowskiego-Steinera , „pole powierzchni” definiuje się jako ${\ Displaystyle X}$ $f$ ${\ Displaystyle \ {f (x-\ theta) \ mid \ theta \ w \ mathbb {R} ^ {n} \}}$ ${\ Displaystyle X}$

{\ Displaystyle S (X) = \ lim _ {\ epsilon \ do 0} {\ Frac {e ^ {H (X + Z_ {\ epsilon})}}-e ^ {H (X)}} {\ epsilon} }}

gdzie jest zmienną Gaussa z macierzą kowariancji . Nazwa „powierzchnia” jest trafna, ponieważ siła entropii jest objętością „efektywnego zbioru podporowego”, podobnie jak „pochodna” objętości efektywnego zbioru podporowego, podobnie jak wzór Minkowskiego-Steinera. Pozostała część dowodu wykorzystuje nierówność potęgową entropii , która jest podobna do nierówności Brunna-Minkowskiego . Stwierdzono, że ślad macierzy informacyjnej Fishera jest czynnikiem . $Z_{\epsilon}$ ${\ Displaystyle \ epsilon I}$ ${\ Displaystyle e ^ {H (X)}}$ ${\ Displaystyle S (X)}$ ${\ Displaystyle S (X)}$

Aplikacje

Optymalny projekt eksperymentów

Informacje Fishera są szeroko stosowane w optymalnym projektowaniu eksperymentów . Z powodu wzajemności estymatora-wariancji danych Fisher, minimalizując przez wariancji odpowiada maksymalizuje się informacje .

Gdy liniowy (lub linearyzowany ) statystycznego modelu ma kilka parametrów The średnią estymatora parametrów jest wektor i jego odchylenie jest matryca . Odwrotność macierzy wariancji nazywana jest „macierzą informacji”. Ponieważ wariancja estymatora wektora parametrów jest macierzą, problem „minimalizacji wariancji” jest skomplikowany. Stosując teorię statystyczną , statystycy kompresują macierz informacji za pomocą statystyk podsumowujących o wartościach rzeczywistych ; będąc funkcjami o wartościach rzeczywistych, te „kryteria informacyjne” można maksymalizować.

Tradycyjnie statystycy oceniali estymatory i projekty, biorąc pod uwagę pewną sumaryczną statystykę macierzy kowariancji (nieobciążonego estymatora), zwykle o dodatnich wartościach rzeczywistych (takich jak wyznacznik lub zapis macierzy ). Praca z dodatnimi liczbami rzeczywistymi ma kilka zalet: Jeśli estymator pojedynczego parametru ma dodatnią wariancję, to zarówno wariancja, jak i informacja Fishera są dodatnimi liczbami rzeczywistymi; stąd są one członkami wypukłego stożka nieujemnych liczb rzeczywistych (których niezerowe elementy mają odwrotności w tym samym stożku).

Dla kilku parametrów macierze kowariancji i macierze informacyjne są elementami wypukłego stożka nieujemnych-określonych macierzy symetrycznych w częściowo uporządkowanej przestrzeni wektorowej , pod rzędem Loewnera (Löwnera). Stożek ten jest domknięty przy dodawaniu i odwracaniu macierzy, a także przy mnożeniu dodatnich liczb rzeczywistych i macierzy. W Pukelsheim pojawia się wykład teorii macierzy i porządku Loewnera.

Tradycyjne kryteria optymalności to niezmienniki macierzy informacji , w sensie teorii niezmienników ; algebraicznie, tradycyjne kryteria optymalności są Funkcjonały tych wartości własnych macierzy (Fisher) informacje (patrz optymalnego projektu ).

Jeffreys wcześniej w statystykach bayesowskich

W statystyce bayesowskiej informacje Fishera są używane do obliczania przedrostka Jeffreysa , który jest standardową, nieinformacyjną przedstawioną wartością przedstawioną dla parametrów rozkładu ciągłego.

Neuronauka obliczeniowa

Informacje Fishera zostały wykorzystane do znalezienia granic dokładności kodów neuronowych. W takim przypadku X jest zazwyczaj wspólną odpowiedzią wielu neuronów reprezentujących zmienną niskowymiarową θ (taką jak parametr bodźca). W szczególności zbadano rolę korelacji w szumie odpowiedzi neuronalnych.

Wyprowadzenie praw fizycznych

Informacje Fishera odgrywają kluczową rolę w kontrowersyjnej zasadzie przedstawionej przez Friedena jako podstawa praw fizycznych, twierdzenie, które zostało zakwestionowane.

Nauczanie maszynowe

Informacje Fishera są wykorzystywane w technikach uczenia maszynowego, takich jak elastyczna konsolidacja wag , która ogranicza katastrofalne zapominanie w sztucznych sieciach neuronowych .

Związek z entropią względną

Informacje Fishera są powiązane z entropią względną . Względna entropia lub rozbieżność Kullbacka-Leiblera między dwoma rozkładami i może być zapisana jako $p$ $q$

{\ Displaystyle KL (p: q) = \ int p (x) \ log {\ Frac {p (x)} {q (x)}} dx.}

Rozważmy teraz rodzinę rozkładów prawdopodobieństwa sparametryzowaną przez . Następnie rozbieżność Kullbacka-Leiblera między dwoma rozkładami w rodzinie można zapisać jako $f(x;\theta)$ ${\ Displaystyle \ theta \ w \ Theta}$

D(\theta,\theta')=KL(p(.;\theta):p(.;\theta'))=\int f(x;\theta)\log {\frac {f( x;\theta )}{f(x;\theta ')}}dx.

Jeśli jest ustalona, to względna entropia między dwoma rozkładami tej samej rodziny jest minimalizowana w . Dla close można rozszerzyć poprzednie wyrażenie w serii aż do drugiego rzędu: $\theta$ $\theta '=\theta$ ${\ Displaystyle \ theta '}$ $\theta$

{\ Displaystyle D (\ theta, \ theta ') = {\ Frac {1} {2}} (\ theta '- \ theta ) ^ {\ textsf {T}} \ lewo ({\ Frac {\ częściowy ^ { 2}}{\partial \theta '_{i}\,\partial \theta '_{j}}}D(\theta ,\theta ')\right)_{\theta '=\theta }(\theta '-\theta )+o\left((\theta '-\theta )^{2}\right)}

Ale pochodną drugiego rzędu można zapisać jako

{\ Displaystyle \ lewo ({\ Frac {\ częściowy ^ {2}} {\ częściowy \ theta '_ {i} \ \ częściowy \ theta _ {j}}} D (\ theta \ theta ') \ right)_{\theta '=\theta }=-\int f(x;\theta )\left({\frac {\partial ^{2}}{\partial \theta '_{i}\,\partial \theta '_{j}}}\log(f(x;\theta '))\right)_{\theta '=\theta }dx=[{\mathcal {I}}(\theta )]_{ ja,j}.}

Zatem informacja Fishera reprezentuje krzywiznę względnej entropii.

Historia

Informacje Fishera zostały omówione przez kilku wczesnych statystyków, w szczególności FY Edgewortha . Na przykład Savage mówi: „W tym [informacje Fishera], on [Fisher] był do pewnego stopnia oczekiwany (Edgeworth 1908-9, zwłaszcza 502, 507-8, 662, 677-8, 82-5 i przywołuje on [Edgeworth ] cytuje m.in. Pearsona i Filona 1898 [...])." Istnieje wiele wczesnych źródeł historycznych i wiele recenzji tej wczesnej pracy.

Zobacz też

Inne środki stosowane w teorii informacji :

Uwagi

Bibliografia

Cramér, Harald (1946). Matematyczne metody statystyki . Szeregi matematyczne Princeton. Princeton: Wydawnictwo Uniwersytetu Princeton. Numer ISBN 0691080046.
Edgeworth, FY (czerwiec 1908). „O prawdopodobnych błędach stałych częstotliwości” . Dziennik Królewskiego Towarzystwa Statystycznego . 71 (2): 381–397. doi : 10.2307/2339461 . JSTOR 2339461 .
Edgeworth, FY (wrzesień 1908). „O prawdopodobnych błędach stałych częstotliwości (cd.)” . Dziennik Królewskiego Towarzystwa Statystycznego . 71 (3): 499–512. doi : 10.2307/2339293 . JSTOR 2339293 .
Edgeworth, FY (grudzień 1908). „O prawdopodobnych błędach stałych częstotliwości (cd.)” . Dziennik Królewskiego Towarzystwa Statystycznego . 71 (4): 651–678. doi : 10.2307/2339378 . JSTOR 2339378 .
Fisher, RA (1922-01-01). „Na matematycznych podstawach statystyki teoretycznej” . Transakcje filozoficzne Royal Society of London, Seria A . 222 (594-604): 309-368. doi : 10.1098/rsta.1922.0009 .
Frieden, BR (2004) Science from Fisher Information: A Uniification . Uniwersytet Cambridge Naciskać. ISBN 0-521-00911-1 .
Frieden, B. Roy; Gatenby, Robert A. (2013). „Zasada maksymalnej informacji Fishera z aksjomatów Hardy'ego stosowanych do systemów statystycznych” . Przegląd fizyczny E . 88 (4): 042144. arXiv : 1405.0007 . Kod Bib : 2013PhRvE..88d2144F . doi : 10.1103/PhysRevE.88.042144 . PMC 4010149 . PMID 24229152 .
Hald, A. (maj 1999). „O historii maksymalnego prawdopodobieństwa w odniesieniu do odwrotnego prawdopodobieństwa i najmniejszych kwadratów” . Nauka statystyczna . 14 (2): 214–222. doi : 10.1214/ss/1009212248 . JSTOR 2676741 .
Hald, A. (1998). Historia statystyki matematycznej od 1750 do 1930 . Nowy Jork: Wiley. Numer ISBN 978-0-471-17912-2.
Lehmann, EL ; Casella, G. (1998). Teoria estymacji punktowej (wyd. 2). Skoczek. Numer ISBN 978-0-387-98502-2.
Le Cam, Lucien (1986). Metody asymptotyczne w statystycznej teorii decyzji . Springer-Verlag. Numer ISBN 978-0-387-96307-5.
Pratt, John W. (maj 1976). „FY Edgeworth i RA Fisher na temat efektywności szacowania maksymalnego prawdopodobieństwa” . Roczniki Statystyczne . 4 (3): 501–514. doi : 10.1214/aos/1176343457 . JSTOR 2958222 .
Rao, C. Radhakrishna (1945). „Informacje i dokładność osiągalna w szacowaniu parametrów statystycznych”. Biuletyn Towarzystwa Matematycznego Kalkuty . Seria Springera w statystyce. 37 : 81-91. doi : 10.1007/978-1-4612-0919-5_16 . Numer ISBN 978-0-387-94037-3.
Savage, LJ (maj 1976). „O ponownym czytaniu RA Fishera” . Roczniki Statystyczne . 4 (3): 441-500. doi : 10.1214/aos/1176343456 . JSTOR 2958221 .
Schervish, Mark J. (1995). Teoria statystyki . Nowy Jork: Springer. Numer ISBN 978-0-387-94546-0.
Stigler SM (1986). Historia statystyki: pomiar niepewności przed 1900 . Wydawnictwo Uniwersytetu Harvarda. Numer ISBN 978-0-674-40340-6.
Stigler SM (1978). „Francis Ysidro Edgeworth, statystyk” . Dziennik Królewskiego Towarzystwa Statystycznego, Seria A . 141 (3): 287–322. doi : 10.2307/2344804 . JSTOR 2344804 .
Stigler SM (1999). Statystyki na stole: historia pojęć i metod statystycznych . Wydawnictwo Uniwersytetu Harvarda. Numer ISBN 978-0-674-83601-3.
Van Drzewa, HL (1968). Teoria wykrywania, estymacji i modulacji, część I . Nowy Jork: Wiley. Numer ISBN 978-0-471-09517-0.

Languages

In other projects