Wynik (statystyki) - Score (statistics)

W statystyk The wynik (lub informator ) jest gradientu w funkcji log wiarogodności względem wektora parametru . Oceniany w konkretnym punkcie wektora parametrów, wynik wskazuje na stromość funkcji logarytmicznego prawdopodobieństwa, a tym samym wrażliwość na nieskończenie małe zmiany wartości parametrów. Jeśli funkcja logarytmu wiarygodności jest ciągła w przestrzeni parametrów , wynik zniknie przy lokalnym maksimum lub minimum ; fakt ten jest wykorzystywany w szacowaniu największego prawdopodobieństwa aby znaleźć wartości parametrów, które maksymalizują funkcję wiarygodności.

Ponieważ wynik jest funkcją obserwacji , które podlegają błędowi próbkowania , nadaje się do statystyki testowej znanej jako test na wynik, w którym parametr jest utrzymywany na określonej wartości. Co więcej, stosunek dwóch funkcji wiarygodności oszacowanych przy dwóch różnych wartościach parametrów można rozumieć jako całkę określoną z funkcji punktacji.

Definicja

Wynik jest nachylenie (wektor pochodnych cząstkowych ) z The logarytmu naturalnego z funkcji prawdopodobieństwa , w odniesieniu do w m -wymiarowego wektora parametru . $\log {\mathcal {L}}(\theta)$ $\theta$

s(\theta)\equiv {\frac {\częściowy \log {\mathcal {l}}(\theta)}{\częściowy \theta}}

W ten sposób różnicowanie daje wektor wierszowy i wskazuje wrażliwość prawdopodobieństwa (jego pochodną znormalizowaną przez jej wartość). $(1\razy m)$

W starszej literaturze „punktacja liniowa” może odnosić się do partytury w odniesieniu do nieskończenie małego przełożenia danej gęstości. Konwencja ta wywodzi się z czasów, gdy głównym parametrem zainteresowania była średnia lub mediana rozkładu. W tym przypadku prawdopodobieństwo obserwacji określa gęstość formularza . „Wynik liniowy” jest następnie definiowany jako ${\mathcal {L}}(\theta;X)=f(X+\theta)$

{\ Displaystyle s_ {\ rm {liniowy}} = {\ Frac {\ częściowy} {\ częściowy X}} \ log f (X)}

Nieruchomości

Mieć na myśli

O ile wynik jest funkcją , to zależy również od obserwacji, na których oceniana jest funkcja wiarygodności, a ze względu na losowy charakter próbkowania można przenosić jego wartość oczekiwaną na przestrzeń próby . W pewnych warunkach regularności na funkcjach gęstości zmiennych losowych oczekiwana wartość wyniku, oszacowana przy prawdziwej wartości parametru , wynosi zero. Aby to zobaczyć, przepisz funkcję wiarygodności jako funkcję gęstości prawdopodobieństwa i oznacz przestrzeń próbki . Następnie: $\theta$ ${\ Displaystyle \ mathbf {x} = (x_ {1}, x_ {2}, \ ldots x_ {T})}$ $\theta$ ${\mathcal {L}}$ ${\mathcal {L}}(\theta;x)=f(x;\theta)$ ${\mathcal {X}}$

{\ Displaystyle {\ zacząć {wyrównany} \ nazwa operatora {E} (s \ mid \ theta) & = \ int _ {\ mathcal {X}} f (x; \ theta) {\ frac {\ częściowy} {\ częściowy \theta }}\log {\mathcal {L}}(\theta ;x)\,dx\\[6pt]&=\int _{\mathcal {X}}f(x;\theta ){\frac { 1}{f(x;\theta )}}{\frac {\partial f(x;\theta )}{\partial \theta }}\,dx=\int _{\mathcal {X}}{\frac {\częściowy f(x;\theta )}{\częściowy \theta }}\,dx\end{wyrównany}}}

Przyjęte warunki regularności pozwalają na zamianę pochodnej i całki (patrz reguła całkowa Leibniza ), stąd powyższe wyrażenie można przepisać jako

{\ Displaystyle {\ Frac {\ częściowy }{\ częściowy \ theta}} \ int _ {\ mathcal {X}} f (x; \ theta) \, dx = {\ Frac {\ częściowy} {\ częściowy \ teta }}1=0.}

Powyższy wynik warto powtórzyć słowami: oczekiwana wartość wyniku to zero. Tak więc, gdyby ktoś wielokrotnie pobierał próbki z jakiegoś rozkładu i wielokrotnie obliczał wynik, to średnia wartość wyników miałaby tendencję do asymptotycznie zerowej wartości .

Zmienność

Odchylenie od wyniku, mogą być uzyskane z powyżej wyrażenie dla wartości oczekiwanej. ${\ Displaystyle \ operatorname {Var} (s (\ theta )) = \ operatorname {E} (s (\ theta) s (\ theta) ^ {\ mathsf {T}})}$

{\ Displaystyle {\ zacząć {wyrównany} 0 i = {\ Frac {\ częściowy} {\ częściowy \ theta ^ {\ mathsf {T}}}} \ operatorname {E} (s \ mid \ theta) \ \ [6pt] &={\frac {\partial }{\partial \theta ^{\mathsf {T}}}}\int _{\mathcal {X}}{\frac {\partial \log {\mathcal {L}}( \theta ;X)}{\partial \theta }}f(x;\theta )\,dx\\[6pt]&=\int _{\mathcal {X}}{\frac {\partial }{\partial \theta ^{\mathsf {T}}}}\left\{{\frac {\partial \log {\mathcal {L}}(\theta ;X)}{\partial \theta }}f(x;\ theta )\right\}\,dx\\[6pt]&=\int _{\mathcal {X}}\left\{{\frac {\partial ^{2}\log {\mathcal {L}}( \theta ;X)}{\partial \theta \partial \theta ^{\mathsf {T}}}}f(x;\theta )+{\frac {\partial \log {\mathcal {L}}(\ theta ;X)}{\partial \theta }}{\frac {\partial f(x;\theta )}{\partial \theta ^{\mathsf {T}}}}\right\}\,dx\\ [6pt]&=\int _{\mathcal {X}}{\frac {\partial ^{2}\log {\mathcal {L}}(\theta ;X)}{\partial \theta \partial \theta ^{\mathsf {T}}}}f(x;\theta )\,dx+\int _{\mathcal {X}}{\frac {\partial \log {\mathcal {L}}(\theta ;X )}{\częściowy \theta}}{\frac {\częściowy l {\mathcal {L}}(\theta ;X)}{\partial \theta ^{\mathsf {T}}}}\,dx\\[6pt]&=\int _{\mathcal {X}} {\frac {\partial ^{2}\log {\mathcal {L}}(\theta ;X)}{\partial \theta \partial \theta ^{\mathsf {T}}}}f(x;\ theta )\,dx+\int _{\mathcal {X}}{\frac {\partial \log {\mathcal {L}}(\theta ;X)}{\partial \theta }}{\frac {\partial \log {\mathcal {L}}(\theta ;X)}{\partial \theta ^{\mathsf {T}}}}f(x;\theta )\,dx\\[6pt]&=\operatorname {E} \left({\frac {\partial ^{2}\log {\mathcal {L}}(\theta ;X)}{\partial \theta \partial \theta ^{\mathsf {T}}} }\right)+\operatorname {E} \left({\frac {\partial \log {\mathcal {L}}(\theta ;X)}{\partial \theta }}\left[{\frac {\ częściowa \log {\mathcal {L}}(\theta ;X)}{\partial \theta }}\right]^{\mathsf {T}}\right)\end{aligned}}}

Stąd wariancja wyniku jest równa ujemnej wartości oczekiwanej hessowskiej macierzy logarytmicznego prawdopodobieństwa.

{\ Displaystyle \ operatorname {E} (s (\ theta) s (\ theta) ^ {\ mathsf {T}}) = - \ operatorname {E} \ lewo ({\ Frac {\ częściowy ^ {2} \ log {\mathcal {L}}}{\partial \theta \partial \theta ^{\mathsf {T}}}}\right)}

Ta ostatnia jest znana jako informacja Fishera i jest napisana . Zauważ, że informacja Fishera nie jest funkcją żadnej konkretnej obserwacji, ponieważ zmienna losowa została uśredniona. Ta koncepcja informacji jest użyteczna przy porównywaniu dwóch metod obserwacji pewnego procesu losowego . ${\mathcal {I}}(\theta)$ ${\ Displaystyle X}$

Przykłady

Proces Bernoulliego

Rozważ obserwowanie pierwszych n prób procesu Bernoulliego i zobaczenie, że A z nich to sukcesy, a pozostałe B to niepowodzenia, gdzie prawdopodobieństwo sukcesu wynosi θ .

Wtedy prawdopodobieństwo jest ${\mathcal {L}}$

{\ Displaystyle {\ mathcal {L}} (\ theta; A, B) = {\ Frac {(A + B)!} {A! B!}} \ theta ^ {A} (1-\ theta) ^ {B},}

więc wynik s to

{\ Displaystyle s = {\ Frac {1} {\ mathcal {l}}}{\ Frac {\ częściowy {\ mathcal {l}}}{\ częściowy \ theta}} = {\ Frac {A} {\ theta }}-{\frac {B}{1-\theta }}.}

Możemy teraz zweryfikować, że oczekiwany wynik wynosi zero. Zauważając, że oczekiwaniem A jest nθ, a oczekiwaniem B jest n (1 − θ ) [przypominamy, że A i B są zmiennymi losowymi], widzimy, że oczekiwanie s jest

{\ Displaystyle E (s) = {\ Frac {n \ theta} {\ theta}} - {\ Frac {n (1-\ theta)} {1-\ theta}} = nn = 0.}

Możemy również sprawdzić wariancję . Wiemy, że A + B = n (więc B = n − A ) i wariancja A wynosi nθ (1 − θ ), więc wariancja s wynosi $s$

{\ Displaystyle {\ zacząć {wyrównany} \ nazwa operatora {zmienna} (s) & = \ nazwa operatora {zmienna} \ lewo ({\ Frac {A} {\ theta}} - {\ Frac {nA} {1-\ theta }}\right)=\operatorname {var} \left(A\left({\frac {1}{\theta }}+{\frac {1}{1-\theta }}\right)\right)\ \&=\left({\frac {1}{\theta }}+{\frac {1}{1-\theta }}\right)^{2}\operatorname {var} (A)={\frac {n}{\theta (1-\theta )}}.\end{wyrównany}}}

Binarny model wynikowy

W przypadku modeli z wynikami binarnymi ( Y = 1 lub 0), model można oceniać za pomocą logarytmu predykcji

{\ Displaystyle S = Y \ log (p) + (1-Y) (\ log (1-p))}

gdzie p jest prawdopodobieństwem w modelu do oszacowania, a S jest wynikiem.

Aplikacje

Algorytm punktacji

Algorytm punktacji jest iteracyjną metodą numerycznego określania estymatora największej wiarygodności .

Test punktacji

Zauważ, że jest to funkcja i obserwacja , więc generalnie nie jest to statystyka . Jednak w niektórych aplikacjach, takich jak wynik test , wynik jest oceniany na podstawie określonej wartości (takiej jak wartość hipotezy zerowej), w którym to przypadku wynikiem jest statystyka. Intuicyjnie, jeśli ograniczony estymator jest bliski maksimum funkcji wiarygodności, wynik nie powinien różnić się od zera o więcej niż błąd próbkowania . W 1948 roku, CR Rao pierwszy wykazały, że kwadrat wyniku podzielonej przez matrycę informacji następuje asymptotyczny × ² -Dystrybucja mocy hipotezy zerowej. $s$ $\theta$ ${\ Displaystyle \ mathbf {x} = (x_ {1}, x_ {2}, \ ldots x_ {T})}$ $\theta$

Dalej zauważ, że test ilorazu wiarygodności jest podany przez

{\ Displaystyle -2 \ lewo [\ log {\ mathcal {l}} (\ theta _ {0}) - \ log {\ mathcal {l}} ({\ kapelusz {\ theta}}) \ po prawej] = 2 \int _{\theta _{0}}^{\hat {\theta }}{\frac {d\,\log {\mathcal {L}}(\theta )}{d\theta }}\,d \theta =2\int _{\theta _{0}}^{\hat {\theta }}s(\theta )\,d\theta }

co oznacza, że test ilorazu wiarygodności można rozumieć jako obszar pod funkcją punktacji między a . ${\ Displaystyle \ theta _ {0}}$ ${\kapelusz {\theta}}$

Zobacz też

Uwagi

Bibliografia

Chentsov, NN (2001) [1994], "Informant" , Encyklopedia Matematyki , EMS Press
Cox, DR; Hinkley, DV (1974). Statystyka teoretyczna . Chapmana i Halla. Numer ISBN 0-412-12420-3.
Schervish, Mark J. (1995). Teoria statystyki . Nowy Jork: Springer. Sekcja 2.3.1. Numer ISBN 0-387-94546-6.

Languages

In other projects