Test ilorazu prawdopodobieństwa — Likelihood-ratio test
W statystykach The Test ilorazu wiarygodności ocenia dobroci dopasowania dwóch konkurujących ze sobą modeli statystycznych w oparciu o stosunek ich wiarogodności , a konkretnie jeden znaleziony przez maksymalizację na całej przestrzeni parametrów i innym znaleźć po nakładające pewne ograniczenia . Jeśli ograniczenie (tj. hipoteza zerowa ) jest poparte obserwowanymi danymi , te dwa prawdopodobieństwa nie powinny różnić się o więcej niż błąd próbkowania . Zatem test ilorazu wiarygodności sprawdza, czy stosunek ten jest istotnie różny od jedności lub równoważnie, czy jego logarytm naturalny jest istotnie różny od zera.
Test ilorazu wiarygodności, znany również jako test Wilksa , jest najstarszym z trzech klasycznych podejść do testowania hipotez, wraz z testem mnożnika Lagrange'a i testem Walda . W rzeczywistości te dwa ostatnie mogą być konceptualizowane jako przybliżenia testu ilorazu wiarygodności i są asymptotycznie równoważne. W przypadku porównania dwóch modeli, z których każdy nie ma nieznanych parametrów , zastosowanie testu ilorazu wiarygodności można uzasadnić lematem Neymana–Pearsona . Lemat pokazuje, że test ma najwyższą moc spośród wszystkich konkurentów.
Definicja
Generał
Załóżmy, że mamy model statystyczny z przestrzenią parametrów . Hipoteza zerowa jest często stwierdził, mówiąc, że parametr jest określony podzbiór o . Hipoteza alternatywna jest zatem, że jest w uzupełnieniu do , tj , który jest oznaczony . Statystyka testu ilorazu wiarygodności dla hipotezy zerowej jest dana wzorem:
gdzie ilość w nawiasach nazywa się ilorazem prawdopodobieństwa. Tutaj notacja odnosi się do supremum . Ponieważ wszystkie wiarogodności są dodatnie, a ograniczone maksimum nie może przekroczyć nieograniczonego maksimum, iloraz wiarygodności jest ograniczony od zera do jednego.
Często statystyka testu ilorazu wiarygodności jest wyrażana jako różnica między logarytmicznymi prawdopodobieństwami
gdzie
jest logarytmem funkcji zmaksymalizowanej wiarygodności i jest wartością maksymalną w szczególnym przypadku, gdy hipoteza zerowa jest prawdziwa (ale niekoniecznie wartością, która maksymalizuje dla próbkowanych danych) oraz
oznaczają odpowiednie argumenty maksimów i dozwolone zakresy, w których są one osadzone. Mnożenie przez -2 zapewnia matematycznie, że (według twierdzenia Wilksa ) zbiega się asymptotycznie do rozkładu χ ², jeśli hipoteza zerowa okaże się prawdziwa. Te dystrybucje Przykładowe skończonych testów ilorazu wiarygodności są powszechnie znane.
Test ilorazu wiarygodności wymaga, aby modele były zagnieżdżone – tzn. bardziej złożony model można przekształcić w model prostszy poprzez nałożenie ograniczeń na parametry tego pierwszego. Wiele wspólnych statystyka badań są testy dla zagnieżdżonych modeli i może być sformułowane jako stosunek log-prawdopodobieństwa kontynuacji lub ich przybliżeń: EG Z -test The F -test The G -test i testy chi-kwadrat Pearsona ; ilustracja z testem t dla jednej próbki , patrz poniżej.
Jeśli modele nie są zagnieżdżone, to zamiast testu ilorazu wiarygodności istnieje uogólnienie testu, którego zwykle można użyć: aby uzyskać szczegółowe informacje, zobacz wiarygodność względną .
Przypadek prostych hipotez
Test hipotezy prostej i prostej ma całkowicie określone modele zarówno w ramach hipotezy zerowej, jak i hipotezy alternatywnej, które dla wygody są zapisane w postaci stałych wartości parametru umownego :
W tym przypadku, przy obu hipotezach, rozkład danych jest w pełni sprecyzowany: nie ma nieznanych parametrów do oszacowania. W tym przypadku dostępny jest wariant testu ilorazu wiarygodności:
Niektóre starsze odniesienia mogą używać odwrotności funkcji powyżej jako definicji. Zatem iloraz wiarygodności jest mały, jeśli model alternatywny jest lepszy niż model zerowy.
Test ilorazu wiarygodności zapewnia następującą regułę decyzyjną:
- Jeśli , nie odrzucaj ;
- Jeśli , odrzuć ;
- Odrzuć z prawdopodobieństwem, jeśli
Wartości i są zwykle wybierane w celu uzyskania określonego poziomu istotności , poprzez relację
Neyman-Pearson lemat mówi, że ten test ilorazu wiarygodności jest najpotężniejszym spośród wszystkich poziomów testów dla tej sprawy.
Interpretacja
Współczynnik wiarygodności jest funkcją danych ; dlatego jest to statystyka , chociaż niezwykła, ponieważ wartość statystyki zależy od parametru, . Test ilorazu wiarygodności odrzuca hipotezę zerową, jeśli wartość tej statystyki jest zbyt mała. To, jak małe jest za małe, zależy od poziomu istotności testu, tj. od tego, jakie prawdopodobieństwo błędu typu I jest uznawane za dopuszczalne (błędy typu I polegają na odrzuceniu prawdziwej hipotezy zerowej).
Licznik odpowiada prawdopodobieństwa wyniku obserwowanego pod hipotezy zerowej . W mianownik odpowiada maksymalnej prawdopodobieństwa obserwowanego rezultatu, różne parametry ciągu całej przestrzeni parametrów. Licznik tego stosunku jest mniejszy niż mianownik; tak więc iloraz wiarygodności mieści się w przedziale od 0 do 1. Niskie wartości ilorazu prawdopodobieństwa oznaczają, że obserwowany wynik był znacznie mniej prawdopodobny w przypadku hipotezy zerowej w porównaniu z alternatywą. Wysokie wartości statystyki oznaczają, że obserwowany wynik był prawie tak samo prawdopodobny w przypadku hipotezy zerowej jak alternatywy, a zatem hipotezy zerowej nie można odrzucić.
Przykład
Poniższy przykład jest dostosowany i skrócony z Stuart, Ord & Arnold (1999 , §22.2).
Załóżmy, że mamy losową próbkę o rozmiarze n z populacji, która ma rozkład normalny. Zarówno średnia μ , jak i odchylenie standardowe σ populacji są nieznane. Chcemy sprawdzić, czy średnia jest równa danej wartości μ 0 .
Zatem nasza hipoteza zerowa to H 0 : μ = μ 0 , a nasza alternatywna hipoteza to H 1 : μ ≠ μ 0 . Funkcja wiarygodności to
Przy pewnych obliczeniach (pominiętych tutaj) można wykazać, że
gdzie T jest t -statistic z n - 1 stopni swobody. Dlatego możemy użyć znanego dokładnego rozkładu t n -1 do wyciągnięcia wniosków.
Rozkład asymptotyczny: twierdzenie Wilksa
Jeżeli rozkład ilorazu prawdopodobieństwa odpowiadającego konkretnej hipotezie zerowej i alternatywnej może być wyraźnie określony, to można go bezpośrednio wykorzystać do utworzenia obszarów decyzyjnych (do podtrzymania lub odrzucenia hipotezy zerowej). W większości przypadków jednak dokładny rozkład ilorazu wiarygodności odpowiadający konkretnym hipotezom jest bardzo trudny do ustalenia.
Zakładając, że H 0 jest prawdziwe, istnieje fundamentalny wynik Samuela S. Wilksa : W miarę zbliżania się wielkości próby zdefiniowana powyżej statystyka testowa będzie miała rozkład asymptotyczny chi-kwadrat ( ) ze stopniami swobody równymi różnicy w wymiarach i . Oznacza to, że dla wielu różnych hipotez możemy obliczyć iloraz wiarygodności danych, a następnie porównać obserwowaną z wartością odpowiadającą pożądanej istotności statystycznej jako przybliżony test statystyczny. Istnieją inne rozszerzenia.
Zobacz też
- Kryterium informacji Akaike
- Współczynnik Bayesaes
- Test Johansena
- Wybór modelu
- Test bliskości Vuonga
- Test Sup-LR
- Wykładniki błędu w testowaniu hipotez
Bibliografia
Dalsza lektura
- Glovera, Scotta; Dixon, Peter (2004), „Wskaźniki prawdopodobieństwa: prosta i elastyczna statystyka dla psychologów empirycznych”, Psychonomic Bulletin & Review , 11 (5): 791-806, doi : 10,3758/BF03196706
- Trzymany, Leonhard; Sabanés Bové, Daniel (2014), Stosowane wnioskowanie statystyczne — prawdopodobieństwo i Bayes , Springer
- Kalbfleisch, JG (1985), Prawdopodobieństwo i wnioskowanie statystyczne , 2 , Springer-Verlag
- Perlman, Michael D.; Wu, Lang (1999), "Nowe testy cesarza", Statistical Science , 14 (4): 355-381, doi : 10.1214/ss/1009212517
- Perneger, Thomas V. (2001), „Przesiewanie dowodów: Wskaźniki prawdopodobieństwa są alternatywami dla wartości P”, The BMJ , 322 (7295): 1184-5, doi : 10.1136/bmj.322.7295.1184 , PMC 1120301 , PMID 11379590
- Pinheiro, José C.; Bates, Douglas M. (2000), Modele efektów mieszanych w S i S-PLUS , Springer-Verlag , s. 82-93
- Solomon, Daniel L. (1975), „Uwaga na temat nierównoważności testów Neymana-Pearsona i uogólnionych testów ilorazu wiarygodności do testowania prostej hipotezy zerowej w porównaniu z prostą hipotezą alternatywną” (PDF) , The American Statistician , 29 (2) : 101–102, doi : 10.1080/00031305.1975.10477383 , hdl : 1813/32605