Moc testu - Power of a test

Moc statystyczna testu hipotez binarnych to prawdopodobieństwo, że test poprawnie odrzuci hipotezę zerową ( ), gdy konkretna hipoteza alternatywna ( ) jest prawdziwa. Jest powszechnie oznaczany przez i reprezentuje szanse na „prawdziwie pozytywne” wykrycie, uzależnione od rzeczywistego istnienia efektu do wykrycia. Moc statystyczna waha się od 0 do 1, a wraz ze wzrostem mocy testu maleje prawdopodobieństwo popełnienia błędu typu II przez błędne odrzucenie hipotezy zerowej.

Notacja

W tym artykule zastosowano następującą notację

  • β = prawdopodobieństwo błędu typu II, znanego jako „fałszywie ujemny”
  • 1-β = prawdopodobieństwo „prawdziwie pozytywnego”, tj. poprawnego odrzucenia hipotezy zerowej. „1-β” jest również znany jako moc testu.
  • α = prawdopodobieństwo błędu typu I, znanego jako „fałszywie dodatni”
  • 1-α = prawdopodobieństwo „prawdziwie negatywnej”, tj. poprawnego nie odrzucenia hipotezy zerowej

Opis

Dla prawdopodobieństwa błędu typu II β , odpowiednia moc statystyczna wynosi 1 −  β . Na przykład, jeśli eksperyment E ma moc statystyczną 0,7, a eksperyment F ma moc statystyczną 0,95, to istnieje większe prawdopodobieństwo, że eksperyment E popełnił błąd typu II niż eksperyment F. Zmniejsza to czułość eksperymentu E w wykrywaniu znaczących efektów . Jednak eksperyment E jest w konsekwencji bardziej wiarygodny niż eksperyment F ze względu na mniejsze prawdopodobieństwo błędu typu I. Można ją równoważnie traktować jako prawdopodobieństwo zaakceptowania hipotezy alternatywnej ( ), gdy jest ona prawdziwa — to znaczy zdolność testu do wykrycia określonego efektu, jeśli ten konkretny efekt rzeczywiście istnieje. Zatem,

Jeśli nie jest równością, a raczej po prostu negacją (tak na przykład dla jakiegoś nieobserwowanego parametru populacji mamy po prostu ), to potęgi nie można obliczyć, chyba że znane są prawdopodobieństwa dla wszystkich możliwych wartości parametru, które naruszają hipotezę zerową. Tak więc generalnie odnosi się do mocy testu przeciwko konkretnej alternatywnej hipotezie .

Wraz ze wzrostem mocy maleje prawdopodobieństwo błędu typu II, zwanego również współczynnikiem fałszywie ujemnych ( β ), ponieważ moc jest równa 1 −  β . Podobnym pojęciem jest prawdopodobieństwo błędu I typu , określane również jako współczynnik wyników fałszywie dodatnich lub poziom testu przy hipotezie zerowej.

W kontekście klasyfikacji binarnej moc testu nazywana jest jego czułością statystyczną , współczynnikiem prawdziwie pozytywnych wyników lub prawdopodobieństwem wykrycia .

Analiza mocy

Pokrewnym pojęciem jest „analiza mocy”. Analiza mocy może być wykorzystana do obliczenia minimalnej wymaganej wielkości próbki, tak aby można było z rozsądnym prawdopodobieństwem wykryć wpływ danej wielkości . Na przykład: „Ile razy muszę rzucić monetą, aby stwierdzić, że jest sfałszowana na określoną kwotę?” Analiza mocy może być również wykorzystana do obliczenia minimalnej wielkości efektu, która prawdopodobnie zostanie wykryta w badaniu przy użyciu danej wielkości próby. Ponadto pojęcie mocy jest używane do porównywania różnych procedur testowania statystycznego: na przykład między testem parametrycznym a testem nieparametrycznym tej samej hipotezy.

Tło

Testy statystyczne wykorzystują dane z próbek do oceny populacji statystycznej lub wyciągania wniosków na jej temat . W konkretnym przypadku porównania dwóch prób celem jest ocena, czy średnie wartości jakiegoś atrybutu uzyskane dla osobników w dwóch subpopulacjach różnią się. Na przykład, aby przetestować hipotezę zerową, że średnie wyniki kobiet i mężczyzn w teście nie różnią się, losuje się próbki mężczyzn i kobiet, podaje się im test i porównuje średni wynik jednej grupy z wynikiem druga grupa za pomocą testu statystycznego, takiego jak dwupróbkowy test z . Siłą testu jest prawdopodobieństwo, że test znajdzie statystycznie istotną różnicę między mężczyznami i kobietami, jako funkcję wielkości prawdziwej różnicy między tymi dwiema populacjami.

Czynniki wpływające na moc

Moc statystyczna może zależeć od wielu czynników. Niektóre czynniki mogą zależeć od konkretnej sytuacji testowej, ale przynajmniej moc prawie zawsze zależy od następujących trzech czynników:

Kryterium istotności jest stwierdzenie jak mało pozytywny wynik musi być, jeśli hipoteza zerowa bezskuteczne jest prawdą, gdyż hipoteza zerowa zostać odrzucony. Najczęściej stosowanymi kryteriami są prawdopodobieństwa 0,05 (5%, 1 na 20), 0,01 (1%, 1 na 100) i 0,001 (0,1%, 1 na 1000). Jeżeli kryterium wynosi 0,05, prawdopodobieństwo, że dane implikują efekt co najmniej tak duży jak obserwowany efekt, gdy hipoteza zerowa jest prawdziwa, musi być mniejsze niż 0,05, aby hipoteza zerowa o braku efektu została odrzucona. Prostym sposobem na zwiększenie mocy testu jest przeprowadzenie mniej konserwatywnego testu przy użyciu większego kryterium istotności, na przykład 0,10 zamiast 0,05 . Zwiększa to szansę na odrzucenie hipotezy zerowej (uzyskanie wyniku istotnego statystycznie), gdy hipoteza zerowa jest fałszywa; to znaczy zmniejsza ryzyko błędu typu II (fałszywie negatywnego w odniesieniu do istnienia efektu). Ale zwiększa również ryzyko uzyskania wyniku istotnego statystycznie (odrzucenia hipotezy zerowej), gdy hipoteza zerowa nie jest fałszywa; oznacza to, że zwiększa ryzyko błędu I typu (fałszywie dodatniego).

Wielkość efektu odsetek w populacji można określić w kategoriach wielkości efektu , gdzie jest większa moc wykrywania większych efektów. Wielkość efektu może być bezpośrednią wartością ilości będącej przedmiotem zainteresowania lub może być standaryzowaną miarą, która również uwzględnia zmienność w populacji. Na przykład w analizie porównującej wyniki w leczonej i kontrolnej populacji różnica średnich wyników byłaby bezpośrednim oszacowaniem wielkości efektu, podczas gdy byłaby to szacowana standaryzowana wielkość efektu, gdzie jest wspólnym odchyleniem standardowym wyników w grupy leczone i kontrolne. Jeśli zostanie odpowiednio skonstruowany, znormalizowana wielkość efektu wraz z wielkością próbki całkowicie określi moc. Niestandaryzowana (bezpośrednia) wielkość efektu rzadko wystarcza do określenia mocy, ponieważ nie zawiera informacji o zmienności pomiarów.

Przykład wpływu wielkości próbki na poziomy mocy

Wielkość próbki określa wielkość błędu próbkowania związanego z wynikiem testu. Pozostałe czynniki są takie same, efekty są trudniejsze do wykrycia w mniejszych próbkach. Zwiększenie wielkości próby jest często najłatwiejszym sposobem na zwiększenie mocy statystycznej testu. To, jak zwiększona wielkość próbki przekłada się na wyższą moc, jest miarą skuteczności testu — na przykład wielkość próbki wymagana dla danej mocy.

Precyzja, z jaką mierzone są dane, również wpływa na moc statystyczną. W konsekwencji moc można często poprawić, zmniejszając błąd pomiaru w danych. Pokrewną koncepcją jest poprawa „wiarygodności” ocenianej miary (jak w przypadku rzetelności psychometrycznej ).

Projekt eksperymentu lub badania obserwacyjnego często wpływa na moc. Na przykład w sytuacji testowania dwóch prób przy danej całkowitej wielkości próby n , optymalne jest posiadanie równej liczby obserwacji z dwóch porównywanych populacji (o ile wariancje w dwóch populacjach są takie same). W analizie regresji i analizie wariancji istnieją obszerne teorie i praktyczne strategie poprawy potęgi oparte na optymalnym ustawieniu wartości zmiennych niezależnych w modelu.

Interpretacja

Chociaż nie ma formalnych standardów mocy (czasami określanych jako π ), większość badaczy ocenia moc swoich testów przy użyciu π  = 0,80 jako standardu adekwatności. Konwencja ta implikuje kompromis cztery do jednego między ryzykiem β a ryzykiem α . ( β jest prawdopodobieństwem błędu typu II, a α jest prawdopodobieństwem błędu typu I; 0,2 i 0,05 są wartościami konwencjonalnymi dla β i α ). Zdarzają się jednak sytuacje, w których ważenie 4 do 1 jest nieodpowiednie. Na przykład w medycynie testy często projektuje się w taki sposób, aby nie powstawały fałszywie negatywne (błędy typu II). Ale to nieuchronnie zwiększa ryzyko uzyskania fałszywie pozytywnego wyniku (błąd I typu). Uzasadnienie jest takie, że lepiej powiedzieć zdrowemu pacjentowi „być może coś znaleźliśmy – przetestujmy dalej”, niż choremu pacjentowi „wszystko jest w porządku”.

Analiza mocy jest odpowiednia, gdy chodzi o prawidłowe odrzucenie fałszywej hipotezy zerowej. W wielu kontekstach problem nie polega na ustaleniu, czy istnieje różnica, czy nie, ale raczej na uzyskaniu dokładniejszego oszacowania wielkości efektu populacji. Na przykład, jeśli spodziewaliśmy się, że populacyjna korelacja między inteligencją a wydajnością pracy wyniesie około 0,50, próbka o wielkości 20 da nam około 80% mocy ( α  = 0,05, dwustronna) do odrzucenia hipotezy zerowej o zerowej korelacji. Jednak przeprowadzając to badanie, prawdopodobnie bardziej interesuje nas, czy korelacja wynosi 0,30, 0,60 czy 0,50 . W tym kontekście potrzebowalibyśmy znacznie większej próby, aby zredukować przedział ufności naszych szacunków do zakresu, który jest akceptowalny dla naszych celów. Techniki podobne do tych stosowanych w tradycyjnej analizie mocy można wykorzystać do określenia wielkości próbki wymaganej, aby szerokość przedziału ufności była mniejsza niż podana wartość.

Wiele analiz statystycznych obejmuje oszacowanie kilku nieznanych wielkości. W prostych przypadkach wszystkie z wyjątkiem jednej z tych wielkości są parametrami uciążliwymi . W tym ustawieniu jedyna istotna moc odnosi się do pojedynczej wielkości, która zostanie poddana formalnemu wnioskowi statystycznemu. W niektórych sytuacjach, szczególnie jeśli cele są bardziej „eksploracyjne”, w analizie może pojawić się kilka interesujących wartości. Na przykład w analizie regresji wielokrotnej możemy uwzględnić kilka zmiennych towarzyszących potencjalnego zainteresowania. W sytuacjach takich jak ta, w których rozważanych jest kilka hipotez, powszechne jest, że uprawnienia związane z różnymi hipotezami są różne. Na przykład w analizie regresji wielokrotnej moc wykrywania efektu o danej wielkości jest powiązana z wariancją zmiennej towarzyszącej. Ponieważ różne współzmienne będą miały różne wariancje, ich moce również będą się różnić.

Każda analiza statystyczna obejmująca wiele hipotez podlega inflacji poziomu błędu typu I, jeśli nie zostaną podjęte odpowiednie środki. Takie środki zazwyczaj wiążą się z zastosowaniem wyższego progu rygorystyczności w celu odrzucenia hipotezy w celu skompensowania dokonywanych wielokrotnych porównań ( np. jak w metodzie Bonferroniego ). W tej sytuacji analiza mocy powinna odzwierciedlać podejście wielokrotnego testowania, które ma być zastosowane. Zatem, na przykład, dane badanie może być dobrze przystosowane do wykrycia pewnego rozmiaru efektu, gdy ma być wykonany tylko jeden test, ale ten sam rozmiar efektu może mieć znacznie mniejszą moc, jeśli ma być wykonanych kilka testów.

Ważne jest również uwzględnienie mocy statystycznej testu hipotezy podczas interpretacji jej wyników. Moc testu to prawdopodobieństwo poprawnego odrzucenia hipotezy zerowej, gdy jest ona fałszywa; na moc testu wpływa wybór poziomu istotności testu, wielkość mierzonego efektu oraz ilość dostępnych danych. Test hipotezy może nie odrzucić wartości zerowej, na przykład, jeśli istnieje prawdziwa różnica między dwiema populacjami porównywanymi za pomocą testu t, ale efekt jest mały, a wielkość próby jest zbyt mała, aby odróżnić efekt od losowego przypadku. Na przykład wiele badań klinicznych ma niską moc statystyczną w wykrywaniu różnic w niekorzystnych skutkach leczenia, ponieważ takie skutki mogą być rzadkie, a liczba dotkniętych nimi pacjentów niewielka.

Analiza a priori vs analiza post hoc

Analizę mocy można przeprowadzić przed ( analiza mocy a priori lub prospektywna) lub po zebraniu danych (analiza mocy post hoc lub retrospektywna). Analiza mocy a priori jest przeprowadzana przed badaniem badawczym i jest zwykle wykorzystywana do szacowania wielkości próby wystarczającej do uzyskania odpowiedniej mocy. Analiza post-hoc „obserwowanej mocy” jest przeprowadzana po zakończeniu badania i wykorzystuje uzyskaną wielkość próby i wielkość efektu do określenia, jaka była moc w badaniu, zakładając, że wielkość efektu w próbie jest równa wielkości efektu w populacji. Podczas gdy użyteczność prospektywnej analizy mocy w projektowaniu eksperymentów jest powszechnie akceptowana, analiza mocy post hoc jest zasadniczo wadliwa. Wpadnięcie w pokusę wykorzystania analizy statystycznej zebranych danych do oszacowania mocy będzie skutkowało wartościami nieinformacyjnymi i wprowadzającymi w błąd. W szczególności wykazano, że post-hoc „obserwowana moc” jest funkcją jeden-do-jednego z p -value osiągnięty. Zostało to rozszerzone, aby pokazać, że wszystkie analizy mocy post-hoc cierpią na tzw. „paradoks podejścia władzy” (PAP), w którym uważa się, że badanie z wynikiem zerowym pokazuje więcej dowodów na to, że hipoteza zerowa jest rzeczywiście prawdziwa, gdy p -value jest mniejszy, ponieważ moc pozorna wykryć rzeczywisty efekt byłby wyższy. W rzeczywistości, mniejsza wartość p jest właściwie rozumiana, aby hipoteza zerowa była stosunkowo mniej prawdopodobna.

Podanie

Agencje finansujące, rady ds. etyki i panele badawcze często proszą badacza o wykonanie analizy mocy, na przykład w celu określenia minimalnej liczby obiektów testów na zwierzętach potrzebnych, aby eksperyment miał charakter informacyjny. W statystykach częstych , mało prawdopodobne jest, aby badanie o słabych wynikach umożliwiło wybór między hipotezami o pożądanym poziomie istotności. W statystyce bayesowskiej nie przeprowadza się testowania hipotez typu stosowanego w klasycznej analizie potęgowej. W schemacie bayesowskim aktualizuje się swoje wcześniejsze przekonania na podstawie danych uzyskanych w danym badaniu. W zasadzie badanie, które można by uznać za niedostateczne z punktu widzenia testowania hipotez, nadal może być wykorzystywane w takim procesie aktualizacji. Jednak moc pozostaje użyteczną miarą tego, jak bardzo dany rozmiar eksperymentu może udoskonalić czyjeś przekonania. Badanie o małej mocy raczej nie doprowadzi do dużej zmiany przekonań.

Przykład

Poniżej znajduje się przykład, który pokazuje, jak obliczyć moc dla losowego eksperymentu: Załóżmy, że celem eksperymentu jest zbadanie wpływu leczenia na pewną ilość i porównanie badanych poprzez pomiar ilości przed i po leczeniu, analizując dane za pomocą sparowanego testu t . Niech i oznaczają odpowiednio środki przed i po leczeniu na pacjencie. Ewentualny efekt zabiegu powinien być widoczny w różnicach, które, jak się zakłada, mają rozkład niezależny, wszystkie o tej samej oczekiwanej wartości średniej i wariancji.

Efekt zabiegu można analizować za pomocą jednostronnego t-testu. Hipoteza zerowa bezskuteczne będzie, że średnia różnica wyniesie zero, czyli w tym przypadku hipoteza alternatywna stanowi pozytywny efekt, co odpowiada statystyka badania jest:

gdzie

n jest wielkością próbki i jest błędem standardowym. Statystyka testowa w ramach hipotezy zerowej jest zgodna z rozkładem t-Studenta z dodatkowym założeniem, że dane mają identyczny rozkład . Ponadto zakłada się, że hipoteza zerowa będą odrzucane na poziomie istotności z Ponieważ brak jest duża, można zbliżyć się do t-rozkład przez rozkład normalny i obliczyć wartość krytyczną pomocą odwrotna dystrybuanta , odwrotność dystrybuantę z normalna dystrybucja. Okazuje się, że hipoteza zerowa zostanie odrzucona, jeśli

Załóżmy teraz, że hipoteza alternatywna jest prawdziwa i . Wtedy moc jest

Dla dużego n , w przybliżeniu podąża za standardowym rozkładem normalnym, gdy alternatywna hipoteza jest prawdziwa, przybliżoną moc można obliczyć jako

Zgodnie z tym wzorem moc wzrasta wraz z wartościami parametru. Dla określonej wartości większą moc można uzyskać zwiększając wielkość próbki n .

Nie jest możliwe, aby zapewnić wystarczającą dużą moc dla wszystkich wartości , jak może być bardzo zbliżony do 0. Minimalna ( infimum ) wartość siły jest równy poziomowi ufności testu, w tym przykładzie 0.05. Nie ma jednak znaczenia rozróżnianie małych wartości dodatnich. Jeśli pożądane jest posiadanie wystarczającej mocy, powiedzmy co najmniej 0,90, do wykrycia wartości wymaganej wielkości próbki można obliczyć w przybliżeniu:

z czego wynika, że

Stąd za pomocą funkcji kwantyl

gdzie jest standardowym normalnym kwantylem; zapoznaj się z artykułem Probit, aby uzyskać wyjaśnienie związku między wartościami Z.

Rozbudowa

moc bayesowska

W ustawieniu częstościowym zakłada się, że parametry mają określoną wartość, która prawdopodobnie nie jest prawdziwa. Ten problem można rozwiązać, zakładając, że parametr ma rozkład. Uzyskana moc jest czasami nazywana mocą Bayesa, która jest powszechnie stosowana w projektowaniu badań klinicznych .

Przewidywane prawdopodobieństwo sukcesu

Zarówno moc częsta, jak i moc bayesowska wykorzystują istotność statystyczną jako kryterium sukcesu. Jednak istotność statystyczna często nie wystarcza do zdefiniowania sukcesu. Aby rozwiązać ten problem, koncepcję mocy można rozszerzyć na koncepcję przewidywanego prawdopodobieństwa sukcesu (PPOS). Kryterium sukcesu PPOS nie ogranicza się do istotności statystycznej i jest powszechnie stosowane w projektach badań klinicznych .

Oprogramowanie do obliczeń mocy i wielkości próbki

Dostępnych jest wiele darmowych i/lub open source programów do wykonywania obliczeń mocy i wielkości próbki. Obejmują one

  • G*Moc ( https://www.gpower.hhu.de/ )
  • WebPower Darmowa statystyczna analiza mocy online ( https://webpower.psychstat.org )
  • Darmowe i otwarte kalkulatory online ( https://powerandsamplesize.com )
  • Wzmocnienie! zapewnia wygodne funkcje oparte na programie Excel do określania minimalnej wykrywalnej wielkości efektu i minimalnej wymaganej wielkości próbki dla różnych projektów eksperymentalnych i quasi-eksperymentalnych.
  • PowerUpR to wersja pakietu R programu PowerUp! i dodatkowo zawiera funkcje do określania wielkości próby dla różnych wielopoziomowych randomizowanych eksperymentów z ograniczeniami budżetowymi lub bez nich.
  • Pakiet R
  • Pakiet R WebPower
  • Statsmodels pakietów Pythona ( https://www.statsmodels.org/ )

Zobacz też

Bibliografia

Źródła

Zewnętrzne linki