Test chi-kwadrat Pearsona - Pearson's chi-squared test
Test chi-kwadrat Pearsona ( ) jest testem statystycznym stosowanym do zestawów danych kategorycznych w celu oceny prawdopodobieństwa, że jakakolwiek zaobserwowana różnica między zestawami powstała przypadkowo. Jest to najszerzej stosowany z wielu testów chi-kwadrat (np. Yates , iloraz wiarygodności , test portmanteau w szeregach czasowych itp.) – procedury statystyczne , których wyniki są oceniane przez odniesienie do rozkładu chi-kwadrat . Jego właściwości zostały po raz pierwszy zbadane przez Karl Pearson w roku 1900. W sytuacjach, gdzie ważne jest, aby poprawić rozróżnienie pomiędzy statystykę testowąi jego rozmieszczenie stosuje się nazwy podobne do testu χ-kwadrat Pearsona lub statystyki.
Sprawdza się hipotezę zerową stwierdzające, że rozkład częstości pewnych zdarzeń obserwowanych w próbce jest zgodny z określonym rozkładem teoretycznym. Rozważane zdarzenia muszą się wzajemnie wykluczać i mieć całkowite prawdopodobieństwo 1. Typowym przypadkiem jest sytuacja, w której każde zdarzenie obejmuje wynik zmiennej kategorycznej . Prostym przykładem jest hipoteza, że zwykła kostka sześciościenna jest „sprawiedliwa” (tj. wszystkie sześć wyników ma jednakowe prawdopodobieństwo wystąpienia).
Definicja
Test chi-kwadrat Pearsona służy do oceny trzech typów porównań: dobroci dopasowania , jednorodności i niezależności .
- Test dobroci dopasowania pozwala ustalić, czy obserwowany rozkład częstotliwości różni się od rozkładu teoretycznego.
- Test jednorodności porównuje rozkład liczebności dla dwóch lub więcej grup przy użyciu tej samej zmiennej kategorycznej (np. wybór działalności – szkoła, wojsko, praca, podróże – absolwentów liceum zgłaszanych rok po ukończeniu studiów, posortowanych według roku ukończenia, sprawdzić, czy liczba absolwentów wybierających daną działalność zmieniła się z klasy na klasę lub z dekady na dekadę).
- Test niezależności ocenia, czy obserwacje składające się z miar dotyczących dwóch zmiennych, wyrażone w tabeli kontyngencji , są od siebie niezależne (np. ankiety od osób różnych narodowości, aby sprawdzić, czy czyjaś narodowość ma związek z odpowiedzią).
Dla wszystkich trzech testów procedura obliczeniowa obejmuje następujące kroki:
- Oblicz testu chi-kwadrat statystykę , , który przypomina znormalizowanej sumy kwadratów odchyleń między obserwowaną a teoretycznych częstotliwości (patrz poniżej).
- Określić stopnie swobody , df , tej statystyki.
- Dla testu dobroci dopasowania df = Cats − Parms , gdzie Cats to liczba kategorii obserwacji rozpoznanych przez model, a Parms to liczba parametrów w modelu dostosowanych tak, aby model najlepiej pasował do obserwacji: liczba kategorii pomniejszona o liczbę dopasowanych parametrów w rozkładzie.
- W przypadku testu jednorodności df = (Wiersze − 1)×(Kolumny − 1) , gdzie Rzędy odpowiada liczbie kategorii (tzn. wierszy w powiązanej tabeli kontyngencji), a Cols odpowiada liczbie niezależnych grup (tzn. kolumn w powiązanej tabeli awaryjnej).
- Dla testu niezależności df = (Rows − 1)×(Cols − 1) , gdzie w tym przypadku Rows odpowiada liczbie kategorii w jednej zmiennej, a Cols odpowiada liczbie kategorii w drugiej zmiennej.
- Wybierz żądany poziom ufności ( poziom istotności , wartość p lub odpowiedni poziom alfa ) dla wyniku testu.
- Porównaj z wartością krytyczną z rozkładu chi-kwadrat z df stopniami swobody i wybranym poziomem ufności (jednostronnie, ponieważ test jest tylko w jednym kierunku, tj. czy wartość testowa jest większa niż wartość krytyczna?), która w wiele przypadków daje dobre przybliżenie rozkładu .
- Podtrzymaj lub odrzuć hipotezę zerową, że obserwowany rozkład częstości jest taki sam jak rozkład teoretyczny na podstawie tego, czy statystyka testowa przekracza wartość krytyczną . Jeśli statystyka testowa przekracza wartość krytyczną , hipotezy zerowej ( = nie ma różnicy między rozkładami) można odrzucić i hipoteza alternatywna ( = nie ma różnicy między rozkładu) może zostać przyjęte, zarówno przy wybranym poziomie zaufania. Jeśli statystyka testowa spadnie poniżej wartości progowej , nie można wyciągnąć jednoznacznych wniosków i hipoteza zerowa zostaje podtrzymana (nie odrzucamy hipotezy zerowej), choć niekoniecznie akceptowana.
Test dopasowania rozkładu
Dyskretny rozkład równomierny
W tym przypadku obserwacje są dzielone między komórki. Prostym zastosowaniem jest przetestowanie hipotezy, że w populacji ogólnej wartości występowałyby w każdej komórce z jednakową częstotliwością. „Częstotliwość teoretyczna” dla dowolnej komórki (przy hipotezie zerowej o dyskretnym rozkładzie jednostajnym ) jest zatem obliczana jako
a zmniejszenie stopni swobody jest teoretycznie , ponieważ obserwowane częstotliwości są ograniczone do sumy .
Jednym konkretnym przykładem jego zastosowania może być jego zastosowanie do testu log-rank.
Inne dystrybucje
Podczas testowania, czy obserwacje są zmiennymi losowymi, których rozkład należy do danej rodziny rozkładów, „częstotliwości teoretyczne” są obliczane przy użyciu rozkładu z tej rodziny dopasowanego w pewien standardowy sposób. Zmniejszenie stopni swobody jest obliczane jako , gdzie jest liczbą parametrów użytych do dopasowania rozkładu. Na przykład podczas sprawdzania trójparametrowego Uogólnionego rozkładu gamma , , oraz podczas sprawdzania rozkładu normalnego (gdzie parametrami są średnia i odchylenie standardowe) , oraz podczas sprawdzania rozkładu Poissona (gdzie parametr jest wartością oczekiwaną) . Tak więc będą stopnie swobody, gdzie jest liczba kategorii.
Stopnie swobody nie są oparte na liczbie obserwacji, jak w przypadku rozkładu t - Studenta lub F . Na przykład, jeśli testujemy uczciwą, sześciościenną wykrojnik , będzie pięć stopni swobody, ponieważ istnieje sześć kategorii lub parametrów (każda liczba); liczba rzutów kostką nie wpływa na liczbę stopni swobody.
Obliczanie statystyki testowej
Wartości krytyczne górnego ogona rozkładu chi-kwadrat | |||||
---|---|---|---|---|---|
Stopnie z wolności |
Prawdopodobieństwo mniejsze niż wartość krytyczna | ||||
0,90 | 0,95 | 0,975 | 0,99 | 0,999 | |
1 | 2,706 | 3,841 | 5.024 | 6,635 | 10.828 |
2 | 4,605 | 5,991 | 7,378 | 9.210 | 13,816 |
3 | 6.251 | 7,815 | 9,348 | 11.345 | 16.266 |
4 | 7,779 | 9,488 | 11.143 | 13.277 | 18.467 |
5 | 9,236 | 11.070 | 12,833 | 15.086 | 20,515 |
6 | 10.645 | 12.592 | 14.449 | 16.812 | 22.458 |
7 | 12.017 | 14.067 | 16.013 | 18.475 | 24,322 |
8 | 13.362 | 15,507 | 17,535 | 20.090 | 26.125 |
9 | 14.684 | 16.919 | 19.023 | 21,666 | 27,877 |
10 | 15,987 | 18.307 | 20,483 | 23.209 | 29,588 |
11 | 17,275 | 19,675 | 21.920 | 24,725 | 31.264 |
12 | 18,549 | 21.026 | 23,337 | 26,217 | 32,910 |
13 | 19.812 | 22,362 | 24,736 | 27,688 | 34.528 |
14 | 21,064 | 23.685 | 26.119 | 29.141 | 36.123 |
15 | 22.307 | 24,996 | 27,488 | 30,578 | 37,697 |
16 | 23,542 | 26,296 | 28.845 | 32.000 | 39,252 |
17 | 24,769 | 27,587 | 30.191 | 33.409 | 40,790 |
18 | 25.989 | 28.869 | 31,526 | 34,805 | 42,312 |
19 | 27.204 | 30,144 | 32,852 | 36,191 | 43.820 |
20 | 28.412 | 31.410 | 34.170 | 37,566 | 45.315 |
21 | 29,615 | 32,671 | 35,479 | 38,932 | 46,797 |
22 | 30,813 | 33.924 | 36,781 | 40,289 | 48,268 |
23 | 32.007 | 35,172 | 38,076 | 41,638 | 49,728 |
24 | 33.196 | 36,415 | 39,364 | 42.980 | 51,179 |
25 | 34,382 | 37,652 | 40.646 | 44,314 | 52,620 |
26 | 35,563 | 38,885 | 41,923 | 45,642 | 54.052 |
27 | 36,741 | 40,113 | 43.195 | 46,963 | 55.476 |
28 | 37,916 | 41,337 | 44,461 | 48,278 | 56,892 |
29 | 39,087 | 42,557 | 45,722 | 49,588 | 58.301 |
30 | 40,256 | 43,773 | 46,979 | 50,892 | 59,703 |
31 | 41,422 | 44,985 | 48.232 | 52,191 | 61.098 |
32 | 42,585 | 46.194 | 49.480 | 53.486 | 62.487 |
33 | 43,745 | 47.400 | 50,725 | 54,776 | 63.870 |
34 | 44,903 | 48.602 | 51,966 | 56,061 | 65.247 |
35 | 46.059 | 49,802 | 53.203 | 57,342 | 66,619 |
36 | 47.212 | 50,998 | 54.437 | 58.619 | 67,985 |
37 | 48,363 | 52.192 | 55.668 | 59,893 | 69,347 |
38 | 49,513 | 53,384 | 56,896 | 61,162 | 70,703 |
39 | 50,660 | 54.572 | 58,120 | 62,428 | 72.055 |
40 | 51,805 | 55,758 | 59,342 | 63.691 | 73.402 |
41 | 52.949 | 56,942 | 60,561 | 64.950 | 74.745 |
42 | 54,090 | 58.124 | 61,777 | 66,206 | 76,084 |
43 | 55.230 | 59.304 | 62.990 | 67,459 | 77,419 |
44 | 56,369 | 60,481 | 64.201 | 68,710 | 78.750 |
45 | 57,505 | 61,656 | 65.410 | 69,957 | 80.077 |
46 | 58.641 | 62.830 | 66,617 | 71.201 | 81.400 |
47 | 59,774 | 64.001 | 67.821 | 72,443 | 82.720 |
48 | 60,907 | 65,171 | 69,023 | 73.683 | 84.037 |
49 | 62,038 | 66,339 | 70.222 | 74,919 | 85,351 |
50 | 63,167 | 67,505 | 71.420 | 76.154 | 86,661 |
51 | 64,295 | 68.669 | 72.616 | 77,386 | 87,968 |
52 | 65,422 | 69,832 | 73,810 | 78.616 | 89,272 |
53 | 66,548 | 70,993 | 75.002 | 79,843 | 90,573 |
54 | 67,673 | 72,153 | 76.192 | 81,069 | 91,872 |
55 | 68,796 | 73.311 | 77.380 | 82,292 | 93.168 |
56 | 69,919 | 74.468 | 78,567 | 83.513 | 94,461 |
57 | 71.040 | 75.624 | 79,752 | 84,733 | 95,751 |
58 | 72.160 | 76,778 | 80,936 | 85.950 | 97.039 |
59 | 73,279 | 77,931 | 82,117 | 87,166 | 98,324 |
60 | 74.397 | 79,082 | 83,298 | 88,379 | 99,607 |
61 | 75.514 | 80,232 | 84.476 | 89,591 | 100,888 |
62 | 76,630 | 81,381 | 85.654 | 90,802 | 102.166 |
63 | 77,745 | 82.529 | 86,830 | 92.010 | 103,442 |
64 | 78.860 | 83,675 | 88.004 | 93.217 | 104,716 |
65 | 79,973 | 84,821 | 89,177 | 94.422 | 105,988 |
66 | 81.085 | 85,965 | 90,349 | 95.626 | 107,258 |
67 | 82.197 | 87.108 | 91.519 | 96.828 | 108,526 |
68 | 83.308 | 88.250 | 92,689 | 98.028 | 109.791 |
69 | 84.418 | 89,391 | 93,856 | 99,228 | 111.055 |
70 | 85,527 | 90,531 | 95.023 | 100,425 | 112,317 |
71 | 86,635 | 91.670 | 96.189 | 101,621 | 113.577 |
72 | 87,743 | 92.808 | 97,353 | 102.816 | 114,835 |
73 | 88.850 | 93.945 | 98,516 | 104.010 | 116,092 |
74 | 89,956 | 95.081 | 99,678 | 105.202 | 117,346 |
75 | 91,061 | 96,217 | 100,839 | 106.393 | 118.599 |
76 | 92,166 | 97,351 | 101.999 | 107,583 | 119.850 |
77 | 93.270 | 98,484 | 103,158 | 108,771 | 121.100 |
78 | 94,374 | 99.617 | 104,316 | 109,958 | 122.348 |
79 | 95.476 | 100,749 | 105.473 | 111.144 | 123.594 |
80 | 96,578 | 101,879 | 106,629 | 112,329 | 124,839 |
81 | 97,680 | 103.010 | 107,783 | 113.512 | 126.083 |
82 | 98.780 | 104,139 | 108.937 | 114,695 | 127,324 |
83 | 99.880 | 105.267 | 110.090 | 115,876 | 128,565 |
84 | 100.980 | 106,395 | 111.242 | 117.057 | 129.804 |
85 | 102,079 | 107,522 | 112,393 | 118,236 | 131.041 |
86 | 103.177 | 108.648 | 113.544 | 119,414 | 132,277 |
87 | 104,275 | 109,773 | 114,693 | 120,591 | 133.512 |
88 | 105,372 | 110.898 | 115.841 | 121.767 | 134,746 |
89 | 106.469 | 112,022 | 116,989 | 122.942 | 135,978 |
90 | 107,565 | 113,145 | 118,136 | 124,116 | 137.208 |
91 | 108.661 | 114.268 | 119,282 | 125.289 | 138.438 |
92 | 109,756 | 115,390 | 120.427 | 126.462 | 139,666 |
93 | 110,850 | 116,511 | 121,571 | 127,633 | 140,893 |
94 | 111,944 | 117,632 | 122,715 | 128.803 | 142.119 |
95 | 113.038 | 118,752 | 123,858 | 129,973 | 143,344 |
96 | 114.131 | 119,871 | 125.000 | 131,141 | 144,567 |
97 | 115.223 | 120.990 | 126.141 | 132,309 | 145.789 |
98 | 116,315 | 122.108 | 127.282 | 133.476 | 147.010 |
99 | 117,407 | 123.225 | 128.422 | 134,642 | 148,230 |
100 | 118.498 | 124,342 | 129,561 | 135.807 | 149.449 |
Wartość statystyki testowej wynosi
gdzie
- = skumulowana statystyka testowa Pearsona, która asymptotycznie zbliża się do rozkładu .
- = liczba obserwacji typu i .
- = całkowita liczba obserwacji
- = oczekiwana (teoretyczna) liczba typu i , potwierdzona przez hipotezę zerową, że ułamek typu i w populacji jest
- = liczba komórek w tabeli.
Statystyka chi-kwadrat może być następnie użyta do obliczenia wartości p przez porównanie wartości statystyki z rozkładem chi-kwadrat . Liczba stopni swobody jest równa liczbie komórek pomniejszonej o redukcję stopni swobody, .
Wynik dotyczący liczby stopni swobody jest poprawny, gdy oryginalne dane są wielomianowe, a zatem oszacowane parametry są skuteczne w minimalizowaniu statystyki chi-kwadrat. Bardziej ogólnie jednak, gdy maksymalna oszacowanie prawdopodobieństwa nie pokrywa się z minimalną estymacji chi-kwadrat, rozkład będzie leżeć gdzieś pomiędzy rozkładu chi-kwadrat z i stopni swobody (patrz na przykład Chernoffa i Lehmann, 1954).
Metoda bayesowska
W statystyce bayesowskiej można zamiast tego użyć rozkładu Dirichleta jako sprzężonego uprzedniego . Jeśli weźmie się jednostajne wcześniejsze, to maksymalne oszacowanie prawdopodobieństwa dla prawdopodobieństwa populacji jest obserwowanym prawdopodobieństwem i można obliczyć wiarygodny region wokół tego lub innego oszacowania.
Testowanie niezależności statystycznej
W tym przypadku „obserwacja” składa się z wartości dwóch wyników, a hipotezą zerową jest to, że występowanie tych wyników jest statystycznie niezależne . Każda obserwacja jest przypisywana do jednej komórki dwuwymiarowej tablicy komórek (nazywanej tabelą kontyngencji ) zgodnie z wartościami dwóch wyników. Jeśli w tabeli występuje r wierszy i c kolumn, „częstotliwość teoretyczna” dla komórki, przy założeniu hipotezy niezależności, wynosi
gdzie jest całkowity rozmiar próbki (suma wszystkich komórek w tabeli), a
to ułamek obserwacji typu i ignorujących atrybut kolumny (ułamek sum wierszy), oraz
to ułamek obserwacji typu j ignorujących atrybut wiersza (ułamek sum kolumn). Termin „ częstotliwości ” odnosi się raczej do liczb bezwzględnych niż już znormalizowanych wartości.
Wartość statystyki testowej wynosi
Zauważ, że wynosi 0 wtedy i tylko wtedy , gdy , tj. tylko wtedy, gdy oczekiwana i prawdziwa liczba obserwacji jest równa we wszystkich komórkach.
Dopasowanie modelu „niezależności” zmniejsza liczbę stopni swobody o p = r + c − 1. Liczba stopni swobody jest równa liczbie komórek rc , minus redukcja stopni swobody p , co zmniejsza do ( r − 1) ( c − 1).
W przypadku testu niezależności, znanego również jako test jednorodności, prawdopodobieństwo chi-kwadrat mniejsze lub równe 0,05 (lub statystyka chi-kwadrat równa lub większa niż punkt krytyczny 0,05) jest powszechnie interpretowane przez stosowanych pracowników jako uzasadnienie odrzucenia hipotezy zerowej, że zmienna wiersza jest niezależna od zmiennej kolumny. W alternatywnych hipoteza odpowiada zmiennych mających związek lub związek, w którym struktura tego związku nie jest określona.
Założenia
Test chi-kwadrat, gdy jest używany ze standardowym przybliżeniem, że ma zastosowanie rozkład chi-kwadrat, ma następujące założenia:
- Prosta próbka losowa
- Dane próbki są losowym próbkowaniem ze stałego rozkładu lub populacji, gdzie każdy zbiór członków populacji o danej wielkości próby ma równe prawdopodobieństwo doboru. Warianty testu zostały opracowane dla złożonych próbek, takich jak ważenie danych. Można stosować inne formy, takie jak próbkowanie celowe .
- Wielkość próbki (cała tabela)
- Zakłada się próbkę o wystarczająco dużej wielkości. Jeśli test chi-kwadrat zostanie przeprowadzony na próbce o mniejszym rozmiarze, test chi-kwadrat da niedokładne wnioskowanie. Badacz, stosując test chi-kwadrat na małych próbkach, może popełnić błąd typu II .
- Oczekiwana liczba komórek
- Odpowiednia oczekiwana liczba komórek. Niektóre wymagają 5 lub więcej, a inne wymagają 10 lub więcej. Typowa reguła to 5 lub więcej we wszystkich komórkach tabeli 2 na 2 i 5 lub więcej w 80% komórek w większych tabelach, ale brak komórek z oczekiwaną zerową liczbą. Gdy to założenie nie jest spełnione, stosowana jest poprawka Yatesa .
- Niezależność
- Zakłada się, że obserwacje są zawsze niezależne od siebie. Oznacza to, że chi-kwadrat nie może być używany do testowania skorelowanych danych (takich jak dopasowane pary lub dane panelowe). W takich przypadkach bardziej odpowiedni może być test McNemara .
Test, który opiera się na różnych założeniach, to dokładny test Fishera ; jeśli spełnione jest jego założenie o stałych rozkładach krańcowych, jest to znacznie dokładniejsze w uzyskiwaniu poziomu istotności, zwłaszcza przy niewielkiej liczbie obserwacji. W zdecydowanej większości zastosowań założenie to nie zostanie spełnione, a dokładny test Fishera będzie nadmiernie konserwatywny i nie będzie miał prawidłowego pokrycia.
Pochodzenie
Zerowy rozkład statystyki Pearsona z j wierszami i k kolumnami jest aproksymowany rozkładem chi-kwadrat z ( k − 1)( j − 1) stopniami swobody.
To przybliżenie powstaje jako rozkład prawdziwy, zgodnie z hipotezą zerową, jeśli wartość oczekiwana jest podana przez rozkład wielomianowy . W przypadku dużych próbek, centralne twierdzenie graniczne mówi, że rozkład ten zmierza w kierunku pewnego wielowymiarowego rozkładu normalnego .
Dwie komórki
W szczególnym przypadku, gdy w tabeli znajdują się tylko dwie komórki, oczekiwane wartości są zgodne z rozkładem dwumianowym ,
gdzie
- p = prawdopodobieństwo, zgodnie z hipotezą zerową,
- n = liczba obserwacji w próbie.
W powyższym przykładzie hipotetyczne prawdopodobieństwo obserwacji mężczyzny wynosi 0,5 przy 100 próbach. Spodziewamy się więc obserwować 50 samców.
Jeśli n jest wystarczająco duże, powyższy rozkład dwumianowy można aproksymować rozkładem Gaussa (normalnym), a zatem statystyka testu Pearsona przybliża rozkład chi-kwadrat,
Niech O 1 będzie liczbą obserwacji z próbki, które znajdują się w pierwszej komórce. Statystyka testu Pearsona może być wyrażona jako
co z kolei można wyrazić jako
Przez normalne przybliżenie do dwumianu jest to kwadrat jednej standardowej zmiennej normalnej, a zatem jest rozłożony jako chi-kwadrat z 1 stopniem swobody. Zauważ, że mianownik to jedno odchylenie standardowe aproksymacji Gaussa, więc można to zapisać
Tak więc, zgodnie ze znaczeniem rozkładu chi-kwadrat, mierzymy prawdopodobieństwo obserwowanej liczby odchyleń standardowych od średniej w przybliżeniu Gaussa (co jest dobrym przybliżeniem dla dużego n ).
Rozkład chi-kwadrat jest następnie całkowany po prawej stronie wartości statystycznej w celu uzyskania wartości P , która jest równa prawdopodobieństwu uzyskania statystyki równej lub większej od obserwowanej, przy założeniu hipotezy zerowej.
Stoły awaryjne dwa na dwa
Gdy test jest stosowany do tabeli kontyngencji zawierającej dwa wiersze i dwie kolumny, test jest równoważny testowi Z proporcji.
Wiele komórek
Zasadniczo podobne argumenty jak powyżej prowadzą do pożądanego rezultatu, chociaż szczegóły są bardziej skomplikowane. Można zastosować ortogonalną zmianę zmiennych, aby przekształcić limity w statystyce testowej w jeden mniej kwadratów standardowych normalnych zmiennych losowych iid.
Wykażmy teraz, że rozkład rzeczywiście zbliża się asymptotycznie do rozkładu w miarę zbliżania się liczby obserwacji do nieskończoności.
Niech będzie liczba obserwacji, liczba komórek i prawdopodobieństwo, że obserwacja znajdzie się w i-tej komórce, dla . Oznaczamy przez konfigurację, gdzie dla każdego i są obserwacje w i-tej komórce. Zauważ, że
Niech będzie skumulowaną statystyką testową Pearsona dla takiej konfiguracji i niech będzie rozkład tej statystyki. Pokażemy, że to ostatnie prawdopodobieństwo zbliża się do rozkładu z stopniami swobody, jako
Dla dowolnej wartości T:
Użyjemy procedury podobnej do aproksymacji w twierdzeniu de Moivre-Laplace'a . Wkłady z małych są w porządku podrzędnym, a zatem dla dużych możemy użyć wzoru Stirlinga dla obu i uzyskać następujące:
Zastępując
możemy przybliżyć dla dużej sumy przez przez całkę po . Zauważając, że:
dojeżdżamy do
Przez rozszerzanie logarytm i biorąc w czołowych warunki , otrzymujemy
Chi Pearsona, , jest dokładnie argumentem wykładnika (z wyjątkiem -1/2; zauważ, że ostatni wyraz w argumencie wykładnika jest równy ).
Argument ten można zapisać jako:
jest regularną macierzą symetryczną , a więc diagonalizowalną . Możliwe jest zatem dokonanie liniowej zmiany zmiennych, tak aby uzyskać nowe zmienne, tak aby:
Ta liniowa zmiana zmiennych jedynie mnoży całkę przez stałą jakobian , więc otrzymujemy:
Gdzie C jest stałą.
Jest to prawdopodobieństwo, że kwadrat sumy niezależnych zmiennych o rozkładzie normalnym o zerowej średniej i jednostkowej wariancji będzie większy niż T, a mianowicie, że ze stopniami swobody jest większy niż T.
W ten sposób pokazaliśmy, że na granicy, w której rozkład chi Pearsona zbliża się do rozkładu chi z stopniami swobody.
Przykłady
Uczciwość kości
Sześciościenna kość jest rzucana 60 razy. Liczba lądowań 1, 2, 3, 4, 5 i 6 odwróconymi to odpowiednio 5, 8, 9, 8, 10 i 20. Czy kostka jest obciążona, zgodnie z testem chi-kwadrat Pearsona na poziomie istotności 95% i/lub 99%?
n = 6, ponieważ istnieje 6 możliwych wyników, od 1 do 6. Hipotezą zerową jest to, że kostka jest bezstronna, dlatego oczekuje się, że każda liczba wystąpi taką samą liczbę razy, w tym przypadku,60/n = 10. Wyniki można zestawić w następujący sposób:
1 | 5 | 10 | -5 | 25 | 2,5 |
2 | 8 | 10 | -2 | 4 | 0,4 |
3 | 9 | 10 | -1 | 1 | 0,1 |
4 | 8 | 10 | -2 | 4 | 0,4 |
5 | 10 | 10 | 0 | 0 | 0 |
6 | 20 | 10 | 10 | 100 | 10 |
Suma | 13,4 |
Liczba stopni swobody wynosi n − 1 = 5. Tabela wartości krytycznych górnego ogona rozkładu chi-kwadrat daje wartość krytyczną 11,070 na poziomie istotności 95%:
Stopnie z wolności |
Prawdopodobieństwo mniejsze niż wartość krytyczna | ||||
---|---|---|---|---|---|
0,90 | 0,95 | 0,975 | 0,99 | 0,999 | |
5 | 9,236 | 11.070 | 12,833 | 15.086 | 20,515 |
Ponieważ statystyka chi-kwadrat 13,4 przekracza tę wartość krytyczną, odrzucamy hipotezę zerową i wnioskujemy, że kostka jest obciążona na 95% poziomie istotności.
Na poziomie istotności 99% wartość krytyczna wynosi 15,086. Ponieważ statystyka chi-kwadrat jej nie przekracza, nie odrzucamy hipotezy zerowej, a zatem wnioskujemy, że nie ma wystarczających dowodów, aby wykazać, że kostka jest stronnicza na 99% poziomie istotności.
Dobroć dopasowania
W tym kontekście częstości obu rozkładów teoretycznych i empirycznych są nieznormalizowanymi liczebnościami, a dla testu chi-kwadrat łączne rozmiary próbek obu tych rozkładów (suma wszystkich komórek odpowiednich tabel kontyngencji ) muszą być takie same.
Na przykład, aby przetestować hipotezę, że losowa próba 100 osób została wylosowana z populacji, w której częstość występowania kobiet i mężczyzn jest taka sama, obserwowana liczba mężczyzn i kobiet zostałaby porównana z teoretycznymi częstościami 50 mężczyzn i 50 kobiet . Jeśli w próbie było 44 mężczyzn i 56 kobiet, to
Jeśli hipoteza zerowa jest prawdziwa (tj. mężczyźni i kobiety są wybierani z równym prawdopodobieństwem), statystyka testowa zostanie wyciągnięta z rozkładu chi-kwadrat z jednym stopniem swobody (ponieważ jeśli znana jest częstotliwość dla mężczyzn, to częstość dla kobiet wynosi określony).
Konsultacja rozkładu chi-kwadrat dla 1 stopnia swobody pokazuje, że prawdopodobieństwo zaobserwowania tej różnicy (lub bardziej skrajnej różnicy niż ta), jeśli mężczyźni i kobiety są jednakowo liczni w populacji, wynosi około 0,23. Prawdopodobieństwo to jest wyższe niż konwencjonalne kryteria istotności statystycznej (0,01 lub 0,05), więc normalnie nie odrzucilibyśmy hipotezy zerowej, że liczba mężczyzn w populacji jest taka sama jak liczba kobiet (tj. wzięlibyśmy pod uwagę naszą próbę w granicach zakres tego, czego oczekiwalibyśmy dla stosunku płci męskiej do żeńskiej 50/50.)
Problemy
Aproksymacja rozkładu chi-kwadrat załamuje się, jeśli oczekiwane częstotliwości są zbyt niskie. Zwykle będzie to akceptowalne, o ile nie więcej niż 20% zdarzeń ma oczekiwane częstotliwości poniżej 5. Tam, gdzie jest tylko 1 stopień swobody, aproksymacja nie jest wiarygodna, jeśli oczekiwane częstotliwości są mniejsze niż 10. W tym przypadku lepsze przybliżenie można uzyskać zmniejszając wartość bezwzględną każdej różnicy między obserwowanymi a oczekiwanymi częstotliwościami o 0,5 przed podniesieniem do kwadratu; nazywa się to poprawką Yatesa na ciągłość .
W przypadkach, gdy oczekiwana wartość E jest mała (wskazując na małe prawdopodobieństwo bazowej populacji i/lub niewielką liczbę obserwacji), normalne przybliżenie rozkładu wielomianowego może się nie powieść i w takich przypadkach okazuje się, że bardziej odpowiednie jest użycie testu G , statystyki testowej opartej na ilorazu wiarogodności . Gdy całkowita wielkość próbki jest mała, konieczne jest zastosowanie odpowiedniego testu dokładnego, zazwyczaj testu dwumianowego lub, w przypadku tabel kontyngencji , testu dokładnego Fishera . Ten test wykorzystuje warunkowy rozkład statystyki testowej, biorąc pod uwagę sumy krańcowe, a zatem zakłada, że marże zostały określone przed badaniem; alternatywy, takie jak test Boschloo, które nie przyjmują tego założenia, są jednakowo silniejsze .
Można wykazać, że test jest przybliżeniem niskiego rzędu testu. Powyższe przyczyny powyższych problemów stają się oczywiste, gdy badane są warunki wyższego rzędu.
Zobacz też
- Nomogram chi-kwadrat
- V Craméra – miara korelacji dla testu chi-kwadrat
- Stopnie swobody (statystyki)
- Odchylenie (statystyki) , kolejna miara jakości dopasowania
- Dokładny test Fishera
- G-test , test, którego przybliżeniem jest test chi-kwadrat
- Współczynnik Lexis , wcześniejsza statystyka, zastąpiona przez chi-kwadrat
- Test U Manna–Whitneya
- Test mediany
- Minimalne oszacowanie chi-kwadrat
Uwagi
Bibliografia
- Chernoff, H .; Lehmann, EL (1954). „Zastosowanie szacunków maksymalnego prawdopodobieństwa w testach na dopasowanie” . Roczniki statystyki matematycznej . 25 (3): 579-586. doi : 10.1214/aoms/1177728726 .
- Plackett, RL (1983). „Karl Pearson i test chi-kwadrat”. Międzynarodowy Przegląd Statystyczny . Międzynarodowy Instytut Statystyczny (ISI). 51 (1): 59-72. doi : 10.2307/1402731 . JSTOR 1402731 .
- Greenwood, PE ; Nikulin, MS (1996). Przewodnik po testach chi-kwadrat . Nowy Jork: Wiley. Numer ISBN 0-471-55779-X.