Test chi-kwadrat Pearsona - Pearson's chi-squared test

Test chi-kwadrat Pearsona ( ) jest testem statystycznym stosowanym do zestawów danych kategorycznych w celu oceny prawdopodobieństwa, że jakakolwiek zaobserwowana różnica między zestawami powstała przypadkowo. Jest to najszerzej stosowany z wielu testów chi-kwadrat (np. Yates , iloraz wiarygodności , test portmanteau w szeregach czasowych itp.) – procedury statystyczne , których wyniki są oceniane przez odniesienie do rozkładu chi-kwadrat . Jego właściwości zostały po raz pierwszy zbadane przez Karl Pearson w roku 1900. W sytuacjach, gdzie ważne jest, aby poprawić rozróżnienie pomiędzy statystykę testową ${\ Displaystyle \ chi ^ {2}}$ i jego rozmieszczenie stosuje się nazwy podobne do testu χ-kwadrat Pearsona lub statystyki.

Sprawdza się hipotezę zerową stwierdzające, że rozkład częstości pewnych zdarzeń obserwowanych w próbce jest zgodny z określonym rozkładem teoretycznym. Rozważane zdarzenia muszą się wzajemnie wykluczać i mieć całkowite prawdopodobieństwo 1. Typowym przypadkiem jest sytuacja, w której każde zdarzenie obejmuje wynik zmiennej kategorycznej . Prostym przykładem jest hipoteza, że zwykła kostka sześciościenna jest „sprawiedliwa” (tj. wszystkie sześć wyników ma jednakowe prawdopodobieństwo wystąpienia).

Definicja

Test chi-kwadrat Pearsona służy do oceny trzech typów porównań: dobroci dopasowania , jednorodności i niezależności .

Test dobroci dopasowania pozwala ustalić, czy obserwowany rozkład częstotliwości różni się od rozkładu teoretycznego.
Test jednorodności porównuje rozkład liczebności dla dwóch lub więcej grup przy użyciu tej samej zmiennej kategorycznej (np. wybór działalności – szkoła, wojsko, praca, podróże – absolwentów liceum zgłaszanych rok po ukończeniu studiów, posortowanych według roku ukończenia, sprawdzić, czy liczba absolwentów wybierających daną działalność zmieniła się z klasy na klasę lub z dekady na dekadę).
Test niezależności ocenia, czy obserwacje składające się z miar dotyczących dwóch zmiennych, wyrażone w tabeli kontyngencji , są od siebie niezależne (np. ankiety od osób różnych narodowości, aby sprawdzić, czy czyjaś narodowość ma związek z odpowiedzią).

Dla wszystkich trzech testów procedura obliczeniowa obejmuje następujące kroki:

Oblicz testu chi-kwadrat statystykę , , który przypomina znormalizowanej sumy kwadratów odchyleń między obserwowaną a teoretycznych częstotliwości (patrz poniżej). ${\ Displaystyle \ chi ^ {2}}$
Określić stopnie swobody , df , tej statystyki.
1. Dla testu dobroci dopasowania df = Cats − Parms , gdzie Cats to liczba kategorii obserwacji rozpoznanych przez model, a Parms to liczba parametrów w modelu dostosowanych tak, aby model najlepiej pasował do obserwacji: liczba kategorii pomniejszona o liczbę dopasowanych parametrów w rozkładzie.
2. W przypadku testu jednorodności df = (Wiersze − 1)×(Kolumny − 1) , gdzie Rzędy odpowiada liczbie kategorii (tzn. wierszy w powiązanej tabeli kontyngencji), a Cols odpowiada liczbie niezależnych grup (tzn. kolumn w powiązanej tabeli awaryjnej).
3. Dla testu niezależności df = (Rows − 1)×(Cols − 1) , gdzie w tym przypadku Rows odpowiada liczbie kategorii w jednej zmiennej, a Cols odpowiada liczbie kategorii w drugiej zmiennej.
Wybierz żądany poziom ufności ( poziom istotności , wartość p lub odpowiedni poziom alfa ) dla wyniku testu.
Porównaj z wartością krytyczną z rozkładu chi-kwadrat z df stopniami swobody i wybranym poziomem ufności (jednostronnie, ponieważ test jest tylko w jednym kierunku, tj. czy wartość testowa jest większa niż wartość krytyczna?), która w wiele przypadków daje dobre przybliżenie rozkładu . ${\ Displaystyle \ chi ^ {2}}$ ${\ Displaystyle \ chi ^ {2}}$
Podtrzymaj lub odrzuć hipotezę zerową, że obserwowany rozkład częstości jest taki sam jak rozkład teoretyczny na podstawie tego, czy statystyka testowa przekracza wartość krytyczną . Jeśli statystyka testowa przekracza wartość krytyczną , hipotezy zerowej ( = nie ma różnicy między rozkładami) można odrzucić i hipoteza alternatywna ( = nie ma różnicy między rozkładu) może zostać przyjęte, zarówno przy wybranym poziomie zaufania. Jeśli statystyka testowa spadnie poniżej wartości progowej , nie można wyciągnąć jednoznacznych wniosków i hipoteza zerowa zostaje podtrzymana (nie odrzucamy hipotezy zerowej), choć niekoniecznie akceptowana. ${\ Displaystyle \ chi ^ {2}}$ ${\ Displaystyle \ chi ^ {2}}$ $H_{0}$ $H_{1}$ ${\ Displaystyle \ chi ^ {2}}$

Test dopasowania rozkładu

Dyskretny rozkład równomierny

W tym przypadku obserwacje są dzielone między komórki. Prostym zastosowaniem jest przetestowanie hipotezy, że w populacji ogólnej wartości występowałyby w każdej komórce z jednakową częstotliwością. „Częstotliwość teoretyczna” dla dowolnej komórki (przy hipotezie zerowej o dyskretnym rozkładzie jednostajnym ) jest zatem obliczana jako ${\ Displaystyle N}$ ${\ Displaystyle n}$

{\ Displaystyle E_ {i} = {\ Frac {N} {n}} \ ,,}

a zmniejszenie stopni swobody jest teoretycznie , ponieważ obserwowane częstotliwości są ograniczone do sumy . $p=1$ ${\ Displaystyle O_ {i}}$ ${\ Displaystyle N}$

Jednym konkretnym przykładem jego zastosowania może być jego zastosowanie do testu log-rank.

Inne dystrybucje

Podczas testowania, czy obserwacje są zmiennymi losowymi, których rozkład należy do danej rodziny rozkładów, „częstotliwości teoretyczne” są obliczane przy użyciu rozkładu z tej rodziny dopasowanego w pewien standardowy sposób. Zmniejszenie stopni swobody jest obliczane jako , gdzie jest liczbą parametrów użytych do dopasowania rozkładu. Na przykład podczas sprawdzania trójparametrowego Uogólnionego rozkładu gamma , , oraz podczas sprawdzania rozkładu normalnego (gdzie parametrami są średnia i odchylenie standardowe) , oraz podczas sprawdzania rozkładu Poissona (gdzie parametr jest wartością oczekiwaną) . Tak więc będą stopnie swobody, gdzie jest liczba kategorii. $p=s+1$ $s$ $p=4$ $p=3$ $p=2$ $np.$ ${\ Displaystyle n}$

Stopnie swobody nie są oparte na liczbie obserwacji, jak w przypadku rozkładu t - Studenta lub F . Na przykład, jeśli testujemy uczciwą, sześciościenną wykrojnik , będzie pięć stopni swobody, ponieważ istnieje sześć kategorii lub parametrów (każda liczba); liczba rzutów kostką nie wpływa na liczbę stopni swobody.

Obliczanie statystyki testowej

Rozkład chi-kwadrat , pokazujący X ² na osi x i wartość P na osi y.

Wartość statystyki testowej wynosi

{\ Displaystyle \ chi ^ {2} = \ suma _ {i = 1} ^ {n} {\ Frac {(O_ {i}-E_ {i}) ^ {2}} {E_ {i}}} = N\sum _{i=1}^{n}{\frac {\lewo(O_{i}/N-p_{i}\prawo)^{2}}{p_{i}}}}

gdzie

{\ Displaystyle \ chi ^ {2}}

= skumulowana statystyka testowa Pearsona, która asymptotycznie zbliża się do rozkładu .

{\ Displaystyle \ chi ^ {2}}

{\ Displaystyle O_ {i}}

= liczba obserwacji typu i .

{\ Displaystyle N}

= całkowita liczba obserwacji

{\ Displaystyle E_ {i} = Np_ {i}}

= oczekiwana (teoretyczna) liczba typu i , potwierdzona przez hipotezę zerową, że ułamek typu i w populacji jest

p_{i}

{\ Displaystyle n}

= liczba komórek w tabeli.

Statystyka chi-kwadrat może być następnie użyta do obliczenia wartości p przez porównanie wartości statystyki z rozkładem chi-kwadrat . Liczba stopni swobody jest równa liczbie komórek pomniejszonej o redukcję stopni swobody, . ${\ Displaystyle n}$ $p$

Wynik dotyczący liczby stopni swobody jest poprawny, gdy oryginalne dane są wielomianowe, a zatem oszacowane parametry są skuteczne w minimalizowaniu statystyki chi-kwadrat. Bardziej ogólnie jednak, gdy maksymalna oszacowanie prawdopodobieństwa nie pokrywa się z minimalną estymacji chi-kwadrat, rozkład będzie leżeć gdzieś pomiędzy rozkładu chi-kwadrat z i stopni swobody (patrz na przykład Chernoffa i Lehmann, 1954). $n-1-p$ $n-1$

Metoda bayesowska

W statystyce bayesowskiej można zamiast tego użyć rozkładu Dirichleta jako sprzężonego uprzedniego . Jeśli weźmie się jednostajne wcześniejsze, to maksymalne oszacowanie prawdopodobieństwa dla prawdopodobieństwa populacji jest obserwowanym prawdopodobieństwem i można obliczyć wiarygodny region wokół tego lub innego oszacowania.

Testowanie niezależności statystycznej

W tym przypadku „obserwacja” składa się z wartości dwóch wyników, a hipotezą zerową jest to, że występowanie tych wyników jest statystycznie niezależne . Każda obserwacja jest przypisywana do jednej komórki dwuwymiarowej tablicy komórek (nazywanej tabelą kontyngencji ) zgodnie z wartościami dwóch wyników. Jeśli w tabeli występuje r wierszy i c kolumn, „częstotliwość teoretyczna” dla komórki, przy założeniu hipotezy niezależności, wynosi

{\ Displaystyle E_ {i, j} = Np_ {i \ cdot} p_ {\ cdot j}}

gdzie jest całkowity rozmiar próbki (suma wszystkich komórek w tabeli), a ${\ Displaystyle N}$

{\ Displaystyle p_ {i \ cdot} = {\ Frac {O_ {i \ cdot}} {N}} = \ suma _ {j = 1} ^ {c} {\ Frac {O_ {i, j}}} N}},}

to ułamek obserwacji typu i ignorujących atrybut kolumny (ułamek sum wierszy), oraz

{\ Displaystyle p_ {\ cdot j} = {\ Frac {O_ {\ cdot j}} {N}} = \ suma _ {i = 1} ^ {r} {\ Frac {O_ {i, j}}} N}}}

to ułamek obserwacji typu j ignorujących atrybut wiersza (ułamek sum kolumn). Termin „ częstotliwości ” odnosi się raczej do liczb bezwzględnych niż już znormalizowanych wartości.

Wartość statystyki testowej wynosi

{\ Displaystyle \ chi ^ {2} = \ suma _ {i = 1} ^ {r} \ suma _ {j = 1} ^ {c} {(O_ {i, j}-E_ {i, j}) ^{2} \over E_{i,j}}}

{\ Displaystyle \ \ \ \ = N \ suma _ {i, j} p_ {i \ cdot} p_ {\ cdot j} \ lewo ({\ Frac {(O_ {i, j} / N) -p_ {i \cdot }p_{\cdot j}}{p_{i\cdot }p_{\cdot j}}}\right)^{2}}

Zauważ, że wynosi 0 wtedy i tylko wtedy , gdy , tj. tylko wtedy, gdy oczekiwana i prawdziwa liczba obserwacji jest równa we wszystkich komórkach. ${\ Displaystyle \ chi ^ {2}}$ ${\ Displaystyle O_ {i, j} = E_ {i, j} \ dla wszystkich ja, j}$

Dopasowanie modelu „niezależności” zmniejsza liczbę stopni swobody o p = r + c − 1. Liczba stopni swobody jest równa liczbie komórek rc , minus redukcja stopni swobody p , co zmniejsza do ( r − 1) ( c − 1).

W przypadku testu niezależności, znanego również jako test jednorodności, prawdopodobieństwo chi-kwadrat mniejsze lub równe 0,05 (lub statystyka chi-kwadrat równa lub większa niż punkt krytyczny 0,05) jest powszechnie interpretowane przez stosowanych pracowników jako uzasadnienie odrzucenia hipotezy zerowej, że zmienna wiersza jest niezależna od zmiennej kolumny. W alternatywnych hipoteza odpowiada zmiennych mających związek lub związek, w którym struktura tego związku nie jest określona.

Założenia

Test chi-kwadrat, gdy jest używany ze standardowym przybliżeniem, że ma zastosowanie rozkład chi-kwadrat, ma następujące założenia:

Prosta próbka losowa: Dane próbki są losowym próbkowaniem ze stałego rozkładu lub populacji, gdzie każdy zbiór członków populacji o danej wielkości próby ma równe prawdopodobieństwo doboru. Warianty testu zostały opracowane dla złożonych próbek, takich jak ważenie danych. Można stosować inne formy, takie jak próbkowanie celowe .
Wielkość próbki (cała tabela): Zakłada się próbkę o wystarczająco dużej wielkości. Jeśli test chi-kwadrat zostanie przeprowadzony na próbce o mniejszym rozmiarze, test chi-kwadrat da niedokładne wnioskowanie. Badacz, stosując test chi-kwadrat na małych próbkach, może popełnić błąd typu II .
Oczekiwana liczba komórek: Odpowiednia oczekiwana liczba komórek. Niektóre wymagają 5 lub więcej, a inne wymagają 10 lub więcej. Typowa reguła to 5 lub więcej we wszystkich komórkach tabeli 2 na 2 i 5 lub więcej w 80% komórek w większych tabelach, ale brak komórek z oczekiwaną zerową liczbą. Gdy to założenie nie jest spełnione, stosowana jest poprawka Yatesa .
Niezależność: Zakłada się, że obserwacje są zawsze niezależne od siebie. Oznacza to, że chi-kwadrat nie może być używany do testowania skorelowanych danych (takich jak dopasowane pary lub dane panelowe). W takich przypadkach bardziej odpowiedni może być test McNemara .

Test, który opiera się na różnych założeniach, to dokładny test Fishera ; jeśli spełnione jest jego założenie o stałych rozkładach krańcowych, jest to znacznie dokładniejsze w uzyskiwaniu poziomu istotności, zwłaszcza przy niewielkiej liczbie obserwacji. W zdecydowanej większości zastosowań założenie to nie zostanie spełnione, a dokładny test Fishera będzie nadmiernie konserwatywny i nie będzie miał prawidłowego pokrycia.

Pochodzenie

Wyprowadzenie przy użyciu centralnego twierdzenia granicznego

Zerowy rozkład statystyki Pearsona z j wierszami i k kolumnami jest aproksymowany rozkładem chi-kwadrat z ( k − 1)( j − 1) stopniami swobody.

To przybliżenie powstaje jako rozkład prawdziwy, zgodnie z hipotezą zerową, jeśli wartość oczekiwana jest podana przez rozkład wielomianowy . W przypadku dużych próbek, centralne twierdzenie graniczne mówi, że rozkład ten zmierza w kierunku pewnego wielowymiarowego rozkładu normalnego .

Dwie komórki

W szczególnym przypadku, gdy w tabeli znajdują się tylko dwie komórki, oczekiwane wartości są zgodne z rozkładem dwumianowym ,

{\ Displaystyle E \ \ sim \ {\ mbox {Bin}} (n, p), \,}

gdzie

p = prawdopodobieństwo, zgodnie z hipotezą zerową,

n = liczba obserwacji w próbie.

W powyższym przykładzie hipotetyczne prawdopodobieństwo obserwacji mężczyzny wynosi 0,5 przy 100 próbach. Spodziewamy się więc obserwować 50 samców.

Jeśli n jest wystarczająco duże, powyższy rozkład dwumianowy można aproksymować rozkładem Gaussa (normalnym), a zatem statystyka testu Pearsona przybliża rozkład chi-kwadrat,

{\ Displaystyle {\ tekst {Bin}} (n, p) \ około {\ tekst {N}} (np, np (1-p)).\,}

Niech O ₁ będzie liczbą obserwacji z próbki, które znajdują się w pierwszej komórce. Statystyka testu Pearsona może być wyrażona jako

{\ Displaystyle {\ Frac {(O_ {1}-np) ^ {2}}{np}} + {\ Frac {(n-O_ {1}-n (1-p)) ^ {2}} n(1-p)}},}

co z kolei można wyrazić jako

{\ Displaystyle \ lewo ({\ Frac {O_ {1}-np} {\ sqrt {np (1-p)}}} \ po prawej) ^ {2}.}

Przez normalne przybliżenie do dwumianu jest to kwadrat jednej standardowej zmiennej normalnej, a zatem jest rozłożony jako chi-kwadrat z 1 stopniem swobody. Zauważ, że mianownik to jedno odchylenie standardowe aproksymacji Gaussa, więc można to zapisać

{\frac {(O_{1}-\mu)^{2}}{\sigma ^{2}}}.

Tak więc, zgodnie ze znaczeniem rozkładu chi-kwadrat, mierzymy prawdopodobieństwo obserwowanej liczby odchyleń standardowych od średniej w przybliżeniu Gaussa (co jest dobrym przybliżeniem dla dużego n ).

Rozkład chi-kwadrat jest następnie całkowany po prawej stronie wartości statystycznej w celu uzyskania wartości P , która jest równa prawdopodobieństwu uzyskania statystyki równej lub większej od obserwowanej, przy założeniu hipotezy zerowej.

Stoły awaryjne dwa na dwa

Gdy test jest stosowany do tabeli kontyngencji zawierającej dwa wiersze i dwie kolumny, test jest równoważny testowi Z proporcji.

Wiele komórek

Zasadniczo podobne argumenty jak powyżej prowadzą do pożądanego rezultatu, chociaż szczegóły są bardziej skomplikowane. Można zastosować ortogonalną zmianę zmiennych, aby przekształcić limity w statystyce testowej w jeden mniej kwadratów standardowych normalnych zmiennych losowych iid.

Wykażmy teraz, że rozkład rzeczywiście zbliża się asymptotycznie do rozkładu w miarę zbliżania się liczby obserwacji do nieskończoności. ${\ Displaystyle \ chi ^ {2}}$

Niech będzie liczba obserwacji, liczba komórek i prawdopodobieństwo, że obserwacja znajdzie się w i-tej komórce, dla . Oznaczamy przez konfigurację, gdzie dla każdego i są obserwacje w i-tej komórce. Zauważ, że ${\ Displaystyle n}$ ${\ Displaystyle m}$ $p_{i}$ $1\leq i\leq m$ ${\ Displaystyle \ {k_ {i} \}}$ $k_{i}$

{\ Displaystyle \ suma _ {i = 1} ^ {m} k_ {i} = n \ qquad {\ tekst {i}} \ qquad \ suma _ {i = 1} ^ {m} p_ {i} = 1 .}

Niech będzie skumulowaną statystyką testową Pearsona dla takiej konfiguracji i niech będzie rozkład tej statystyki. Pokażemy, że to ostatnie prawdopodobieństwo zbliża się do rozkładu z stopniami swobody, jako ${\ Displaystyle \ chi _ {P} ^ {2} (\ {k_ {i} \}, \ {p_ {i} \})}$ ${\ Displaystyle \ chi _ {P} ^ {2} (\ {p_ {i} \})}$ ${\ Displaystyle \ chi ^ {2}}$ $m-1$ $n\do \infty.$

Dla dowolnej wartości T:

{\ Displaystyle P (\ chi _ {P} ^ {2} (\ {p_ {i} \})> T) = \ suma _ {\ {k_ {i} \} | \ chi _ {P} ^ { 2}(\{k_{i}\},\{p_{i}\})>T}{\frac {n!}{k_{1}!\cdots k_{m}!}}\prod _{ i=1}^{m}{p_{i}}^{k_{i}}}

Użyjemy procedury podobnej do aproksymacji w twierdzeniu de Moivre-Laplace'a . Wkłady z małych są w porządku podrzędnym, a zatem dla dużych możemy użyć wzoru Stirlinga dla obu i uzyskać następujące: $k_{i}$ ${\ Displaystyle n}$ ${\ Displaystyle n}$ $n!$ $k_{i}!$

{\ Displaystyle P (\ chi _ {P} ^ {2} (\ {p_ {i} \})> T) \ sim \ suma _ {\ {k_ {i} \} | \ chi _ {P} ^ {2}(\{k_{i}\},\{p_{i}\})>T}\prod _{i=1}^{m}\left({\frac {np_{i}}{ k_{i}}}\right)^{k_{i}}{\sqrt {\frac {2\pi n}{\prod _{i=1}^{m}2\pi k_{i}}} }}

Zastępując

{\ Displaystyle x_ {i} = {\ Frac {k_ {i}-np_ {i}} {\ sqrt {n}}}, \ qquad i = 1 \ cdots, m-1,}

możemy przybliżyć dla dużej sumy przez przez całkę po . Zauważając, że: ${\ Displaystyle n}$ $k_{i}$ $x_{i}$

{\ Displaystyle k_ {m} = np_ {m} - {\ sqrt {n}} \ suma _ {i = 1} ^ {m-1} x_ {i}}

dojeżdżamy do

{\ Displaystyle {\ zacząć {wyrównany} P (\ chi _ {P} ^ {2} (\ {p_ {i} \})> T) i \ sim {\ sqrt {\ Frac {2 \ pi n} \prod _{i=1}^{m}2\pi k_{i}}}}\int _{\chi _{P}^{2}(\{{\sqrt {n}}x_{i} +np_{i}\},\{p_{i}\})>T}\left\{\prod _{i=1}^{m-1}{{\sqrt {n}}dx_{i} }\right\}\left\{\prod _{i=1}^{m-1}\left(1+{\frac {x_{i}}{{\sqrt {n}}p_{i}} }\right)^{-(np_{i}+{\sqrt {n}}x_{i})}\left(1-{\frac {\sum _{i=1}^{m-1}{ x_{i}}}{{\sqrt {n}}p_{m}}}\right)^{-\left(np_{m}-{\sqrt {n}}\sum _{i=1}^ {m-1}x_{i}\right)}\right\}\\&={\sqrt {\frac {2\pi n}{\prod _{i=1}^{m}\left(2 \pi np_{i}+2\pi {\sqrt {n}}x_{i}\right)}}}\int _{\chi _{P}^{2}(\{{\sqrt {n} }x_{i}+np_{i}\},\{p_{i}\})>T}\left\{\prod _{i=1}^{m-1}{{\sqrt {n} }dx_{i}}\right\}\times \\&\qquad \qquad \times \left\{\prod _{i=1}^{m-1}\exp \left[-\left(np_{ i}+{\sqrt {n}}x_{i}\right)\ln \left(1+{\frac {x_{i}}{{\sqrt {n}}p_{i}}}\right) \right]\exp \left[-\left(np_{m}-{\sqrt {n}}\sum _{i=1}^{m-1}x_{i}\right)\ln \left( 1-{\frac {\sum _{i=1}^{m-1}{x_{i}}}{{\sqrt {n}}p_{m}}}\right)\right]\right\ }\end{wyrównany}} }

Przez rozszerzanie logarytm i biorąc w czołowych warunki , otrzymujemy ${\ Displaystyle n}$

{\ Displaystyle P (\ chi _ {P} ^ {2} (\ {p_ {i} \})> T) \ SIM {\ Frac {1} {\ sqrt {(2 \ pi) ^ {m-1 }\prod _{i=1}^{m}p_{i}}}}\int _{\chi _{P}^{2}(\{{\sqrt {n}}x_{i}+np_ {i}\},\{p_{i}\})>T}\left\{\prod _{i=1}^{m-1}dx_{i}\right\}\prod _{i= 1}^{m-1}\exp \left[-{\frac {1}{2}}\sum _{i=1}^{m-1}{\frac {x_{i}^{2} }{p_{i}}}-{\frac {1}{2p_{m}}}\left(\sum _{i=1}^{m-1}{x_{i}}\right)^{ 2}\prawo]}

Chi Pearsona, , jest dokładnie argumentem wykładnika (z wyjątkiem -1/2; zauważ, że ostatni wyraz w argumencie wykładnika jest równy ). ${\ Displaystyle \ chi _ {P} ^ {2} (\ {k_ {i} \}, \ {p_ {i} \}) = \ chi _ {P} ^ {2} (\ {{\ sqrt { n}}x_{i}+np_{i}\},\{p_{i}\})}$ ${\ Displaystyle (k_ {m} -np_ {m}) ^ {2} / (np_ {m})}$

Argument ten można zapisać jako:

{\ Displaystyle - {\ Frac {1} {2}} \ suma _ {i, j = 1} ^ {m-1} x_ {i} A_ {ij} x_ {j}, \ qquad ja, j = 1 ,\cdots ,m-1,\quad A_{ij}={\tfrac {\delta _{ij}}{p_{i}}}+{\tfrac {1}{p_{m}}}.}

${\ Displaystyle A}$ jest regularną macierzą symetryczną , a więc diagonalizowalną . Możliwe jest zatem dokonanie liniowej zmiany zmiennych, tak aby uzyskać nowe zmienne, tak aby: ${\ Displaystyle (m-1) \ razy (m-1)}$ ${\ Displaystyle \ {x_ {i} \}}$ $m-1$ ${\ Displaystyle \ {y_ {i} \}}$

{\ Displaystyle \ suma _ {i, j = 1} ^ {m-1} x_ {i} A_ {ij} x_ {j} = \ suma _ {i = 1} ^ {m-1} y_ {i} ^{2}.}

Ta liniowa zmiana zmiennych jedynie mnoży całkę przez stałą jakobian , więc otrzymujemy:

{\ Displaystyle P (\ chi _ {P} ^ {2} (\ {p_ {i} \})> T) \ SIM C \ int _ {\ suma _ {i = 1} ^ {m-1} y_ {i}^{2}>T}\left\{\prod _{i=1}^{m-1}dy_{i}\right\}\prod _{i=1}^{m-1} \exp \left[-{\frac {1}{2}}\left(\sum _{i=1}^{m-1}y_{i}^{2}\right)\right]}

Gdzie C jest stałą.

Jest to prawdopodobieństwo, że kwadrat sumy niezależnych zmiennych o rozkładzie normalnym o zerowej średniej i jednostkowej wariancji będzie większy niż T, a mianowicie, że ze stopniami swobody jest większy niż T. $m-1$ ${\ Displaystyle \ chi ^ {2}}$ $m-1$

W ten sposób pokazaliśmy, że na granicy, w której rozkład chi Pearsona zbliża się do rozkładu chi z stopniami swobody. $n\do \infty,$ $m-1$

Przykłady

Uczciwość kości

Sześciościenna kość jest rzucana 60 razy. Liczba lądowań 1, 2, 3, 4, 5 i 6 odwróconymi to odpowiednio 5, 8, 9, 8, 10 i 20. Czy kostka jest obciążona, zgodnie z testem chi-kwadrat Pearsona na poziomie istotności 95% i/lub 99%?

n = 6, ponieważ istnieje 6 możliwych wyników, od 1 do 6. Hipotezą zerową jest to, że kostka jest bezstronna, dlatego oczekuje się, że każda liczba wystąpi taką samą liczbę razy, w tym przypadku,60/n = 10. Wyniki można zestawić w następujący sposób:

$i$	${\ Displaystyle O_ {i}}$	${\ Displaystyle E_ {i}}$	${\ Displaystyle O_ {i}-E_ {i}}$	${\ Displaystyle (O_ {i}-E_ {i}) ^ {2}}$	${\ Displaystyle {\ Frac {(O_ {i}-E_ {i}) ^ {2}}{E_ {i}}}}$
1	5	10	-5	25	2,5
2	8	10	-2	4	0,4
3	9	10	-1	1	0,1
4	8	10	-2	4	0,4
5	10	10	0	0	0
6	20	10	10	100	10
Suma					13,4

Liczba stopni swobody wynosi n − 1 = 5. Tabela wartości krytycznych górnego ogona rozkładu chi-kwadrat daje wartość krytyczną 11,070 na poziomie istotności 95%:

Stopnie z wolności	Prawdopodobieństwo mniejsze niż wartość krytyczna
Stopnie z wolności	0,90	0,95	0,975	0,99	0,999
5	9,236	11.070	12,833	15.086	20,515

Ponieważ statystyka chi-kwadrat 13,4 przekracza tę wartość krytyczną, odrzucamy hipotezę zerową i wnioskujemy, że kostka jest obciążona na 95% poziomie istotności.

Na poziomie istotności 99% wartość krytyczna wynosi 15,086. Ponieważ statystyka chi-kwadrat jej nie przekracza, nie odrzucamy hipotezy zerowej, a zatem wnioskujemy, że nie ma wystarczających dowodów, aby wykazać, że kostka jest stronnicza na 99% poziomie istotności.

Dobroć dopasowania

W tym kontekście częstości obu rozkładów teoretycznych i empirycznych są nieznormalizowanymi liczebnościami, a dla testu chi-kwadrat łączne rozmiary próbek obu tych rozkładów (suma wszystkich komórek odpowiednich tabel kontyngencji ) muszą być takie same. ${\ Displaystyle N}$

Na przykład, aby przetestować hipotezę, że losowa próba 100 osób została wylosowana z populacji, w której częstość występowania kobiet i mężczyzn jest taka sama, obserwowana liczba mężczyzn i kobiet zostałaby porównana z teoretycznymi częstościami 50 mężczyzn i 50 kobiet . Jeśli w próbie było 44 mężczyzn i 56 kobiet, to

{\ Displaystyle \ chi ^ {2} = {(44-50) ^ {2} \ ponad 50} + {(56-50) ^ {2} \ ponad 50} = 1,44.}

Jeśli hipoteza zerowa jest prawdziwa (tj. mężczyźni i kobiety są wybierani z równym prawdopodobieństwem), statystyka testowa zostanie wyciągnięta z rozkładu chi-kwadrat z jednym stopniem swobody (ponieważ jeśli znana jest częstotliwość dla mężczyzn, to częstość dla kobiet wynosi określony).

Konsultacja rozkładu chi-kwadrat dla 1 stopnia swobody pokazuje, że prawdopodobieństwo zaobserwowania tej różnicy (lub bardziej skrajnej różnicy niż ta), jeśli mężczyźni i kobiety są jednakowo liczni w populacji, wynosi około 0,23. Prawdopodobieństwo to jest wyższe niż konwencjonalne kryteria istotności statystycznej (0,01 lub 0,05), więc normalnie nie odrzucilibyśmy hipotezy zerowej, że liczba mężczyzn w populacji jest taka sama jak liczba kobiet (tj. wzięlibyśmy pod uwagę naszą próbę w granicach zakres tego, czego oczekiwalibyśmy dla stosunku płci męskiej do żeńskiej 50/50.)

Problemy

Aproksymacja rozkładu chi-kwadrat załamuje się, jeśli oczekiwane częstotliwości są zbyt niskie. Zwykle będzie to akceptowalne, o ile nie więcej niż 20% zdarzeń ma oczekiwane częstotliwości poniżej 5. Tam, gdzie jest tylko 1 stopień swobody, aproksymacja nie jest wiarygodna, jeśli oczekiwane częstotliwości są mniejsze niż 10. W tym przypadku lepsze przybliżenie można uzyskać zmniejszając wartość bezwzględną każdej różnicy między obserwowanymi a oczekiwanymi częstotliwościami o 0,5 przed podniesieniem do kwadratu; nazywa się to poprawką Yatesa na ciągłość .

W przypadkach, gdy oczekiwana wartość E jest mała (wskazując na małe prawdopodobieństwo bazowej populacji i/lub niewielką liczbę obserwacji), normalne przybliżenie rozkładu wielomianowego może się nie powieść i w takich przypadkach okazuje się, że bardziej odpowiednie jest użycie testu G , statystyki testowej opartej na ilorazu wiarogodności . Gdy całkowita wielkość próbki jest mała, konieczne jest zastosowanie odpowiedniego testu dokładnego, zazwyczaj testu dwumianowego lub, w przypadku tabel kontyngencji , testu dokładnego Fishera . Ten test wykorzystuje warunkowy rozkład statystyki testowej, biorąc pod uwagę sumy krańcowe, a zatem zakłada, że marże zostały określone przed badaniem; alternatywy, takie jak test Boschloo, które nie przyjmują tego założenia, są jednakowo silniejsze .

Można wykazać, że test jest przybliżeniem niskiego rzędu testu. Powyższe przyczyny powyższych problemów stają się oczywiste, gdy badane są warunki wyższego rzędu. ${\ Displaystyle \ chi ^ {2}}$ ${\ Displaystyle \ psi}$

Zobacz też

Nomogram chi-kwadrat
V Craméra – miara korelacji dla testu chi-kwadrat
Stopnie swobody (statystyki)
Odchylenie (statystyki) , kolejna miara jakości dopasowania
Dokładny test Fishera
G-test , test, którego przybliżeniem jest test chi-kwadrat
Współczynnik Lexis , wcześniejsza statystyka, zastąpiona przez chi-kwadrat
Test U Manna–Whitneya
Test mediany
Minimalne oszacowanie chi-kwadrat

Uwagi

Bibliografia

Chernoff, H .; Lehmann, EL (1954). „Zastosowanie szacunków maksymalnego prawdopodobieństwa w testach na dopasowanie” ${\ Displaystyle \ chi ^ {2}}$ . Roczniki statystyki matematycznej . 25 (3): 579-586. doi : 10.1214/aoms/1177728726 .
Plackett, RL (1983). „Karl Pearson i test chi-kwadrat”. Międzynarodowy Przegląd Statystyczny . Międzynarodowy Instytut Statystyczny (ISI). 51 (1): 59-72. doi : 10.2307/1402731 . JSTOR 1402731 .
Greenwood, PE ; Nikulin, MS (1996). Przewodnik po testach chi-kwadrat . Nowy Jork: Wiley. Numer ISBN 0-471-55779-X.

Wartości krytyczne górnego ogona rozkładu chi-kwadrat
Stopnie z wolności	Prawdopodobieństwo mniejsze niż wartość krytyczna
Stopnie z wolności	0,90	0,95	0,975	0,99	0,999
1	2,706	3,841	5.024	6,635	10.828
2	4,605	5,991	7,378	9.210	13,816
3	6.251	7,815	9,348	11.345	16.266
4	7,779	9,488	11.143	13.277	18.467
5	9,236	11.070	12,833	15.086	20,515
6	10.645	12.592	14.449	16.812	22.458
7	12.017	14.067	16.013	18.475	24,322
8	13.362	15,507	17,535	20.090	26.125
9	14.684	16.919	19.023	21,666	27,877
10	15,987	18.307	20,483	23.209	29,588
11	17,275	19,675	21.920	24,725	31.264
12	18,549	21.026	23,337	26,217	32,910
13	19.812	22,362	24,736	27,688	34.528
14	21,064	23.685	26.119	29.141	36.123
15	22.307	24,996	27,488	30,578	37,697
16	23,542	26,296	28.845	32.000	39,252
17	24,769	27,587	30.191	33.409	40,790
18	25.989	28.869	31,526	34,805	42,312
19	27.204	30,144	32,852	36,191	43.820
20	28.412	31.410	34.170	37,566	45.315
21	29,615	32,671	35,479	38,932	46,797
22	30,813	33.924	36,781	40,289	48,268
23	32.007	35,172	38,076	41,638	49,728
24	33.196	36,415	39,364	42.980	51,179
25	34,382	37,652	40.646	44,314	52,620
26	35,563	38,885	41,923	45,642	54.052
27	36,741	40,113	43.195	46,963	55.476
28	37,916	41,337	44,461	48,278	56,892
29	39,087	42,557	45,722	49,588	58.301
30	40,256	43,773	46,979	50,892	59,703
31	41,422	44,985	48.232	52,191	61.098
32	42,585	46.194	49.480	53.486	62.487
33	43,745	47.400	50,725	54,776	63.870
34	44,903	48.602	51,966	56,061	65.247
35	46.059	49,802	53.203	57,342	66,619
36	47.212	50,998	54.437	58.619	67,985
37	48,363	52.192	55.668	59,893	69,347
38	49,513	53,384	56,896	61,162	70,703
39	50,660	54.572	58,120	62,428	72.055
40	51,805	55,758	59,342	63.691	73.402
41	52.949	56,942	60,561	64.950	74.745
42	54,090	58.124	61,777	66,206	76,084
43	55.230	59.304	62.990	67,459	77,419
44	56,369	60,481	64.201	68,710	78.750
45	57,505	61,656	65.410	69,957	80.077
46	58.641	62.830	66,617	71.201	81.400
47	59,774	64.001	67.821	72,443	82.720
48	60,907	65,171	69,023	73.683	84.037
49	62,038	66,339	70.222	74,919	85,351
50	63,167	67,505	71.420	76.154	86,661
51	64,295	68.669	72.616	77,386	87,968
52	65,422	69,832	73,810	78.616	89,272
53	66,548	70,993	75.002	79,843	90,573
54	67,673	72,153	76.192	81,069	91,872
55	68,796	73.311	77.380	82,292	93.168
56	69,919	74.468	78,567	83.513	94,461
57	71.040	75.624	79,752	84,733	95,751
58	72.160	76,778	80,936	85.950	97.039
59	73,279	77,931	82,117	87,166	98,324
60	74.397	79,082	83,298	88,379	99,607
61	75.514	80,232	84.476	89,591	100,888
62	76,630	81,381	85.654	90,802	102.166
63	77,745	82.529	86,830	92.010	103,442
64	78.860	83,675	88.004	93.217	104,716
65	79,973	84,821	89,177	94.422	105,988
66	81.085	85,965	90,349	95.626	107,258
67	82.197	87.108	91.519	96.828	108,526
68	83.308	88.250	92,689	98.028	109.791
69	84.418	89,391	93,856	99,228	111.055
70	85,527	90,531	95.023	100,425	112,317
71	86,635	91.670	96.189	101,621	113.577
72	87,743	92.808	97,353	102.816	114,835
73	88.850	93.945	98,516	104.010	116,092
74	89,956	95.081	99,678	105.202	117,346
75	91,061	96,217	100,839	106.393	118.599
76	92,166	97,351	101.999	107,583	119.850
77	93.270	98,484	103,158	108,771	121.100
78	94,374	99.617	104,316	109,958	122.348
79	95.476	100,749	105.473	111.144	123.594
80	96,578	101,879	106,629	112,329	124,839
81	97,680	103.010	107,783	113.512	126.083
82	98.780	104,139	108.937	114,695	127,324
83	99.880	105.267	110.090	115,876	128,565
84	100.980	106,395	111.242	117.057	129.804
85	102,079	107,522	112,393	118,236	131.041
86	103.177	108.648	113.544	119,414	132,277
87	104,275	109,773	114,693	120,591	133.512
88	105,372	110.898	115.841	121.767	134,746
89	106.469	112,022	116,989	122.942	135,978
90	107,565	113,145	118,136	124,116	137.208
91	108.661	114.268	119,282	125.289	138.438
92	109,756	115,390	120.427	126.462	139,666
93	110,850	116,511	121,571	127,633	140,893
94	111,944	117,632	122,715	128.803	142.119
95	113.038	118,752	123,858	129,973	143,344
96	114.131	119,871	125.000	131,141	144,567
97	115.223	120.990	126.141	132,309	145.789
98	116,315	122.108	127.282	133.476	147.010
99	117,407	123.225	128.422	134,642	148,230
100	118.498	124,342	129,561	135.807	149.449

Languages

In other projects