Rozkład wielomianowy - Multinomial distribution

Wielomianowy
Parametry liczba prób ( liczba całkowita ) prawdopodobieństwo zdarzenia ( )
Wsparcie
PMF
Oznaczać
Zmienność
Entropia
MGF
CF gdzie
PGF

W teorii prawdopodobieństwa , rozkład wielomianu jest uogólnieniem rozkładu dwumianowego . Na przykład modeluje prawdopodobieństwo zliczeń dla każdej strony k- bocznej kości wyrzuconych n razy. Dla n niezależnych prób, z których każda prowadzi do sukcesu dla dokładnie jednej z k kategorii, przy czym każda kategoria ma określone stałe prawdopodobieństwo sukcesu, rozkład wielomianowy podaje prawdopodobieństwo dowolnej konkretnej kombinacji liczb sukcesów dla różnych kategorii.

Gdy k wynosi 2, a n wynosi 1, rozkładem wielomianowym jest rozkład Bernoulliego . Gdy k wynosi 2, a n jest większe niż 1, jest to rozkład dwumianowy . Gdy k jest większe niż 2, a n wynosi 1, jest to rozkład kategoryczny .

Rozkład Bernoulliego modeluje wynik pojedynczej próby Bernoulliego . Innymi słowy, modeluje, czy rzucenie (prawdopodobnie tendencyjną ) monetą raz spowoduje sukces (uzyskanie orła), czy porażkę (uzyskanie ogona). Rozkład dwumianowy uogólnia to na liczbę orłów z wykonania n niezależnych rzutów (próby Bernoulliego) tej samej monety. Rozkład wielomianowy modeluje wynik n eksperymentów, gdzie wynik każdej próby ma rozkład kategoryczny , taki jak n- krotne toczenie k- bocznej matrycy .

Niech k będzie ustaloną liczbą skończoną. Matematycznie mamy k możliwych wzajemnie wykluczających się wyników, z odpowiednimi prawdopodobieństwami p 1 , ..., p k i n niezależnych prób. Ponieważ k wyników wyklucza się wzajemnie i jeden musi wystąpić, mamy p i  ≥ 0 dla i  = 1, ...,  k oraz . Następnie, jeśli zmienne losowe X i wskazują, ile razy wynik i jest obserwowany w n próbach, wektor X  = ( X 1 , ...,  X k ) jest zgodny z rozkładem wielomianowym z parametrami n i p , gdzie p  = ( s 1 , ...,  s k ). Chociaż próby są niezależne, ich wyniki X są zależne, ponieważ muszą być zsumowane do n.

Definicje

Prawdopodobieństwo funkcji masowej

Załóżmy, że ktoś przeprowadza eksperyment polegający na wydobyciu n kulek k różnych kolorów z torby, zastępując je po każdym losowaniu. Kulki tego samego koloru są równoważne. Oznacz zmienną będącą liczbą wydobytych kulek koloru i ( i = 1, ..., k ) jako X i , a jako p i oznacz prawdopodobieństwo, że dana ekstrakcja będzie w kolorze i . Funkcja masy prawdopodobieństwa tego rozkładu wielomianowego to:

dla nieujemnych liczb całkowitych x 1 , ..., x k .

Funkcję masy prawdopodobieństwa można wyrazić za pomocą funkcji gamma jako:

Ta forma wykazuje podobieństwo do rozkładu Dirichleta , który jest jego sprzężonym poprzednikiem .


Przykład

Załóżmy, że w trójstronnych wyborach w dużym kraju kandydat A otrzymał 20% głosów, kandydat B 30% głosów, a kandydat C 50% głosów. Jeżeli losowo wybiera się sześciu wyborców, jakie jest prawdopodobieństwo, że w próbie będzie dokładnie jeden zwolennik kandydata A, dwóch zwolenników kandydata B i trzech zwolenników kandydata C?

Uwaga: Ponieważ zakładamy, że głosująca populacja jest duża, rozsądne i dopuszczalne jest myślenie, że prawdopodobieństwa nie zmieniają się po wybraniu wyborcy do próby. Technicznie rzecz biorąc, jest to próbkowanie bez zastępowania, więc prawidłowym rozkładem jest wielowymiarowy rozkład hipergeometryczny , ale rozkłady zbiegają się w miarę wzrostu populacji.

Nieruchomości

Oczekiwana wartość i wariancja

Oczekuje się , ile razy Wynik i obserwowano na brak badania jest

Kowariancji jest następujący. Każdy wpis diagonalny jest wariancją zmiennej losowej o rozkładzie dwumianowym, a zatem jest

Wpisy poza przekątną to kowariancje :

dla i , j odrębne.

Wszystkie kowariancje są ujemne, ponieważ dla ustalonego n wzrost jednej składowej wektora wielomianowego wymaga zmniejszenia innej składowej.

Gdy te wyrażenia są połączone w macierz z elementem i, j, wynikiem jest macierz kowariancji dodatnio-półokreślonej k × k rzędu k  − 1. W szczególnym przypadku, gdy k  =  n i gdzie wszystkie p i są równe, kowariancja macierz jest macierzą centrującą .

Wpisy odpowiedniej macierzy korelacji to

Zauważ, że wielkość próbki wypada z tego wyrażenia.

Każda ze składowych k oddzielnie ma rozkład dwumianowy z parametrami n oraz p i , dla odpowiedniej wartości indeksu dolnego i .

Wsparcie rozkładu wielomianu jest zbiorem

Jego liczba elementów to

Notacja macierzowa

W notacji macierzowej

i

gdzie p T = wektor wiersza transponuje wektor kolumny p .


Wyobrażanie sobie

Jak plasterki uogólnionego trójkąta Pascala

Tak jak można zinterpretować rozkład dwumianowy jako (znormalizowane) jednowymiarowe (1D) wycinki trójkąta Pascala , tak samo można zinterpretować rozkład wielomianowy jako dwuwymiarowe (trójkątne) wycinki piramidy Pascala lub 3D/4D/+ (piramida- w kształcie) plastry wyższych wymiarowych odpowiedników trójkąta Pascala. To ujawnia interpretację zasięgu rozkładu: zdyskretyzowane „piramidy” równoboczne w dowolnym wymiarze – czyli simpleks z siatką.

Jako współczynniki wielomianu

Podobnie, tak jak można zinterpretować rozkład dwumianowy jako współczynniki wielomianu po rozszerzeniu, można zinterpretować rozkład wielomianowy jako współczynniki po rozszerzeniu. (Zauważ, że podobnie jak w przypadku rozkładu dwumianowego, współczynniki muszą sumować się do 1.) To jest pochodzenie nazwy „ rozkład wielomianowy ”.

Powiązane dystrybucje

W niektórych dziedzinach, takich jak przetwarzanie języka naturalnego , rozkłady jakościowy i wielomianowy są synonimami i często mówi się o rozkładzie wielomianowym, gdy w rzeczywistości chodzi o rozkład jakościowy. Wynika to z faktu, że czasami wygodnie jest wyrazić wynik rozkładu kategorycznego jako wektor „1-z-K” (wektor z jednym elementem zawierającym 1 i wszystkimi innymi elementami zawierającymi 0), a nie jako liczbę całkowitą w zakresie ; w tej formie rozkład kategoryczny jest równoważny rozkładowi wielomianowemu w jednej próbie.


Wnioskowanie statystyczne

Testy równoważności dla rozkładów wielomianowych

Celem testów równoważności jest ustalenie zgodności między teoretycznym rozkładem wielomianowym a obserwowanymi częstotliwościami zliczania. Rozkład teoretyczny może być w pełni określonym rozkładem wielomianowym lub parametryczną rodziną rozkładów wielomianowych.

Pozwolić oznacza teoretyczny rozkład wielomianu i pozwól być prawdziwym dystrybucja bazowy. Rozkłady i są uważane za równoważne, jeśli dla odległości i parametru tolerancji . Problem testu równoważności jest kontra . Prawdziwy rozkład bazowy jest nieznany. Zamiast tego obserwuje się częstotliwości zliczania , gdzie oznacza wielkość próbki. Test równoważności służy do odrzucenia . Jeśli można odrzucić, to równoważność między i jest pokazana na danym poziomie istotności. Test równoważności odległości euklidesowej można znaleźć w podręczniku Welleka (2010). Test równoważności dla całkowitej odległości zmienności został opracowany przez Ostrovskiego (2017). Dokładny test równoważności dla określonej skumulowanej odległości zaproponował Frey (2009).

Odległość między rzeczywistym rozkładem podstawowym a rodziną rozkładów wielomianowych jest określona przez . Następnie problem testu równoważności jest podany przez i . Odległość jest zwykle obliczana przy użyciu optymalizacji numerycznej. Testy dla tego przypadku zostały opracowane niedawno w Ostrovski (2018).


Metody obliczeniowe

Próbkowanie z rozkładu wielomianowego

Po pierwsze, zmień kolejność parametrów w taki sposób, aby były posortowane w kolejności malejącej (jest to tylko przyspieszenie obliczeń i nie jest to bezwzględnie konieczne). Teraz dla każdej próby narysuj zmienną pomocniczą X z rozkładu jednostajnego (0, 1). Wynikowy wynik to składnik

{ X J = 1, X k = 0 do K  ≠  j } jest obserwacja z podziału wielomianu z a n  = 1. suma niezależnych powtórzeniach tego doświadczenia jest obserwacja z podziału wielomianu z n równa liczbie takie powtórzenia.

Aby przeprowadzić symulację z rozkładu wielomianowego

Do symulacji z rozkładu wielomianowego można zastosować różne metody. Bardzo prostym rozwiązaniem jest użycie jednolitego generatora liczb pseudolosowych na (0,1). Najpierw dzielimy przedział (0,1) na  k podprzedziałów o długości równej prawdopodobieństwu k kategorii. Następnie generujemy n niezależnych liczb pseudolosowych, aby określić, w którym z k przedziałów występują i policzyć liczbę wystąpień w każdym przedziale.

Przykład

Jeśli mamy:

Kategorie 1 2 3 4 5 6
Prawdopodobieństwa 0,15 0,20 0,30 0,16 0,12 0,07
Najwyższe granice podprzedziałów 0,15 0,35 0,65 0,81 0,93 1,00

Następnie, korzystając z oprogramowania typu Excel, możemy zastosować następującą receptę:

Komórki : Ai Bi Ci ... Żołnierz amerykański
Formuły: Skraj() =Jeśli($Ai<0,15;1;0) =Jeśli(I($Ai>=0,15;$Ai<0,35);1;0) ... =Jeśli($Ai>=0,93;1;0)

Następnie użyjemy funkcji takich jak SumIf, aby zgromadzić obserwowane wyniki według kategorii i obliczyć oszacowaną macierz kowariancji dla każdej symulowanej próbki.

Innym sposobem jest użycie generatora dyskretnych liczb losowych. W takim przypadku kategorie muszą być oznaczone lub ponownie oznaczone wartościami liczbowymi.

W obu przypadkach wynikiem jest rozkład wielomianowy z k kategorii. Jest to równoważne, z ciągłym rozkładem losowym, aby symulować k niezależnych standaryzowanych rozkładów normalnych lub rozkład multinormalny N(0,I) mający k składowych o identycznym rozkładzie i statystycznie niezależnych.

Ponieważ liczebności wszystkich kategorii muszą sumować się do liczby prób, liczebności kategorii są zawsze ujemnie skorelowane.

Bibliografia

Cytaty

Źródła