Niezależne zmienne losowe o identycznym rozkładzie - Independent and identically distributed random variables

W teorii prawdopodobieństwa i statystyce zbiór zmiennych losowych jest niezależny i ma identyczny rozkład, jeśli każda zmienna losowa ma taki sam rozkład prawdopodobieństwa jak inne i wszystkie są od siebie niezależne . Ta właściwość jest zwykle określana skrótem iid lub iid lub IID . Tutaj używany jest iid , ponieważ jest najbardziej rozpowszechniony.

Wprowadzenie

W statystyce powszechnie przyjmuje się, że obserwacje w próbie są skuteczne. Założenie (lub wymóg), że obserwacje są prawidłowe, zwykle upraszcza matematykę leżącą u podstaw wielu metod statystycznych (patrz statystyka matematyczna i teoria statystyczna ). Jednak w praktycznych zastosowaniach modelowania statystycznego założenie to może być realistyczne lub nie. Aby częściowo sprawdzić, jak realistyczne jest założenie dla danego zbioru danych, można obliczyć korelację , narysować wykresy opóźnienia lub przeprowadzić test punktu zwrotnego . Uogólnienie wymiennych zmiennych losowych jest często wystarczające i łatwiejsze do osiągnięcia.

Założenie iid jest ważne w klasycznej postaci centralnego twierdzenia granicznego , które stwierdza, że ​​rozkład prawdopodobieństwa sumy (lub średniej) zmiennych iid o skończonej wariancji zbliża się do rozkładu normalnego .

Często założenie iid pojawia się w kontekście sekwencji zmiennych losowych. Następnie „niezależny i identycznie rozłożony” oznacza, że ​​element w sekwencji jest niezależny od zmiennych losowych, które występowały przed nim. W ten sposób sekwencja iid różni się od sekwencji Markowa , gdzie rozkład prawdopodobieństwa dla n- tej zmiennej losowej jest funkcją poprzedniej zmiennej losowej w sekwencji (dla sekwencji Markowa pierwszego rzędu). Sekwencja iid nie oznacza, że ​​prawdopodobieństwa dla wszystkich elementów przestrzeni próbkowania lub przestrzeni zdarzeń muszą być takie same. Na przykład, powtarzające się rzuty załadowanymi kośćmi dadzą sekwencję, która jest iid, pomimo tendencyjnych wyników.

Definicja

Definicja dwóch zmiennych losowych

Załóżmy, że zmienne losowe i są zdefiniowane, aby przyjmować wartości w . Niech i być skumulowane funkcje dystrybucyjne z i , odpowiednio, i oznaczenia ich wspólną dystrybuantę przez .

Dwie zmienne losowe i mają identyczny rozkład wtedy i tylko wtedy, gdy .

Dwie zmienne losowe i są niezależne wtedy i tylko wtedy, gdy . (Zobacz dalej Niezależność (teoria prawdopodobieństwa) § Dwie zmienne losowe .)

Dwie zmienne losowe i są iid, jeśli są niezależne i identycznie rozmieszczone, tj. Wtedy i tylko wtedy, gdy

 

 

 

 

( Równanie 1 )

Definicja więcej niż dwóch zmiennych losowych

Definicja rozciąga się naturalnie na więcej niż dwie zmienne losowe. Mówimy, że zmienne losowe są iid, jeśli są niezależne (patrz dalej Niezależność (teoria prawdopodobieństwa) # Więcej niż dwie zmienne losowe ) i mają identyczny rozkład, tj. Wtedy i tylko wtedy, gdy

 

 

 

 

( Równanie 2 )

gdzie oznacza wspólną skumulowaną funkcję dystrybucji .

Przykłady

Poniżej znajdują się przykłady lub zastosowania zmiennych losowych iid:

  • Następuje sekwencja wyników obrotów uczciwego lub niesprawiedliwego koła ruletki. Jedną z konsekwencji tego jest to, że jeśli kulka ruletki wyląduje na „czerwonym”, na przykład 20 razy z rzędu, następny obrót nie jest mniej lub bardziej prawdopodobny być „czarnym” niż na jakimkolwiek innym spinie (patrz błąd Hazardzisty ).
  • Następuje sekwencja uczciwych lub załadowanych rzutów kośćmi
  • Następuje sekwencja uczciwych lub nieuczciwych rzutów monetą
  • W przetwarzaniu sygnałów i przetwarzaniu obrazu pojęcie transformacji do iid implikuje dwie specyfikacje, część „id” (id = identycznie rozłożona) i część „i”. (i. = niezależna) część:
    • (id) poziom sygnału musi być zrównoważony na osi czasu;
    • (i.) widmo sygnału musi zostać spłaszczone, tj. przekształcone przez filtrację (taką jak dekonwolucja ) do sygnału szumu białego (tj. sygnału, w którym wszystkie częstotliwości są jednakowo obecne).

Poniżej przedstawiono przykłady próbkowania danych, które nie spełniają iid założenia:

  • Zbiór danych medycznych, w którym pobieranych jest wiele próbek od wielu pacjentów, jest bardzo prawdopodobne, że próbki od tych samych pacjentów mogą być skorelowane.
  • Próbki pobrane z procesów zależnych od czasu, na przykład dane ze spisów powszechnych w ciągu roku.

Uogólnienia

Wiele wyników, które zostały po raz pierwszy udowodnione przy założeniu, że zmienne losowe są iid, okazały się prawdziwe nawet przy słabszym założeniu o rozkładzie.

Wymienne zmienne losowe

Najbardziej ogólnym pojęciem, które ma wspólne główne właściwości zmiennych iid, są wymienne zmienne losowe , wprowadzone przez Bruno de Finettiego . Wymienialność oznacza, że ​​chociaż zmienne mogą nie być niezależne, przyszłe zachowują się jak przeszłe - formalnie każda wartość skończonego ciągu jest tak samo prawdopodobna, jak każda permutacja tych wartości - łączny rozkład prawdopodobieństwa jest niezmienny w grupie symetrycznej .

Zapewnia to przydatne uogólnienie - na przykład próbkowanie bez wymiany nie jest niezależne, ale można je wymieniać.

Proces Lévy

W rachunku stochastycznym zmienne iid są traktowane jako dyskretny proces Lévy'ego w czasie : każda zmienna podaje, jak bardzo zmienia się ona w czasie. Na przykład sekwencja prób Bernoulliego jest interpretowana jako proces Bernoulliego . Można to uogólnić, aby uwzględnić ciągłe procesy Lévy'ego w czasie, a wiele procesów Lévy'ego można postrzegać jako granice iid zmiennych - na przykład proces Wienera jest granicą procesu Bernoulliego.

W uczeniu maszynowym

W teorii uczenia maszynowego często przyjmuje się założenie, że uczące zestawy danych sugerują, że wszystkie próbki pochodzą z tego samego procesu generowania i zakłada się, że proces generowania nie ma pamięci o wcześniej wygenerowanych próbkach.

Zobacz też

Bibliografia

Cytaty

Źródła