Probit - Probit

Wykres funkcji probit

W teorii prawdopodobieństwa i statystyki The probit funkcją jest funkcja kwantylem powiązany ze standardowym rozkładu normalnego . Ma zastosowanie w analizie danych i uczeniu maszynowym, w szczególności eksploracyjnej grafice statystycznej oraz specjalistycznego modelowania regresji binarnych zmiennych odpowiedzi .

Matematycznie probitów jest odwrotny na dystrybuantę standardowego rozkładu normalnego, który jest oznaczony jako tak probitów jest zdefiniowany jako

.

Głównie ze względu na centralne twierdzenie graniczne , standardowy rozkład normalny odgrywa fundamentalną rolę w teorii prawdopodobieństwa i statystyce. Jeśli weźmiemy pod uwagę znany fakt, że standardowy rozkład normalny umieszcza 95% prawdopodobieństwa między -1,96 a 1,96 i jest symetryczny wokół zera, wynika z tego, że

Funkcja probit daje obliczenie „odwrotne”, generując wartość standardowej normalnej zmiennej losowej związanej z określonym prawdopodobieństwem skumulowanym. Kontynuując przykład,

.

Ogólnie,

oraz

Rozwój koncepcyjny

Idea funkcji probitowej została opublikowana przez Chestera Ittnera Blissa w artykule w czasopiśmie Science z 1934 roku na temat sposobu traktowania danych, takich jak procent szkodników zabitych przez pestycyd . Bliss zaproponowała przekształcenie procent zabitych w „ prob zdolność ONZ to ” (lub „probit”), który został liniowo związane z nowoczesnej definicji (zdefiniował go arbitralnie jako równy 0 do 0,0001 do 0,9999 i 1). Dołączył tabelę, która miała pomóc innym naukowcom w przeliczeniu procentu zabicia na jego probit, który mogli następnie wykreślić w stosunku do logarytmu dawki, a tym samym, miejmy nadzieję, uzyskać mniej więcej prostą linię. Taki tak zwany model probitowy jest nadal ważny w toksykologii, a także w innych dziedzinach. Podejście to jest uzasadnione w szczególności, jeśli zmienność odpowiedzi można zracjonalizować jako logarytmiczno-normalny rozkład tolerancji między osobnikami w teście, gdzie tolerancja konkretnego osobnika jest dawką wystarczającą dla odpowiedzi będącej przedmiotem zainteresowania.

Metoda wprowadzona przez Bliss została przeniesiona do Probit Analysis , ważnego tekstu na temat zastosowań toksykologicznych autorstwa DJ Finney . Wartości podane przez Finneya można wyprowadzić z probitów zdefiniowanych tutaj, dodając wartość 5. To rozróżnienie podsumowuje Collett (s. 55): „Pierwotna definicja probitu [z dodanymi 5] miała przede wszystkim na celu uniknięcie konieczności pracy z ujemnymi prawdopodobieństwami; ... Ta definicja jest nadal używana w niektórych kwartałach, ale w głównych pakietach oprogramowania statystycznego dla tego, co nazywa się analizą probitów, probity są definiowane bez dodawania 5." Należy zauważyć, że metodologia probitowa, w tym optymalizacja numeryczna pod kątem dopasowania funkcji probitowych, została wprowadzona przed powszechną dostępnością obliczeń elektronicznych. Podczas korzystania z tabel wygodnie było mieć jednolicie dodatnie wartości prawdopodobieństwa. Wspólne obszary zastosowań nie wymagają pozytywnych prawdopodobieństw.

Diagnozowanie odchylenia rozkładu od normalności

Oprócz zapewnienia podstawy dla ważnych typów regresji, funkcja probitowa jest przydatna w analizie statystycznej do diagnozowania odchyleń od normalności, zgodnie z metodą wykreślania Q–Q. Jeśli zestaw danych jest faktycznie próbki z rozkładem normalnym , wykres wartości przed ich wynikami probitowy będzie w przybliżeniu liniowy. Specyficzne odchylenia od normalności, takie jak asymetria , ciężkie ogony , czy bimodalność można zdiagnozować na podstawie wykrycia określonych odchyleń od liniowości. Chociaż wykres Q–Q może być używany do porównania z dowolną rodziną rozkładów (nie tylko normalną), normalny wykres Q–Q jest stosunkowo standardową procedurą analizy danych eksploracyjnych, ponieważ założenie normalności jest często punktem wyjścia do analizy.

Obliczenie

Rozkład normalny CDF i jego odwrotność nie są dostępne w formie zamkniętej , a obliczenia wymagają ostrożnego stosowania procedur numerycznych. Jednak funkcje te są powszechnie dostępne w oprogramowaniu do statystyki i modelowania prawdopodobieństwa oraz w arkuszach kalkulacyjnych. Na przykład w programie Microsoft Excel funkcja probit jest dostępna jako norm.s.inv(p). W środowiskach obliczeniowych, w których dostępne są numeryczne implementacje funkcji błędu odwrotnego , funkcję probitową można otrzymać jako

Przykładem jest MATLAB , gdzie dostępna jest funkcja 'erfinv'. Język Mathematica implementuje „InverseErf”. Inne środowiska bezpośrednio realizować funkcję probit jak pokazano w poniższej sesji w języku programowania R .

> qnorm(0.025)
[1] -1.959964
> pnorm(-1.96)
[1] 0.02499790

Szczegóły dotyczące obliczania odwrotnej funkcji błędu można znaleźć w [1] . Wichura podaje szybki algorytm obliczania funkcji probit do 16 miejsc po przecinku; jest to używane w R do generowania losowych zmiennych dla rozkładu normalnego.

Równanie różniczkowe zwyczajne dla funkcji probitowej

Innym sposobem obliczania jest tworzenie nieliniowego równania różniczkowego zwyczajnego (ODE) dla probitu, zgodnie z metodą Steinbrechera i Shawa. Skrót funkcji probit jako , ODE to

gdzie jest funkcją gęstości prawdopodobieństwa w .

W przypadku Gaussa:

Znowu różnicowanie:

ze środkowymi (początkowymi) warunkami

Równanie to można rozwiązać kilkoma metodami, w tym klasycznym podejściem szeregów potęgowych. Na tej podstawie można opracować rozwiązania o dowolnie dużej dokładności, oparte na podejściu Steinbrechera do szeregu dla funkcji błędu odwrotnego. Rozwiązanie serii mocy jest podane przez

gdzie współczynniki spełniają nieliniową rekurencję

z . W tej formie stosunek jak .

Logit

Porównanie funkcji logitowej z skalowany probit (czyli odwrotność CDF z rozkładu normalnego ), porównując vs. , co czyni stoki tych samych co do pochodzenia.

Ściśle związane z funkcją probitowej (i modelu probit ) są logarytmicznej funkcji i logarytmicznej modelu . Odwrotność funkcji logistycznej dana jest wzorem

Analogicznie do modelu probitowego możemy założyć, że taka wielkość jest powiązana liniowo ze zbiorem predyktorów, w wyniku czego powstaje model logitowy , będący w szczególności podstawą modelu regresji logistycznej , najbardziej rozpowszechnioną formę analizy regresji dla danych kategorycznych odpowiedzi. W obecnej praktyce statystycznej modele regresji probitowej i logitowej są często traktowane jako przypadki uogólnionego modelu liniowego .

Zobacz też

Bibliografia