Wcześniejsze prawdopodobieństwo - Prior probability

W Bayesa wnioskowania statystycznego , A przed rozkładem prawdopodobieństwa , często nazywana po prostu przed , od niepewna ilość jest rozkład prawdopodobieństwa , że wyrażania swoich przekonań na temat tej ilości przed niektóre dowody są brane pod uwagę. Na przykład, poprzednikiem może być rozkład prawdopodobieństwa reprezentujący względne proporcje wyborców, którzy będą głosować na konkretnego polityka w przyszłych wyborach. Nieznana wielkość może być raczej parametrem modelu lub zmienną ukrytą niż zmienną obserwowalną .

Twierdzenie Bayesa oblicza zrenormalizowany iloczyn punktowy funkcji wcześniejszej i funkcji wiarygodności , aby uzyskać późniejszy rozkład prawdopodobieństwa , który jest rozkładem warunkowym niepewnej wielkości podanej w danych.

Podobnie przed prawdopodobieństwo o zdarzenia losowego lub niepewnej propozycji jest bezwarunkowe prawdopodobieństwo , który jest przypisany przed wszelkie istotne dowody są brane pod uwagę.

Przeorów można tworzyć na wiele sposobów. Przeor można określić na podstawie wcześniejszych informacji, takich jak poprzednie eksperymenty. Przeora można wydobyć z czysto subiektywnej oceny doświadczonego eksperta. Uninformative przed mogą być tworzone, aby odzwierciedlać równowagę między wynikami, gdy brak jest informacji. Przedory mogą być również wybrane zgodnie z pewną zasadą, taką jak symetria lub maksymalizacja entropii przy danych ograniczeniach; przykładami są przełożony Jeffreys lub przełożony Bernardo. Kiedy istnieje rodzina sprzężonych przeorów , wybór przeora z tej rodziny upraszcza obliczenie późniejszej dystrybucji.

Parametry wcześniejszych rozkładów są rodzajem hiperparametru . Na przykład, jeśli stosuje się rozkład beta model rozkład parametru P z rozkładu Bernoulli'ego , a następnie:

  • p jest parametrem systemu bazowego (rozkład Bernoulliego), a
  • α i β to parametry wcześniejszego rozkładu (rozkład beta); stąd hiperparametry .

Same hiperparametry mogą mieć hiperprzedziałowe rozkłady wyrażające przekonania o ich wartościach. Model Bayesa z więcej niż jednym poziomem pierwszeństwa, taki jak ten, nazywany jest hierarchicznym modelem Bayesa .

Informacje wstępne

Uprzedzenie informacyjne wyraża konkretne, określone informacje o zmiennej. Przykładem jest wcześniejszy rozkład temperatury jutro w południe. Rozsądnym podejściem jest uczynienie z poprzedniego rozkładu normalnego o oczekiwanej wartości równej dzisiejszej temperaturze w południe, z wariancją równą dziennej zmienności temperatury atmosferycznej lub rozkładowi temperatury dla tego dnia w roku.

Ten przykład ma wspólną właściwość z wieloma poprzednikami, a mianowicie, że następstwo jednego problemu (dzisiejsza temperatura) staje się poprzednikiem innego problemu (temperatura jutra); istniejące wcześniej dowody, które zostały już uwzględnione, są częścią wcześniejszych, a ponieważ gromadzi się więcej dowodów, późniejsze są w dużej mierze zdeterminowane przez dowody, a nie przez jakiekolwiek pierwotne założenie, pod warunkiem, że pierwotne założenie dopuszczało możliwość tego, czym są dowody sugestia. Terminy „poprzedni” i „późniejszy” odnoszą się zazwyczaj do konkretnego punktu odniesienia lub obserwacji.

Słabo pouczające informacje

Słabo poinformowany wcześniejsze wyraża częściowe informacje o zmiennej. Przykładem jest ustawienie wcześniejszego rozkładu temperatury jutro w południe w St. Louis, aby zastosować rozkład normalny o średniej 50 stopni Fahrenheita i odchyleniu standardowym 40 stopni, co bardzo luźno ogranicza temperaturę do zakresu (10 stopni, 90 stopni). stopni) z niewielką szansą na spadek poniżej -30 stopni lub powyżej 130 stopni. Celem słabo informacyjnego argumentu jest uregulowanie , to znaczy utrzymanie wniosków w rozsądnym zakresie.

Nieinformacyjne prerie

Uninformative przed lub rozlany wcześniejsze wyraża niejasne lub ogólne informacje o zmiennej. Termin „nieinformacyjny wcześniej” jest nieco mylący. Taki przeor można również nazwać przeorem niezbyt pouczającym lub przeorem obiektywnym , tj. Takim , który nie jest wywołany subiektywnie.

Nieinformacyjne uprzedzenia mogą wyrażać „obiektywne” informacje, takie jak „zmienna jest dodatnia” lub „zmienna jest mniejsza niż pewien limit”. Najprostszą i najstarszą zasadą określania nieinformacyjnego przeora jest zasada obojętności , która przypisuje równe prawdopodobieństwa wszystkim możliwościom. W przypadku problemów związanych z estymacją parametrów użycie wcześniejszego bez informacji zazwyczaj daje wyniki, które nie różnią się zbytnio od konwencjonalnej analizy statystycznej, ponieważ funkcja wiarygodności często dostarcza więcej informacji niż poprzednia bez informacji.

Podejmowano pewne próby znalezienia prawdopodobieństw a priori , tj. Rozkładów prawdopodobieństwa w pewnym sensie logicznie wymaganych przez naturę stanu niepewności; są one przedmiotem filozoficznych kontrowersji, przy czym Bayesjanie są z grubsza podzieleni na dwie szkoły: „obiektywni bayesowcy”, którzy wierzą, że takie uprzedzenia istnieją w wielu użytecznych sytuacjach, oraz „subiektywni bayesowcy”, którzy wierzą, że w praktyce przeory zazwyczaj reprezentują subiektywne osądy opinii, które nie może być rygorystycznie uzasadnione (Williamson 2010). Być może najsilniejsze argumenty za obiektywnym bayesizmem podał Edwin T. Jaynes , opierając się głównie na konsekwencjach symetrii i zasadzie maksymalnej entropii.

Jako przykład a priori, ze względu na Jaynes (2003), rozważmy sytuację, w której wiadomo, że piłka została schowana pod jedną z trzech filiżanek, A, B lub C, ale nie ma innych informacji o jej lokalizacji. . W tym przypadku, gdy jednolity przed o p ( ) = P ( B ) = P ( C ) = 1/3 wydaje się intuicyjnie jak tylko rozsądny wybór. Bardziej formalnie możemy zobaczyć, że problem pozostaje ten sam, jeśli zamienimy etykiety („A”, „B” i „C”) kubków. Byłoby zatem dziwne, gdybyśmy wybrali przeora, dla którego permutacja etykiet spowodowałaby zmianę naszych przewidywań dotyczących tego, pod którym kubkiem piłka znajdzie się; jednolity przeor jest jedynym, który zachowuje tę niezmienność. Jeśli przyjmiemy tę zasadę niezmienności, można zobaczyć, że poprzedni jednolity jest logicznie poprawny przed reprezentacją tego stanu wiedzy. Ten przeor jest „obiektywny” w tym sensie, że jest właściwym wyborem do reprezentowania określonego stanu wiedzy, ale nie jest obiektywny w sensie bycia niezależną od obserwatora cechą świata: w rzeczywistości piłka istnieje pod określonym kubkiem , a mówienie o prawdopodobieństwach w tej sytuacji ma sens tylko wtedy, gdy jest obserwator o ograniczonej wiedzy o systemie.

Jako bardziej kontrowersyjny przykład, Jaynes opublikował argument (Jaynes 1968) oparty na niezmienności przeora przy zmianie parametrów, który sugeruje, że poprzednikiem reprezentującym całkowitą niepewność co do prawdopodobieństwa powinien być poprzednik Haldane'a p −1 (1 -  p ) −1 . Przykład, który podaje Jaynes, polega na znalezieniu substancji chemicznej w laboratorium i zapytaniu, czy rozpuści się ona w wodzie w powtarzanych eksperymentach. Poprzednik Haldane'a przypisuje zdecydowanie największą wagę i , wskazując, że próbka albo rozpuści się za każdym razem, albo nigdy się nie rozpuści, z równym prawdopodobieństwem. Jeśli jednak zaobserwowano, że próbki substancji chemicznej rozpuszczają się w jednym eksperymencie, a nie rozpuszczają się w innym doświadczeniu, to poprzednia aktualizacja jest aktualizowana do równomiernego rozkładu w przedziale [0, 1]. Uzyskuje się to stosując twierdzenie Bayesa do zbioru danych składającego się z jednej obserwacji rozpuszczania i jednej obserwacji nierozpuszczania, używając powyższego wcześniejszego. Przeor Haldane jest niewłaściwą dystrybucją wcześniejszą (co oznacza, że ​​ma nieskończoną masę). Harold Jeffreys wymyślił systematyczny sposób projektowania nieinformacyjnych wyprzedzeń, jak np. Jeffreys przed p −1/2 (1 -  p ) −1/2 dla zmiennej losowej Bernoulliego.

Można skonstruować przedory, które są proporcjonalne do miary Haara, jeśli przestrzeń parametrów X niesie naturalną strukturę grupową, która pozostawia niezmienny stan wiedzy bayesowskiej (Jaynes, 1968). Można to postrzegać jako uogólnienie zasady niezmienności użytej do uzasadnienia munduru przed trzema miseczkami w powyższym przykładzie. Na przykład w fizyce możemy oczekiwać, że eksperyment da takie same wyniki, niezależnie od naszego wyboru początku układu współrzędnych. To indukuje strukturę grupową grupy translacji na X , która określa wcześniejsze prawdopodobieństwo jako stały niewłaściwy poprzednik . Podobnie, niektóre pomiary są naturalnie niezmienne od wyboru dowolnej skali (np. Czy używane są centymetry czy cale, wyniki fizyczne powinny być równe). W takim przypadku grupa skali jest naturalną strukturą grupy, a odpowiadający jej poprzednik na X jest proporcjonalny do 1 / x . Czasami ma znaczenie, czy używamy niezmiennej lewostronnej, czy prawostronnej miary Haara. Na przykład, lewy i prawy niezmienny miary Haara w grupie afinicznej nie są równe. Berger (1985, s. 413) twierdzi, że prawostronna miara Haara jest właściwym wyborem.

Innym pomysłem, bronionym przez Edwina T. Jaynesa , jest wykorzystanie zasady maksymalnej entropii (MAXENT). Motywacją jest to, że entropia Shannona rozkładu prawdopodobieństwa mierzy ilość informacji zawartych w rozkładzie. Im większa entropia, tym mniej informacji dostarcza dystrybucja. Tak więc, maksymalizując entropię w odpowiednim zbiorze rozkładów prawdopodobieństwa na X , można znaleźć rozkład, który jest najmniej informacyjny w tym sensie, że zawiera najmniejszą ilość informacji zgodnych z ograniczeniami, które definiują zbiór. Na przykład maksymalna entropia przed przestrzenią dyskretną, biorąc pod uwagę tylko to, że prawdopodobieństwo jest znormalizowane do 1, jest poprzednią, która przypisuje równe prawdopodobieństwo każdemu stanowi. A w przypadku ciągłym maksymalna entropia poprzednia, biorąc pod uwagę, że gęstość jest znormalizowana ze średnią zerową i jednostkową wariancją, jest standardowym rozkładem normalnym . Zasada minimalnej entropii krzyżowej uogólnia MAXENT na przypadek „aktualizacji” dowolnego wcześniejszego rozkładu z odpowiednimi ograniczeniami w sensie maksymalnej entropii.

Podobną ideę, referencyjne priors , przedstawił José-Miguel Bernardo . Tutaj chodzi o maksymalizację oczekiwanej dywergencji Kullbacka-Leiblera w późniejszym rozkładzie w stosunku do poprzedniego. Maksymalizuje to oczekiwane późniejsze informacje o X, gdy poprzednia gęstość wynosi p ( x ); tak więc, w pewnym sensie, p ( x ) jest „najmniej informujące” przed X. Poprzednia referencyjna jest zdefiniowana w granicy asymptotycznej, tj. rozważa się granicę wcześniejszych uzyskanych w ten sposób, gdy liczba punktów danych osiąga nieskończoność . W omawianym przypadku rozbieżność KL między wcześniejszym i późniejszym rozkładem jest określona przez

Tutaj jest wystarczająca statystyka dla jakiegoś parametru . Całka wewnętrzna to rozbieżność KL między rozkładami późniejszymi i poprzednimi, a wynikiem jest średnia ważona ze wszystkich wartości . Dzieląc logarytm na dwie części, odwracając kolejność całek w drugiej części i zauważając, że nie zależy to od plonów

Całka wewnętrzna w drugiej części jest całką po gęstości złącza . To jest rozkład krańcowy , więc mamy

Teraz używamy pojęcia entropii, która w przypadku rozkładów prawdopodobieństwa jest ujemną wartością oczekiwaną logarytmu prawdopodobieństwa funkcji masy lub gęstości lub Użycie tego w ostatnim równaniu daje

Słowami, KL jest ujemną wartością oczekiwaną powyżej entropii warunkowej plus krańcowa (tj. Bezwarunkowa) entropia . W ograniczającym przypadku, w którym wielkość próby dąży do nieskończoności, twierdzenie Bernsteina-von Misesa stwierdza, że ​​rozkład warunkowy względem danej obserwowanej wartości jest normalny z wariancją równą odwrotności informacji Fishera przy „prawdziwej” wartości . Entropia normalnej funkcji gęstości jest równa połowie logarytmu gdzie jest wariancja rozkładu. Dlatego w tym przypadku gdzie jest arbitralnie duża liczebność próby (do której proporcjonalna jest informacja Fishera) i jest to wartość „prawdziwa”. Ponieważ to nie zależy od tego, można ją wyjąć z całki, a ponieważ ta całka znajduje się w przestrzeni prawdopodobieństwa, jest równa jedności. Stąd możemy zapisać asymptotyczną postać KL jako

gdzie jest proporcjonalne do (asymptotycznie dużej) wielkości próby. Nie znamy wartości . W istocie sama idea jest sprzeczna z filozofią wnioskowania bayesowskiego, w której „prawdziwe” wartości parametrów są zastępowane przez rozkłady wcześniejsze i późniejsze. Więc usuwamy , zastępując ją i przyjmując oczekiwaną wartość normalnej entropii, którą otrzymujemy przez pomnożenie przez i całkowanie . To pozwala nam łączyć otrzymywane logarytmy

Jest to dywergencja quasi-KL („quasi” w tym sensie, że pierwiastek kwadratowy z informacji Fishera może być podstawą niewłaściwego rozkładu). Ze względu na znak minus musimy to zminimalizować, aby zmaksymalizować dywergencję KL, od której zaczęliśmy. Minimalna wartość ostatniego równania występuje, gdy dwa rozkłady w argumencie logarytmicznym, niewłaściwe lub nie, nie różnią się od siebie. To z kolei ma miejsce, gdy poprzedni rozkład jest proporcjonalny do pierwiastka kwadratowego z informacji Fishera funkcji wiarygodności. Stąd w przypadku jednoparametrowym pierwszeństwa odniesienia i pierwszeństwa Jeffreysa są identyczne, mimo że Jeffreys ma zupełnie inne uzasadnienie.

W przypadku problemów wielowymiarowych przedwykonania są często obiektywnym priorytetem wyboru, ponieważ inne reguły (np. Reguła Jeffreysa ) mogą skutkować problematycznymi zachowaniami.

Obiektywne wcześniejsze rozkłady można również wyprowadzić z innych zasad, takich jak informacje lub teoria kodowania (patrz np. Minimalna długość opisu ) lub statystyki częstości (patrz dopasowanie częste ). Takie metody są stosowane w teorii wnioskowania indukcyjnego Solomonoffa . Konstruowanie obiektywnych uprzedzeń zostało niedawno wprowadzone w bioinformatyce, a zwłaszcza w biologii systemów nowotworowych, gdzie wielkość próby jest ograniczona i dostępna jest ogromna wcześniejsza wiedza . W tych metodach stosuje się kryterium oparte na teorii informacji, takie jak dywergencja KL lub funkcja logarytmicznego prawdopodobieństwa dla binarnych nadzorowanych problemów uczenia się i problemów z modelem mieszanym.

Filozoficzne problemy związane z nieinformacyjnymi wyprzedzeniami wiążą się z wyborem odpowiedniej miary, czyli skali pomiaru. Załóżmy, że chcemy przeora dla prędkości biegacza, który jest nam nieznany. Moglibyśmy określić, powiedzmy, rozkład normalny jako poprzednik dla jego prędkości, ale alternatywnie moglibyśmy określić normalny wcześniejszy czas potrzebny do pokonania 100 metrów, co jest proporcjonalne do odwrotności pierwszego przeora. Są to bardzo różne terminy, ale nie jest jasne, który z nich jest preferowany. Często pomijana metoda grup transformacji Jaynesa może odpowiedzieć na to pytanie w niektórych sytuacjach.

Podobnie, gdybyśmy poproszeni o oszacowanie nieznanej proporcji między 0 a 1, moglibyśmy powiedzieć, że wszystkie proporcje są jednakowo prawdopodobne i użyć wcześniej jednakowego. Alternatywnie, możemy powiedzieć, że wszystkie rzędy wielkości dla proporcji są równie prawdopodobne, logarytmiczna poprzednia , która jest jednorodną przed logarytmem proporcji. W Jeffreys wcześniejsze próby rozwiązania tego problemu poprzez obliczenie uprzednie która wyraża tę samą wiarę bez względu na metryczny jest używany. Jeffreys przed nieznaną proporcją p wynosi p −1/2 (1 -  p ) −1/2 , co różni się od zalecenia Jaynesa.

Przebiegi oparte na pojęciach prawdopodobieństwa algorytmicznego są wykorzystywane w wnioskowaniu indukcyjnym jako podstawa indukcji w bardzo ogólnych warunkach.

Praktyczne problemy związane z nieinformacyjnymi prewencjami obejmują wymóg, aby późniejsza dystrybucja była właściwa. Zwykłe nieinformacyjne wyprzedzenia dotyczące ciągłych, nieograniczonych zmiennych są niewłaściwe. Nie musi to stanowić problemu, jeśli dystrybucja tylna jest właściwa. Inną ważną kwestią jest to, że jeśli nieinformacyjny argument ma być używany rutynowo , tj. Z wieloma różnymi zestawami danych, powinien mieć dobre właściwości częstościowe . Normalnie bayesianin nie zajmowałby się takimi kwestiami, ale może to być ważne w tej sytuacji. Na przykład chciałoby się, aby każda reguła decyzyjna oparta na późniejszym rozkładzie była dopuszczalna w ramach przyjętej funkcji straty. Niestety dopuszczalność jest często trudna do sprawdzenia, chociaż niektóre wyniki są znane (np. Berger i Strawderman 1996). Problem jest szczególnie dotkliwy w przypadku hierarchicznych modeli Bayesa ; zwykłe uprzedzenia (np. przeor Jeffreysa) mogą dawać bardzo niedopuszczalne reguły decyzyjne, jeśli są stosowane na wyższych szczeblach hierarchii.

Niewłaściwe uprzedzenia

Niech wydarzenia wzajemnie się wykluczają i wyczerpują. Jeśli twierdzenie Bayesa jest zapisane jako

wtedy jest jasne, że ten sam wynik zostałby uzyskany, gdyby wszystkie poprzednie prawdopodobieństwa P ( A i ) i P ( A j ) zostały pomnożone przez daną stałą; to samo dotyczy ciągłej zmiennej losowej . Jeśli sumowanie w mianowniku jest zbieżne, późniejsze prawdopodobieństwa nadal będą sumować się (lub całkować) do 1, nawet jeśli poprzednie wartości nie są, więc przedprzedzenia mogą wymagać jedynie określenia we właściwej proporcji. Idąc dalej tą ideą, w wielu przypadkach suma lub całka poprzednich wartości może nawet nie być skończona, aby uzyskać sensowne odpowiedzi na późniejsze prawdopodobieństwa. W takim przypadku przeor nazywany jest przeorem niewłaściwym . Jednak dystrybucja późniejsza nie musi być prawidłową dystrybucją, jeśli dystrybucja poprzednia jest niewłaściwa. Wynika to jasno z przypadku, gdy zdarzenie B jest niezależne od wszystkich A j .

Statystycy czasami używają niewłaściwych zasad jako nieinformacyjnych . Na przykład, jeśli potrzebują wcześniejszego rozkładu dla średniej i wariancji zmiennej losowej, mogą założyć p ( m v ) ~ 1 / v (dla v  > 0), co sugerowałoby, że każda wartość średniej jest „równa prawdopodobne ”i że wartość dodatniej wariancji staje się„ mniej prawdopodobna ”w odwrotnej proporcji do jej wartości. Wielu autorów (Lindley, 1973; De Groot, 1937; Kass i Wasserman, 1996) ostrzega przed niebezpieczeństwem nadinterpretowania tych uprzedzeń, ponieważ nie są one gęstościami prawdopodobieństwa. Jedyne znaczenie, jakie mają, znajduje się w odpowiednim późniejszym, o ile jest dobrze zdefiniowane dla wszystkich obserwacji. ( Przeor Haldane jest typowym kontrprzykładem).

Natomiast funkcje wiarygodności nie muszą być całkowane, a funkcja wiarygodności, która jest jednolita 1, odpowiada brakowi danych (wszystkie modele są równie prawdopodobne, przy braku danych): reguła Bayesa mnoży poprzedni przez prawdopodobieństwo, a pusty iloczyn jest po prostu stałym prawdopodobieństwem 1. Jednak bez rozpoczynania od wcześniejszego rozkładu prawdopodobieństwa nie uzyskuje się późniejszego rozkładu prawdopodobieństwa, a zatem nie można całkować ani obliczać oczekiwanych wartości lub strat. Aby uzyskać szczegółowe informacje, patrz Funkcja prawdopodobieństwa § Niecałkowitość .

Przykłady

Przykłady niewłaściwych zachowań obejmują:

Należy zauważyć, że te funkcje, interpretowane jako rozkłady jednorodne, mogą być również interpretowane jako funkcja prawdopodobieństwa w przypadku braku danych, ale nie są one właściwymi priorytetami.

Zobacz też

Uwagi

  1. ^ Carlin, Bradley P .; Louis, Thomas A. (2008). Bayesian Methods for Data Analysis (Third ed.). CRC Press. ISBN   9781584886983 .
  2. ^ Ten przeor został zaproponowany przez JBS Haldane'a w „A note on inverse probability”, Mathematical Proceedings of the Cambridge Philosophical Society 28, 55–61, 1932, doi : 10.1017 / S0305004100010495 . Patrz także J. Haldane, „The Precision of seen values ​​of small frequency”, Biometrika, 35: 297–300, 1948, doi : 10.2307 / 2332350 , JSTOR   2332350 .
  3. ^ Esfahani, MS; Dougherty, ER (2014). „Włączenie wiedzy o ścieżkach biologicznych do konstrukcji przeorów dla optymalnej klasyfikacji bayesowskiej - IEEE Journals & Magazine”. Transakcje IEEE / ACM dotyczące biologii obliczeniowej i bioinformatyki . 11 (1): 202–18. doi : 10.1109 / TCBB.2013.143 . PMID   26355519 .
  4. ^ Boluki Shahin; Esfahani, Mohammad Shahrokh; Qian, Xiaoning; Dougherty, Edward R (grudzień 2017). „Włączanie wcześniejszej wiedzy biologicznej do uczenia bayesowskiego poprzez maksymalne progi informacyjne oparte na wiedzy” . BMC Bioinformatics . 18 (S14): 552. doi : 10,1186 / s12859-017-1893-4 . ISSN   1471-2105 . PMC   5751802 . PMID   29297278 .
  5. ^ Jaynes (1968), str. 17, patrz także Jaynes (2003), rozdział 12. Należy zauważyć, że rozdział 12 nie jest dostępny w wersji wstępnej online, ale można go wyświetlić w Książkach Google.
  6. ^ Christensen, Ronald; Johnson, Wesley; Branscum, Adam; Hanson, Timothy E. (2010). Idee Bayesa i analiza danych: wprowadzenie dla naukowców i statystyków . Hoboken: CRC Press. p. 69. ISBN   9781439894798 .

Bibliografia