Koniugat przed - Conjugate prior
W bayesowskiej teorii prawdopodobieństwa , jeśli rozkład a posteriori p ( θ | x ) należy do tej samej rodziny rozkładów prawdopodobieństwa co wcześniejszy rozkład prawdopodobieństwa p (θ), a priori i a posteriori nazywamy rozkładami sprzężonymi, a a priori nazywamy sprzężonymi uprzednimi dla funkcji wiarygodności p (x | θ ).
Sprzężona uprzednia jest wygodą algebraiczną, dającą wyrażenie w formie zamkniętej dla a posteriori; w przeciwnym razie może być konieczne całkowanie numeryczne . Ponadto sprzężone wartości a priori mogą dawać intuicję, pokazując w bardziej przejrzysty sposób, w jaki sposób funkcja wiarygodności aktualizuje rozkład uprzedni.
Pojęcie, jak również termin „sprzężony uprzedni”, zostały wprowadzone przez Howarda Raiffę i Roberta Schlaifera w swojej pracy nad bayesowską teorią decyzji . Podobną koncepcję odkrył niezależnie George Alfred Barnard .
Przykład
Postać sprzężenia wcześniejszego można ogólnie określić przez sprawdzenie gęstości prawdopodobieństwa lub funkcji masy prawdopodobieństwa rozkładu. Rozważmy na przykład zmienną losową, na którą składa się liczba sukcesów w próbach Bernoulliego z nieznanym prawdopodobieństwem sukcesu w [0,1]. Ta zmienna losowa będzie miała rozkład dwumianowy , z funkcją masy prawdopodobieństwa postaci
Zwykłym sprzężeniem poprzedzającym jest rozkład beta z parametrami ( , ):
gdzie i są wybrane tak, aby odzwierciedlały wszelkie istniejące przekonania lub informacje ( =1 i = 1 dałoby jednorodny rozkład ), a Β ( , ) jest funkcją Beta działającą jako stała normalizująca .
W tym kontekście, i nazywane są hiperparametrów (parametry przed), aby odróżnić je od parametrów modelu bazowego (tutaj q ). Typową cechą sprzężonych a priori jest to, że wymiarowość hiperparametrów jest o jeden większa niż parametrów pierwotnego rozkładu. Jeśli wszystkie parametry są wartościami skalarnymi, oznacza to, że będzie o jeden hiperparametr więcej niż parametr; ale dotyczy to również parametrów o wartościach wektorowych i macierzowych. (Patrz ogólny artykuł na wykładniczy rodziny , a także rozważyć rozkład Wishart koniugat przed z macierzy kowariancji z wielowymiarowej rozkładu normalnego , na przykład w przypadku gdy duża wymiarowości uczestniczy).
Jeśli następnie spróbkujemy tę zmienną losową i otrzymamy s sukcesów i f niepowodzeń, mamy
czyli kolejna dystrybucja Beta z parametrami ( + s , + f ). Ten rozkład a posteriori mógłby być następnie użyty jako poprzedni dla większej liczby próbek, przy czym hiperparametry po prostu dodają każdą dodatkową informację w miarę jej pojawiania się.
Interpretacje
Pseudo-obserwacje
Często przydatne jest myślenie o hiperparametrach sprzężonego wcześniejszego rozkładu jako odpowiadających zaobserwowaniu pewnej liczby pseudoobserwacji o właściwościach określonych przez parametry. Na przykład, wartości oraz o rozkładzie beta można traktować jako odpowiadające sukcesów i niepowodzeń, czy tryb tylnego służy do wyboru ustawienia parametru optymalna lub sukcesy i porażki, jeżeli tylny średni służy do wyboru ustawienia parametru optymalna. Ogólnie rzecz biorąc, dla prawie wszystkich sprzężonych rozkładów wcześniejszych hiperparametry można interpretować w kategoriach pseudoobserwacji. Może to pomóc zarówno w zapewnieniu intuicji za często niechlujnymi równaniami aktualizacji, jak i w wyborze rozsądnych hiperparametrów dla wcześniejszego.
Analogia z funkcjami własnymi
Sprzężone a priori są analogiczne do funkcji własnych w teorii operatorów , ponieważ są dystrybucjami, na których „operator warunkowania” działa w dobrze rozumiany sposób, myśląc o procesie zmiany od a priori do a posteriori jako operator.
Zarówno w funkcjach własnych, jak i sprzężonych a priori istnieje przestrzeń skończenie wymiarowa, która jest zachowywana przez operator: wyjście ma tę samą formę (w tej samej przestrzeni) co wejście. To znacznie upraszcza analizę, ponieważ w przeciwnym razie uwzględnia się przestrzeń nieskończenie wymiarową (przestrzeń wszystkich funkcji, przestrzeń wszystkich rozkładów).
Jednak procesy są tylko analogiczne, a nie identyczne: warunkowanie nie jest liniowe, ponieważ przestrzeń rozkładów nie jest zamknięta kombinacją liniową , tylko kombinacją wypukłą , a a posteriori ma tylko taką samą formę jak a priori, a nie wielokrotność skalarną.
Tak jak można łatwo przeanalizować, jak rozwija się liniowa kombinacja funkcji własnych pod wpływem operatora (ponieważ w odniesieniu do tych funkcji operator jest diagonalizowany ), można łatwo przeanalizować, jak wypukła kombinacja sprzężonych wartości a priori ewoluuje pod warunkiem; nazywa się to za pomocą hyperprior , i odpowiada za pomocą gęstości mieszaniny koniugatu priors zamiast pojedynczego koniugatu na wcześniej.
Układ dynamiczny
Można myśleć o warunkowaniu na sprzężonych a priori jako o zdefiniowaniu pewnego (czasu dyskretnego) systemu dynamicznego : z danego zbioru hiperparametrów przychodzące dane aktualizują te hiperparametry, więc można postrzegać zmianę hiperparametrów jako rodzaj „ewolucji w czasie” system, odpowiadający "uczeniu się". Rozpoczęcie w różnych punktach daje różne przepływy w czasie. Jest to znowu analogiczne do systemu dynamicznego zdefiniowanego przez operator liniowy, ale zauważ, że ponieważ różne próbki prowadzą do różnych wniosków, nie jest to po prostu zależne od czasu, ale raczej od danych w czasie. Aby zapoznać się z podobnymi podejściami, zobacz Rekurencyjne szacowanie bayesowskie i Asymilacja danych .
Praktyczny przykład
Załóżmy, że w Twoim mieście działa wypożyczalnia samochodów. Kierowcy mogą wysadzać i odbierać samochody w dowolnym miejscu w granicach miasta. Możesz znaleźć i wypożyczyć samochody za pomocą aplikacji.
Załóżmy, że chcesz znaleźć prawdopodobieństwo znalezienia wypożyczonego samochodu w niewielkiej odległości od Twojego adresu domowego o dowolnej porze dnia.
W ciągu trzech dni patrzysz na aplikację i znajdujesz następującą liczbę samochodów w niewielkiej odległości od Twojego adresu domowego:
Jeśli założymy, że dane pochodzą z rozkładu Poissona , możemy obliczyć oszacowanie maksymalnego prawdopodobieństwa parametrów modelu, który jest Używając tego oszacowania maksymalnego prawdopodobieństwa możemy obliczyć prawdopodobieństwo, że w danym dniu będzie dostępny co najmniej jeden samochód:
Jest to rozkład Poissona, który z największym prawdopodobieństwem wygenerował zaobserwowane dane . Ale dane mogły również pochodzić z innego rozkładu Poissona, np. z , lub , itd. W rzeczywistości istnieje nieskończona liczba rozkładów Poissona, które mogły wygenerować obserwowane dane, a przy stosunkowo niewielkiej liczbie punktów danych nie powinniśmy być pewni, które dokładny rozkład trucizn wygenerował te dane. Intuicyjnie powinniśmy zamiast tego przyjąć średnią ważoną prawdopodobieństwa każdego z tych rozkładów Poissona, ważoną według prawdopodobieństwa każdego z nich, biorąc pod uwagę dane, które zaobserwowaliśmy .
Ogólnie rzecz biorąc, wielkość ta jest znana jako rozkład predykcyjny a posteriori, gdzie jest nowym punktem danych, danymi obserwowanymi i parametrami modelu. Korzystając z twierdzenia Bayesa, możemy rozwinąć, dlatego Całka ta jest generalnie trudna do obliczenia. Jeśli jednak wybierzesz sprzężony wcześniejszy rozkład , można wyprowadzić wyrażenie w formie zamkniętej. To jest tylna kolumna predykcyjna w poniższych tabelach.
Wracając do naszego przykładu, jeśli wybierzemy rozkład Gamma jako nasz wcześniejszy rozkład nad szybkością rozkładów Poissona, to predykcją a posteriori jest ujemny rozkład dwumianowy, jak widać w ostatniej kolumnie w poniższej tabeli. Rozkład Gamma jest parametryzowany przez dwa hiperparametry, które musimy wybrać. Patrząc na wykresy rozkładu gamma wybieramy , który wydaje się być rozsądnym wyprzedzeniem dla średniej liczby samochodów. Wybór wcześniejszych hiperparametrów jest z natury subiektywny i oparty na wcześniejszej wiedzy.
Mając poprzednie hiperparametry i możemy obliczyć tylne hiperparametry i
Biorąc pod uwagę hiperparametry tylne, możemy w końcu obliczyć predykcyjną a posteriori
To znacznie bardziej konserwatywne oszacowanie odzwierciedla niepewność parametrów modelu, którą uwzględnia predykcja a posteriori.
Tabela rozkładów sprzężonych
Niech n oznacza liczbę obserwacji. We wszystkich poniższych przypadkach zakłada się, że dane składają się z n punktów (które będą wektorami losowymi w przypadkach wielowymiarowych).
Jeżeli funkcja wiarygodności należy do rodziny wykładniczej , to istnieje sprzężony a priori, często także w rodzinie wykładniczej; zobacz Rodzina wykładnicza: rozkłady sprzężone .
Gdy funkcja wiarygodności jest rozkładem dyskretnym
Prawdopodobieństwo | Parametry modelu | Sprzężenie uprzedniej dystrybucji | Wcześniejsze hiperparametry | Hiperparametry tylne | Interpretacja hiperparametrów | Przewidywanie a posteriori |
---|---|---|---|---|---|---|
Bernoulli | p (prawdopodobieństwo) | Beta | sukcesy, porażki | |||
Dwumianowy | p (prawdopodobieństwo) | Beta | sukcesy, porażki |
( beta-dwumianowy ) |
||
Ujemny dwumian o znanej liczbie niepowodzeń, r |
p (prawdopodobieństwo) | Beta | łączne sukcesy, porażki (tj. eksperymenty, zakładając, że pobyty są stałe) | |||
Poissona | λ (stawka) | Gamma | suma wystąpień w interwałach |
( ujemny dwumianowy ) |
||
suma wystąpień w interwałach |
( ujemny dwumianowy ) |
|||||
Kategoryczny | p (wektor prawdopodobieństwa), k (liczba kategorii; tj. wielkość p ) | Dirichleta | gdzie jest liczba obserwacji w kategorii i | wystąpienia kategorii | ||
Wielomianowy | p (wektor prawdopodobieństwa), k (liczba kategorii; tj. wielkość p ) | Dirichleta | wystąpienia kategorii |
( Wielomian Dirichleta ) |
||
Hipergeometryczna o znanej całkowitej wielkości populacji, N |
M (liczba członków docelowych) | Beta-dwumian | sukcesy, porażki | |||
Geometryczny | p 0 (prawdopodobieństwo) | Beta | eksperymenty, totalne awarie |
Gdy funkcja wiarygodności jest rozkładem ciągłym
Prawdopodobieństwo | Parametry modelu | Sprzężenie uprzedniej dystrybucji | Wcześniejsze hiperparametry | Hiperparametry tylne | Interpretacja hiperparametrów | Przewidywanie a posteriori | |
---|---|---|---|---|---|---|---|
Normalna ze znaną wariancją σ 2 |
μ (średnia) | Normalna | średnia została oszacowana na podstawie obserwacji z dokładnością całkowitą (suma wszystkich precyzji indywidualnych) oraz średnią z próby | ||||
Normalna ze znaną dokładnością τ |
μ (średnia) | Normalna | średnia została oszacowana na podstawie obserwacji z dokładnością całkowitą (suma wszystkich precyzji indywidualnych) oraz średnią z próby | ||||
Normalny ze znaną średnią μ |
σ 2 (wariancja) | Odwrotna gamma | wariancję oszacowano na podstawie obserwacji z wariancją próbki (tj. sumą kwadratów odchyleń , gdzie odchylenia są od znanej średniej ) | ||||
Normalny ze znaną średnią μ |
σ 2 (wariancja) | Skalowana odwrotność chi-kwadrat | wariancję oszacowano na podstawie obserwacji z wariancją próbki | ||||
Normalny ze znaną średnią μ |
τ (dokładność) | Gamma | precyzja została oszacowana na podstawie obserwacji z wariancją próbki (tj. z sumą kwadratów odchyleń , gdzie odchylenia są od znanej średniej ) | ||||
Normalna |
μ i σ 2 Przy założeniu wymienności |
Normalno-odwrotna gamma |
|
średnia została oszacowana na podstawie obserwacji ze średnią z próby ; wariancję oszacowano na podstawie obserwacji ze średnią próbki i sumą kwadratów odchyleń | |||
Normalna |
μ i τ Przy założeniu wymienności |
Normal-gamma |
|
średnia została oszacowana na podstawie obserwacji ze średnią z próby , a precyzja została oszacowana na podstawie obserwacji ze średnią z próby i sumą kwadratów odchyleń | |||
Wielowymiarowa normalna ze znaną macierzą kowariancji Σ | μ (średni wektor) | Wielowymiarowy normalny |
|
średnia została oszacowana na podstawie obserwacji z dokładnością całkowitą (suma wszystkich precyzji indywidualnych) oraz średnią z próby | |||
Wielowymiarowa normalna ze znaną macierzą dokładności Λ | μ (średni wektor) | Wielowymiarowy normalny |
|
średnia została oszacowana na podstawie obserwacji z dokładnością całkowitą (suma wszystkich precyzji indywidualnych) oraz średnią z próby | |||
Wielowymiarowa normalna ze znaną średnią μ | Σ (macierz kowariancji) | Odwrotny Wishart | macierz kowariancji została oszacowana na podstawie obserwacji z sumą iloczynów odchyleń parami | ||||
Wielowymiarowa normalna ze znaną średnią μ | Λ (matryca precyzyjna) | Wishart | macierz kowariancji została oszacowana na podstawie obserwacji z sumą iloczynów odchyleń parami | ||||
Wielowymiarowy normalny | μ (średni wektor) i Σ (macierz kowariancji) | normalny-odwrotny-Wishart |
|
średnia została oszacowana na podstawie obserwacji ze średnią z próby ; macierz kowariancji została oszacowana na podstawie obserwacji ze średnią z próby i sumą iloczynów odchyleń parami | |||
Wielowymiarowy normalny | μ (średni wektor) i Λ (macierz precyzyjna) | normalny-Wishart |
|
średnia została oszacowana na podstawie obserwacji ze średnią z próby ; macierz kowariancji została oszacowana na podstawie obserwacji ze średnią z próby i sumą iloczynów odchyleń parami | |||
Mundur | Pareto | obserwacje o wartości maksymalnej | |||||
Pareto ze znanym minimum x m |
k (kształt) | Gamma | Obserwacje z sumy z rzędu każdej obserwacji (tj logarytm stosunku każdej obserwacji do minimum ) | ||||
Weibulla o znanym kształcie β |
θ (skala) | Odwrotna gamma | Obserwacje z sumy na P” th moc każdej obserwacji | ||||
Log-normalny | Tak samo jak w przypadku rozkładu normalnego po zastosowaniu logarytmu naturalnego do danych dla hiperparametrów tylnych. Więcej informacji można znaleźć w publikacji Fink (1997 , s. 21–22). | ||||||
Wykładniczy | λ (stawka) | Gamma | obserwacje, które sumują się do |
( rozkład Lomaxa ) |
|||
Gamma o znanym kształcie α |
β (stawka) | Gamma | obserwacje z sumą | ||||
Odwrotna Gamma o znanym kształcie α |
β (skala odwrotna) | Gamma | obserwacje z sumą | ||||
Gamma ze znaną szybkością β |
α (kształt) | lub obserwacje ( do oszacowania , do oszacowania ) z produktem | |||||
Gamma | α (kształt), β (skala odwrotna) | został oszacowany na podstawie obserwacji z iloczynem ; został oszacowany na podstawie obserwacji z sumą | |||||
Beta | α , β | i zostały oszacowane na podstawie obserwacji z iloczynem i iloczynem dopełnień |