Koniugat przed - Conjugate prior

W bayesowskiej teorii prawdopodobieństwa , jeśli rozkład a posteriori p ( θ  |  x ) należy do tej samej rodziny rozkładów prawdopodobieństwa co wcześniejszy rozkład prawdopodobieństwa p (θ), a priori i a posteriori nazywamy rozkładami sprzężonymi, a a priori nazywamy sprzężonymi uprzednimi dla funkcji wiarygodności p (x | θ ).

Sprzężona uprzednia jest wygodą algebraiczną, dającą wyrażenie w formie zamkniętej dla a posteriori; w przeciwnym razie może być konieczne całkowanie numeryczne . Ponadto sprzężone wartości a priori mogą dawać intuicję, pokazując w bardziej przejrzysty sposób, w jaki sposób funkcja wiarygodności aktualizuje rozkład uprzedni.

Pojęcie, jak również termin „sprzężony uprzedni”, zostały wprowadzone przez Howarda Raiffę i Roberta Schlaifera w swojej pracy nad bayesowską teorią decyzji . Podobną koncepcję odkrył niezależnie George Alfred Barnard .

Przykład

Postać sprzężenia wcześniejszego można ogólnie określić przez sprawdzenie gęstości prawdopodobieństwa lub funkcji masy prawdopodobieństwa rozkładu. Rozważmy na przykład zmienną losową, na którą składa się liczba sukcesów w próbach Bernoulliego z nieznanym prawdopodobieństwem sukcesu w [0,1]. Ta zmienna losowa będzie miała rozkład dwumianowy , z funkcją masy prawdopodobieństwa postaci

Zwykłym sprzężeniem poprzedzającym jest rozkład beta z parametrami ( , ):

gdzie i są wybrane tak, aby odzwierciedlały wszelkie istniejące przekonania lub informacje ( =1 i = 1 dałoby jednorodny rozkład ), a Β ( ,  ) jest funkcją Beta działającą jako stała normalizująca .

W tym kontekście, i nazywane są hiperparametrów (parametry przed), aby odróżnić je od parametrów modelu bazowego (tutaj q ). Typową cechą sprzężonych a priori jest to, że wymiarowość hiperparametrów jest o jeden większa niż parametrów pierwotnego rozkładu. Jeśli wszystkie parametry są wartościami skalarnymi, oznacza to, że będzie o jeden hiperparametr więcej niż parametr; ale dotyczy to również parametrów o wartościach wektorowych i macierzowych. (Patrz ogólny artykuł na wykładniczy rodziny , a także rozważyć rozkład Wishart koniugat przed z macierzy kowariancji z wielowymiarowej rozkładu normalnego , na przykład w przypadku gdy duża wymiarowości uczestniczy).

Jeśli następnie spróbkujemy tę zmienną losową i otrzymamy s sukcesów i f niepowodzeń, mamy

czyli kolejna dystrybucja Beta z parametrami ( + s , + f ). Ten rozkład a posteriori mógłby być następnie użyty jako poprzedni dla większej liczby próbek, przy czym hiperparametry po prostu dodają każdą dodatkową informację w miarę jej pojawiania się.

Interpretacje

Pseudo-obserwacje

Często przydatne jest myślenie o hiperparametrach sprzężonego wcześniejszego rozkładu jako odpowiadających zaobserwowaniu pewnej liczby pseudoobserwacji o właściwościach określonych przez parametry. Na przykład, wartości oraz o rozkładzie beta można traktować jako odpowiadające sukcesów i niepowodzeń, czy tryb tylnego służy do wyboru ustawienia parametru optymalna lub sukcesy i porażki, jeżeli tylny średni służy do wyboru ustawienia parametru optymalna. Ogólnie rzecz biorąc, dla prawie wszystkich sprzężonych rozkładów wcześniejszych hiperparametry można interpretować w kategoriach pseudoobserwacji. Może to pomóc zarówno w zapewnieniu intuicji za często niechlujnymi równaniami aktualizacji, jak i w wyborze rozsądnych hiperparametrów dla wcześniejszego.


Analogia z funkcjami własnymi

Sprzężone a priori są analogiczne do funkcji własnych w teorii operatorów , ponieważ są dystrybucjami, na których „operator warunkowania” działa w dobrze rozumiany sposób, myśląc o procesie zmiany od a priori do a posteriori jako operator.

Zarówno w funkcjach własnych, jak i sprzężonych a priori istnieje przestrzeń skończenie wymiarowa, która jest zachowywana przez operator: wyjście ma tę samą formę (w tej samej przestrzeni) co wejście. To znacznie upraszcza analizę, ponieważ w przeciwnym razie uwzględnia się przestrzeń nieskończenie wymiarową (przestrzeń wszystkich funkcji, przestrzeń wszystkich rozkładów).

Jednak procesy są tylko analogiczne, a nie identyczne: warunkowanie nie jest liniowe, ponieważ przestrzeń rozkładów nie jest zamknięta kombinacją liniową , tylko kombinacją wypukłą , a a posteriori ma tylko taką samą formę jak a priori, a nie wielokrotność skalarną.

Tak jak można łatwo przeanalizować, jak rozwija się liniowa kombinacja funkcji własnych pod wpływem operatora (ponieważ w odniesieniu do tych funkcji operator jest diagonalizowany ), można łatwo przeanalizować, jak wypukła kombinacja sprzężonych wartości a priori ewoluuje pod warunkiem; nazywa się to za pomocą hyperprior , i odpowiada za pomocą gęstości mieszaniny koniugatu priors zamiast pojedynczego koniugatu na wcześniej.

Układ dynamiczny

Można myśleć o warunkowaniu na sprzężonych a priori jako o zdefiniowaniu pewnego (czasu dyskretnego) systemu dynamicznego : z danego zbioru hiperparametrów przychodzące dane aktualizują te hiperparametry, więc można postrzegać zmianę hiperparametrów jako rodzaj „ewolucji w czasie” system, odpowiadający "uczeniu się". Rozpoczęcie w różnych punktach daje różne przepływy w czasie. Jest to znowu analogiczne do systemu dynamicznego zdefiniowanego przez operator liniowy, ale zauważ, że ponieważ różne próbki prowadzą do różnych wniosków, nie jest to po prostu zależne od czasu, ale raczej od danych w czasie. Aby zapoznać się z podobnymi podejściami, zobacz Rekurencyjne szacowanie bayesowskie i Asymilacja danych .

Praktyczny przykład

Załóżmy, że w Twoim mieście działa wypożyczalnia samochodów. Kierowcy mogą wysadzać i odbierać samochody w dowolnym miejscu w granicach miasta. Możesz znaleźć i wypożyczyć samochody za pomocą aplikacji.

Załóżmy, że chcesz znaleźć prawdopodobieństwo znalezienia wypożyczonego samochodu w niewielkiej odległości od Twojego adresu domowego o dowolnej porze dnia.

W ciągu trzech dni patrzysz na aplikację i znajdujesz następującą liczbę samochodów w niewielkiej odległości od Twojego adresu domowego:

Jeśli założymy, że dane pochodzą z rozkładu Poissona , możemy obliczyć oszacowanie maksymalnego prawdopodobieństwa parametrów modelu, który jest Używając tego oszacowania maksymalnego prawdopodobieństwa możemy obliczyć prawdopodobieństwo, że w danym dniu będzie dostępny co najmniej jeden samochód:

Jest to rozkład Poissona, który z największym prawdopodobieństwem wygenerował zaobserwowane dane . Ale dane mogły również pochodzić z innego rozkładu Poissona, np. z , lub , itd. W rzeczywistości istnieje nieskończona liczba rozkładów Poissona, które mogły wygenerować obserwowane dane, a przy stosunkowo niewielkiej liczbie punktów danych nie powinniśmy być pewni, które dokładny rozkład trucizn wygenerował te dane. Intuicyjnie powinniśmy zamiast tego przyjąć średnią ważoną prawdopodobieństwa każdego z tych rozkładów Poissona, ważoną według prawdopodobieństwa każdego z nich, biorąc pod uwagę dane, które zaobserwowaliśmy .

Ogólnie rzecz biorąc, wielkość ta jest znana jako rozkład predykcyjny a posteriori, gdzie jest nowym punktem danych, danymi obserwowanymi i parametrami modelu. Korzystając z twierdzenia Bayesa, możemy rozwinąć, dlatego Całka ta jest generalnie trudna do obliczenia. Jeśli jednak wybierzesz sprzężony wcześniejszy rozkład , można wyprowadzić wyrażenie w formie zamkniętej. To jest tylna kolumna predykcyjna w poniższych tabelach.

Wracając do naszego przykładu, jeśli wybierzemy rozkład Gamma jako nasz wcześniejszy rozkład nad szybkością rozkładów Poissona, to predykcją a posteriori jest ujemny rozkład dwumianowy, jak widać w ostatniej kolumnie w poniższej tabeli. Rozkład Gamma jest parametryzowany przez dwa hiperparametry, które musimy wybrać. Patrząc na wykresy rozkładu gamma wybieramy , który wydaje się być rozsądnym wyprzedzeniem dla średniej liczby samochodów. Wybór wcześniejszych hiperparametrów jest z natury subiektywny i oparty na wcześniejszej wiedzy.

Mając poprzednie hiperparametry i możemy obliczyć tylne hiperparametry i

Biorąc pod uwagę hiperparametry tylne, możemy w końcu obliczyć predykcyjną a posteriori

To znacznie bardziej konserwatywne oszacowanie odzwierciedla niepewność parametrów modelu, którą uwzględnia predykcja a posteriori.

Tabela rozkładów sprzężonych

Niech n oznacza liczbę obserwacji. We wszystkich poniższych przypadkach zakłada się, że dane składają się z n punktów (które będą wektorami losowymi w przypadkach wielowymiarowych).

Jeżeli funkcja wiarygodności należy do rodziny wykładniczej , to istnieje sprzężony a priori, często także w rodzinie wykładniczej; zobacz Rodzina wykładnicza: rozkłady sprzężone .

Gdy funkcja wiarygodności jest rozkładem dyskretnym

Prawdopodobieństwo Parametry modelu Sprzężenie uprzedniej dystrybucji Wcześniejsze hiperparametry Hiperparametry tylne Interpretacja hiperparametrów Przewidywanie a posteriori
Bernoulli p (prawdopodobieństwo) Beta sukcesy, porażki
Dwumianowy p (prawdopodobieństwo) Beta sukcesy, porażki
( beta-dwumianowy )
Ujemny dwumian
o znanej liczbie niepowodzeń, r
p (prawdopodobieństwo) Beta łączne sukcesy, porażki (tj. eksperymenty, zakładając, że pobyty są stałe)

(beta-ujemny dwumian)

Poissona λ (stawka) Gamma suma wystąpień w interwałach
( ujemny dwumianowy )
suma wystąpień w interwałach
( ujemny dwumianowy )
Kategoryczny p (wektor prawdopodobieństwa), k (liczba kategorii; tj. wielkość p ) Dirichleta gdzie jest liczba obserwacji w kategorii i wystąpienia kategorii
Wielomianowy p (wektor prawdopodobieństwa), k (liczba kategorii; tj. wielkość p ) Dirichleta wystąpienia kategorii
( Wielomian Dirichleta )
Hipergeometryczna
o znanej całkowitej wielkości populacji, N
M (liczba członków docelowych) Beta-dwumian sukcesy, porażki
Geometryczny p 0 (prawdopodobieństwo) Beta eksperymenty, totalne awarie

Gdy funkcja wiarygodności jest rozkładem ciągłym

Prawdopodobieństwo Parametry modelu Sprzężenie uprzedniej dystrybucji Wcześniejsze hiperparametry Hiperparametry tylne Interpretacja hiperparametrów Przewidywanie a posteriori
Normalna
ze znaną wariancją σ 2
μ (średnia) Normalna średnia została oszacowana na podstawie obserwacji z dokładnością całkowitą (suma wszystkich precyzji indywidualnych) oraz średnią z próby
Normalna
ze znaną dokładnością τ
μ (średnia) Normalna średnia została oszacowana na podstawie obserwacji z dokładnością całkowitą (suma wszystkich precyzji indywidualnych) oraz średnią z próby
Normalny
ze znaną średnią μ
σ 2 (wariancja) Odwrotna gamma wariancję oszacowano na podstawie obserwacji z wariancją próbki (tj. sumą kwadratów odchyleń , gdzie odchylenia są od znanej średniej )
Normalny
ze znaną średnią μ
σ 2 (wariancja) Skalowana odwrotność chi-kwadrat wariancję oszacowano na podstawie obserwacji z wariancją próbki
Normalny
ze znaną średnią μ
τ (dokładność) Gamma precyzja została oszacowana na podstawie obserwacji z wariancją próbki (tj. z sumą kwadratów odchyleń , gdzie odchylenia są od znanej średniej )
Normalna μ i σ 2
Przy założeniu wymienności
Normalno-odwrotna gamma
  • jest średnia próbki
średnia została oszacowana na podstawie obserwacji ze średnią z próby ; wariancję oszacowano na podstawie obserwacji ze średnią próbki i sumą kwadratów odchyleń
Normalna μ i τ
Przy założeniu wymienności
Normal-gamma
  • jest średnia próbki
średnia została oszacowana na podstawie obserwacji ze średnią z próby , a precyzja została oszacowana na podstawie obserwacji ze średnią z próby i sumą kwadratów odchyleń
Wielowymiarowa normalna ze znaną macierzą kowariancji Σ μ (średni wektor) Wielowymiarowy normalny
  • jest średnia próbki
średnia została oszacowana na podstawie obserwacji z dokładnością całkowitą (suma wszystkich precyzji indywidualnych) oraz średnią z próby
Wielowymiarowa normalna ze znaną macierzą dokładności Λ μ (średni wektor) Wielowymiarowy normalny
  • jest średnia próbki
średnia została oszacowana na podstawie obserwacji z dokładnością całkowitą (suma wszystkich precyzji indywidualnych) oraz średnią z próby
Wielowymiarowa normalna ze znaną średnią μ Σ (macierz kowariancji) Odwrotny Wishart macierz kowariancji została oszacowana na podstawie obserwacji z sumą iloczynów odchyleń parami
Wielowymiarowa normalna ze znaną średnią μ Λ (matryca precyzyjna) Wishart macierz kowariancji została oszacowana na podstawie obserwacji z sumą iloczynów odchyleń parami
Wielowymiarowy normalny μ (średni wektor) i Σ (macierz kowariancji) normalny-odwrotny-Wishart
  • jest średnia próbki
średnia została oszacowana na podstawie obserwacji ze średnią z próby ; macierz kowariancji została oszacowana na podstawie obserwacji ze średnią z próby i sumą iloczynów odchyleń parami
Wielowymiarowy normalny μ (średni wektor) i Λ (macierz precyzyjna) normalny-Wishart
  • jest średnia próbki
średnia została oszacowana na podstawie obserwacji ze średnią z próby ; macierz kowariancji została oszacowana na podstawie obserwacji ze średnią z próby i sumą iloczynów odchyleń parami
Mundur Pareto obserwacje o wartości maksymalnej
Pareto
ze znanym minimum x m
k (kształt) Gamma Obserwacje z sumy z rzędu każdej obserwacji (tj logarytm stosunku każdej obserwacji do minimum )
Weibulla
o znanym kształcie β
θ (skala) Odwrotna gamma Obserwacje z sumy na P” th moc każdej obserwacji
Log-normalny Tak samo jak w przypadku rozkładu normalnego po zastosowaniu logarytmu naturalnego do danych dla hiperparametrów tylnych. Więcej informacji można znaleźć w publikacji Fink (1997 , s. 21–22).
Wykładniczy λ (stawka) Gamma obserwacje, które sumują się do
( rozkład Lomaxa )
Gamma
o znanym kształcie α
β (stawka) Gamma obserwacje z sumą
Odwrotna Gamma
o znanym kształcie α
β (skala odwrotna) Gamma obserwacje z sumą
Gamma
ze znaną szybkością β
α (kształt) lub obserwacje ( do oszacowania , do oszacowania ) z produktem
Gamma α (kształt), β (skala odwrotna) został oszacowany na podstawie obserwacji z iloczynem ; został oszacowany na podstawie obserwacji z sumą
Beta α , β i zostały oszacowane na podstawie obserwacji z iloczynem i iloczynem dopełnień

Zobacz też

Uwagi

Bibliografia