Twierdzenie Bayesa - Bayes' theorem
W teorii prawdopodobieństwa i statystyki , twierdzenie Bayesa (alternatywnie Bayesa prawa lub reguły Bayesa ; niedawno Bayesa-Price twierdzenie ), nazwany Thomasa Bayesa , opisuje prawdopodobieństwo danego zdarzenia , na podstawie wcześniejszej wiedzy o warunkach, które mogą być związane z wydarzenie. Na przykład, jeśli wiadomo, że ryzyko wystąpienia problemów zdrowotnych wzrasta wraz z wiekiem, twierdzenie Bayesa pozwala na dokładniejszą ocenę ryzyka dla osoby w znanym wieku (poprzez uwarunkowanie jej wieku), niż po prostu zakładając, że dana osoba jest typowe dla całej populacji.
Jednym z wielu zastosowań twierdzenia Bayesa jest wnioskowanie bayesowskie , szczególne podejście do wnioskowania statystycznego . Po zastosowaniu prawdopodobieństwa zawarte w twierdzeniu mogą mieć różne interpretacje prawdopodobieństwa . Z interpretacją prawdopodobieństwa bayesowskiego twierdzenie wyraża, w jaki sposób stopień przekonania wyrażony jako prawdopodobieństwo powinien się racjonalnie zmienić, aby uwzględnić dostępność powiązanych dowodów. Wnioskowanie bayesowskie jest podstawą statystyki bayesowskiej .
Stwierdzenie twierdzenia
Twierdzenie Bayesa jest sformułowane matematycznie jako następujące równanie:
gdzie i są wydarzenia i .
- jest prawdopodobieństwem warunkowym : prawdopodobieństwo wystąpienia zdarzenia , jeśli to prawda. Nazywana jest również prawdopodobieństwo a posteriori z podana .
- jest również prawdopodobieństwem warunkowym: prawdopodobieństwem zajścia zdarzenia , jeśli jest ono prawdziwe. Może być również interpretowana jako prawdopodobieństwa o podane stałe , ponieważ .
- i są prawdopodobieństwami obserwacji i odpowiednio bez żadnych warunków; są one znane jako prawdopodobieństwo krańcowe lub prawdopodobieństwo a priori .
- i muszą być różnymi wydarzeniami.
Dowód
Na imprezy
Twierdzenie Bayesa można wyprowadzić z definicji prawdopodobieństwa warunkowego :
gdzie jest prawdopodobieństwo, że zarówno A, jak i B są prawdziwe. Podobnie,
Rozwiązując i podstawiając do powyższego wyrażenia, otrzymujemy twierdzenie Bayesa:
Dla ciągłych zmiennych losowych
Dla dwóch ciągłych zmiennych losowych X i Y twierdzenie Bayesa można analogicznie wyprowadzić z definicji gęstości warunkowej :
W związku z tym,
Przykłady
Testowanie narkotyków
Załóżmy, że konkretny test sprawdzający, czy ktoś używał konopi indyjskich, jest czuły w 90% , co oznacza prawdziwy wskaźnik pozytywnych wyników (TPR)=0,90. W związku z tym prowadzi to do 90% prawdziwie pozytywnych wyników (prawidłowa identyfikacja używania narkotyków) dla osób używających konopi indyjskich.
Test jest również w 80% specyficzny , co oznacza odsetek prawdziwie ujemnych wyników (TNR)=0,80. Dlatego test poprawnie identyfikuje 80% nieużywania przez osoby niebędące użytkownikami, ale generuje również 20% fałszywych trafień lub współczynnik fałszywych trafień (FPR)=0,20 dla osób niebędących użytkownikami.
Zakładając 0,05 występowania , co oznacza 5% osób używa konopi, jakie jest prawdopodobieństwo , że losowo osoba, która testuje pozytywne jest naprawdę użytkownik konopi?
Pozytywna wartość predykcyjna (PPV) testu jest odsetek osób, które są rzeczywiście pozytywne z tych wszystkich testów dodatnia, i może być obliczone z próbki jako:
- PPV = Prawdziwie pozytywny / Testowany pozytywny
Jeśli znana jest czułość, swoistość i częstość występowania, PPV można obliczyć za pomocą twierdzenia Bayesa. Miejmy na myśli „prawdopodobieństwo, że ktoś jest użytkownikiem konopi, biorąc pod uwagę, że wynik testu jest pozytywny”, co oznacza PPV. Możemy pisać:
Fakt, że jest to bezpośrednie zastosowanie Prawa Całkowitego Prawdopodobieństwa . W tym przypadku mówi się, że prawdopodobieństwo pozytywnego wyniku testów jest prawdopodobieństwo pozytywnego wyniku testu użytkownika, razy prawdopodobieństwo, że jest użytkownikiem, plus prawdopodobieństwo, że test niebędący użytkownikiem jest pozytywny, razy prawdopodobieństwo, że nie jest użytkownikiem . Dzieje się tak, ponieważ klasyfikacje użytkownika i nieużytkownika tworzą podział zbioru , czyli zbioru osób, które poddają się testowi narkotykowemu. To w połączeniu z definicją prawdopodobieństwa warunkowego daje w wyniku powyższe stwierdzenie.
Innymi słowy, nawet jeśli ktoś testuje pozytywnie, prawdopodobieństwo, że jest użytkownikiem konopi wynosi tylko 19% — to dlatego, że w tej grupie tylko 5% osób to użytkownicy, a większość pozytywnych wyników to fałszywe alarmy pochodzące z pozostałych 95% .
Jeśli przebadano 1000 osób:
- 950 nie jest użytkownikami, a 190 z nich daje fałszywie pozytywne (0,20 × 950)
- 50 z nich to użytkownicy, a 45 z nich daje prawdziwy pozytyw (0,90 × 50)
W ten sposób 1000 osób daje 235 pozytywnych testów, z których tylko 45 to prawdziwi użytkownicy narkotyków, około 19%. Zobacz rysunek 1, aby zobaczyć ilustrację z wykorzystaniem pola częstotliwości i zauważ, jak mały różowy obszar wyników prawdziwie pozytywnych jest w porównaniu z niebieskim obszarem wyników fałszywie dodatnich.
Czułość lub specyficzność
Znaczenie swoistości można zaobserwować pokazując, że nawet jeśli czułość jest zwiększona do 100%, a swoistość pozostaje na poziomie 80%, prawdopodobieństwo, że ktoś z pozytywnym wynikiem testu rzeczywiście jest użytkownikiem konopi wzrasta tylko z 19% do 21%, ale jeśli czułość jest utrzymany na poziomie 90%, a swoistość zwiększona do 95%, prawdopodobieństwo wzrasta do 49%.
|
|
|
Wskaźnik raka
Nawet jeśli 100% pacjentów z rakiem trzustki ma określony objaw, to gdy ktoś ma ten sam objaw, nie oznacza to, że ta osoba ma 100% szans na zachorowanie na raka trzustki. Załóżmy, że wskaźnik zachorowalności na raka trzustki wynosi 1/100000, podczas gdy 10/100000 zdrowych osób ma takie same objawy na całym świecie, prawdopodobieństwo wystąpienia raka trzustki przy tych objawach wynosi tylko 9,1%, a pozostałe 90,9% może być „fałszywie dodatnie” ( to znaczy, fałszywie mówi się, że ma raka; „pozytywny” jest mylącym terminem, gdy, jak tutaj, test daje złe wieści).
W oparciu o współczynnik zapadalności, poniższa tabela przedstawia odpowiednie liczby na 100 000 osób.
Nowotwór
Objaw
|
tak | Nie | Całkowity | |
---|---|---|---|---|
tak | 1 | 10 | 11 | |
Nie | 0 | 99989 | 99989 | |
Całkowity | 1 | 99999 | 100000 |
Które następnie można wykorzystać do obliczenia prawdopodobieństwa zachorowania na raka, gdy masz objawy:
Wadliwa stawka przedmiotu
Stan: schorzenie
Maszyna |
Wadliwy | Doskonały | Całkowity | |
---|---|---|---|---|
A | 10 | 190 | 200 | |
b | 9 | 291 | 300 | |
C | 5 | 495 | 500 | |
Całkowity | 24 | 976 | 1000 |
Fabryka produkuje przedmiot przy użyciu trzech maszyn — A, B i C — które stanowią odpowiednio 20%, 30% i 50% jej produkcji. Z przedmiotów wyprodukowanych przez maszynę A 5% jest wadliwych; podobnie, 3% elementów maszyny B i 1% maszyn C jest uszkodzonych. Jeśli losowo wybrany przedmiot jest uszkodzony, jakie jest prawdopodobieństwo, że został wyprodukowany przez maszynę C?
Po raz kolejny odpowiedź można uzyskać bez użycia wzoru, stosując warunki do hipotetycznej liczby przypadków. Na przykład, jeśli fabryka produkuje 1000 sztuk, 200 zostanie wyprodukowanych przez Maszynę A, 300 przez Maszynę B, a 500 przez Maszynę C. Maszyna A wyprodukuje 5% × 200 = 10 wadliwych elementów, Maszyna B 3% × 300 = 9 , a Maszyna C 1% × 500 = 5, w sumie 24. Zatem prawdopodobieństwo, że losowo wybrany wadliwy element został wyprodukowany przez maszynę C wynosi 5/24 (~20,83%).
Problem ten można również rozwiązać za pomocą twierdzenia Bayesa: Niech X i oznacza zdarzenie, w którym losowo wybrany przedmiot został wykonany przez i- tą maszynę (dla i = A,B,C). Niech Y oznacza zdarzenie, w którym losowo wybrany element jest uszkodzony. Następnie otrzymujemy następujące informacje:
Jeśli przedmiot został wykonany przez pierwszą maszynę, prawdopodobieństwo, że jest wadliwy, wynosi 0,05; to znaczy, P ( Y | X A ) = 0,05. Ogólnie mamy
Aby odpowiedzieć na pierwotne pytanie, najpierw znajdujemy P (Y). Można to zrobić w następujący sposób:
W związku z tym 2,4% całkowitej produkcji jest wadliwe.
Mamy dane, że zaszło Y i chcemy obliczyć prawdopodobieństwo warunkowe X C . Według twierdzenia Bayesa,
Biorąc pod uwagę, że przedmiot jest uszkodzony, prawdopodobieństwo, że został wykonany przez maszynę C wynosi 5/24. Chociaż maszyna C wytwarza połowę całkowitej produkcji, wytwarza znacznie mniejszą część wadliwych elementów. Stąd wiedza, że wybrany przedmiot był wadliwy, pozwala nam zastąpić prawdopodobieństwo a priori P ( X C ) = 1/2 mniejszym prawdopodobieństwem a posteriori P (X C | Y ) = 5/24.
Interpretacje
Interpretacja reguły Bayesa zależy od interpretacji prawdopodobieństwa przypisanego terminom. Poniżej opisano dwie główne interpretacje. Rysunek 2 pokazuje geometryczną wizualizację podobną do rysunku 1. Gerd Gigerenzer i współautorzy mocno naciskali na nauczanie reguły Bayesa w ten sposób, ze szczególnym naciskiem na uczenie jej lekarzy. Przykładem jest strona internetowa Willa Kurta „Bayes' Theorem with Lego”, która później przekształciła się w książkę, Bayesian Statistics the Fun Way: Understanding Statistics and Probability with Star Wars, LEGO i Rubber Ducks. Zhu i Gigerenzer stwierdzili w 2006 r., że podczas gdy 0% uczniów klas 4, 5 i 6 potrafiło rozwiązywać zadania tekstowe po nauczeniu się za pomocą formuł, 19%, 39% i 53% mogło rozwiązywać zadania z wykorzystaniem pól częstotliwości, a nauka była albo dokładna, albo zerowa.
Interpretacja bayesowska
W interpretacji bayesowskiej (lub epistemologicznej) prawdopodobieństwo mierzy „stopień wiary”. Twierdzenie Bayesa łączy stopień wiary w twierdzenie przed i po uwzględnieniu dowodów. Załóżmy na przykład, że uważa się z 50% pewnością, że moneta ma dwa razy większe szanse na wylądowanie orłem niż remkiem. Jeśli moneta zostanie rzucona kilka razy i zaobserwowane wyniki, ten stopień wiary prawdopodobnie wzrośnie lub spadnie, ale może nawet pozostać taki sam, w zależności od wyników. Dla wniosku A i dowodu B ,
- P ( A ) , przeor , jest początkowym stopniem wiary w A .
- P ( A | B ), a posteriori , to stopień przekonania po włączeniu wiadomości, że B jest prawdą.
- iloraz P ( B | A )/P ( B )reprezentuje wsparcie, jakie B zapewnia A .
Aby uzyskać więcej informacji na temat zastosowania twierdzenia Bayesa w bayesowskiej interpretacji prawdopodobieństwa, zobacz wnioskowanie bayesowskie .
Interpretacja częsta
W interpretacji częstolistycznej prawdopodobieństwo mierzy „proporcję wyników”. Załóżmy na przykład, że eksperyment jest przeprowadzany wiele razy. P ( A ) jest proporcją wyników o własności A (uprzedniej), a P ( B ) jest proporcją z własnością B . P ( B | A ) to proporcja wyników z własnością B od wyników z własnością A , a P ( A | B ) to proporcja tych z A od tych z B ( a posteriori ).
Rolę twierdzenia Bayesa najlepiej zobrazować za pomocą diagramów drzewiastych, takich jak rysunek 3. Te dwa diagramy dzielą te same wyniki na A i B w przeciwnej kolejności, aby uzyskać odwrotne prawdopodobieństwa. Twierdzenie Bayesa łączy różne partycjonowanie.
Przykład
An entomolog plamy, co może, ze względu na wzór na plecach, być rzadki podgatunek z żuka . Pełne 98% członków rzadkich podgatunków ma wzór, więc P (Wzór | Rzadki) = 98%. Tylko 5% członków wspólnego podgatunku ma wzór. Rzadki podgatunek stanowi 0,1% całej populacji. Jak prawdopodobne jest, że chrząszcz ma wzór rzadki: co to jest P (Rare | Pattern)?
Z rozszerzonej postaci twierdzenia Bayesa (ponieważ każdy chrząszcz jest rzadki lub pospolity),
Formularze
Wydarzenia
Prosta forma
Dla zdarzeń A i B , pod warunkiem, że P ( B ) ≠ 0,
W wielu zastosowaniach, na przykład we wnioskowaniu bayesowskim , zdarzenie B jest ustalone w dyskusji i chcemy rozważyć wpływ jego zaobserwowania na naszą wiarę w różne możliwe zdarzenia A . W takiej sytuacji mianownik ostatniego wyrażenia, prawdopodobieństwo danego dowodu B , jest ustalony; to, co chcemy zmienić, to A . Twierdzenie Bayesa pokazuje następnie, że prawdopodobieństwa a posteriori są proporcjonalne do licznika, więc ostatnie równanie staje się:
- .
Słowem, a posteriori jest proporcjonalna do poprzednich razy prawdopodobieństwo.
Jeśli zdarzenia A 1 , A 2 , ... są wzajemnie wykluczające się i wyczerpujące, tj. jedno z nich na pewno wystąpi, ale żadne dwa nie mogą wystąpić razem, możemy określić stałą proporcjonalności, wykorzystując fakt, że ich prawdopodobieństwa muszą się sumować do jednego. Na przykład dla zdarzeń danym A , zdarzenie sam i jego dopełnienie ¬ są wyłączne i wyczerpująca. Oznaczając stałą proporcjonalności przez c mamy
Dodając te dwie formuły wywnioskujemy, że
lub
Alternatywna forma
Tło
Propozycja |
b | ¬B (nie B) |
Całkowity | |
---|---|---|---|---|
A |
P(B|A)·P(A) = P(A|B)·P(B) |
P(¬B|A)·P(A) = P(A|¬B)·P(¬B) |
ROCZNIE) | |
¬A (nie A) |
P(B|¬A)·P(¬A) = P(¬A|B)·P(B) |
P(¬B|¬A)·P(¬A) = P(¬A|¬B)·P(¬B) |
P(¬A) = 1-P(A) |
|
Całkowity | P(B) | P(¬B) = 1-P(B) | 1 |
Inną formą twierdzenia Bayesa dla dwóch konkurujących ze sobą twierdzeń lub hipotez jest:
Dla interpretacji epistemologicznej:
Dla wniosku A i dowodów lub tła B ,
- jest przed prawdopodobieństwo , początkowy stopień wiary w A .
- jest odpowiednim początkowym stopniem wiary w not-A , że A jest fałszywe, gdzie
- jest prawdopodobieństwem warunkowym lub prawdopodobieństwem, stopniem wiary w B przy założeniu, że zdanie A jest prawdziwe.
- jest prawdopodobieństwem warunkowym lub prawdopodobieństwem, stopniem wiary w B przy założeniu, że zdanie A jest fałszywe.
- jest prawdopodobieństwem a posteriori , prawdopodobieństwem A po uwzględnieniu B .
Formularz rozszerzony
Często, dla niektórych partycji { j } na powierzchni próbki The miejsca zdarzenia są podane w odniesieniu do P ( j ) i P ( B | J ). Przydatne jest zatem obliczenie P ( B ) przy użyciu prawa całkowitego prawdopodobieństwa :
W szczególnym przypadku, gdy A jest zmienną binarną :
Zmienne losowe
Rozważmy przestrzeń próbną Ω generowaną przez dwie zmienne losowe X i Y . W zasadzie twierdzenie Bayesa dotyczy zdarzeń A = { X = x } i B = { Y = y }.
Jednak wyrazy stają się 0 w punktach, w których każda zmienna ma skończoną gęstość prawdopodobieństwa . Aby pozostać użytecznym, twierdzenie Bayesa musi być sformułowane w kategoriach odpowiednich gęstości (patrz Wyprowadzenie ).
Prosta forma
Jeśli X jest ciągłe, a Y jest dyskretne,
gdzie każdy jest funkcją gęstości.
Jeśli X jest dyskretne, a Y jest ciągłe,
Jeśli zarówno X, jak i Y są ciągłe,
Formularz rozszerzony
Ciągła przestrzeń zdarzeń jest często konceptualizowana za pomocą terminów licznika. Przydatne jest wtedy wyeliminowanie mianownika za pomocą prawa całkowitego prawdopodobieństwa . Dla f Y ( y ) staje się to całką:
Zasada Bayesa
Twierdzenie Bayesa w postaci kursów to:
gdzie
nazywa się współczynnikiem Bayesa lub współczynnikiem prawdopodobieństwa . Szanse między dwoma zdarzeniami to po prostu stosunek prawdopodobieństw dwóch zdarzeń. Zatem
Tak więc reguła mówi, że szanse a posteriori są wcześniejszymi szansami pomnożonymi przez czynnik Bayesa , czyli innymi słowy, a posteriori jest proporcjonalne do wcześniejszych razy prawdopodobieństwo.
W szczególnym przypadku, że i , pisze się , i używa podobnego skrótu dla współczynnika Bayesa i dla szans warunkowych. Kursy są z definicji kursami za i przeciw . Regułę Bayesa można wtedy zapisać w postaci skróconej
lub, słownie, a posteriori prawdopodobieństwa równa się wcześniejszemu prawdopodobieństwu krotności ilorazu prawdopodobieństwa dla danej informacji . Krótko mówiąc, szanse a posteriori są równe prawdopodobieństwu wcześniejszemu i ilorazowi prawdopodobieństwa .
Korespondencja z innymi schematami matematycznymi
Logika zdań
Twierdzenie Bayesa reprezentuje uogólnienie kontrapozycji, które w logice zdań można wyrazić jako:
Odpowiednim wzorem w zakresie rachunku prawdopodobieństwa jest twierdzenie Bayesa, które w swojej rozszerzonej postaci wyraża się jako:
W powyższym równaniu prawdopodobieństwo warunkowe uogólnia zdanie logiczne , tzn. oprócz przypisania PRAWDA lub FAŁSZ możemy również przypisać zdaniu dowolne prawdopodobieństwo. Termin ten oznacza prawdopodobieństwo a priori (czyli stawkę bazową ) . Załóżmy, że jest to równoważne byciu PRAWDA, a to jest równoważne byciu FAŁSZ. Łatwo wtedy zauważyć, że kiedy, czyli kiedy, jest PRAWDĄ. Dzieje się tak dlatego , że ułamek po prawej stronie powyższego równania jest równy 1, a zatem jest równoważny byciu PRAWDA. Stąd twierdzenie Bayesa reprezentuje uogólnienie kontrapozycji .
Logika subiektywna
Twierdzenie Bayesa reprezentuje szczególny przypadek warunkowej inwersji w logice subiektywnej wyrażonej jako:
gdzie oznacza operator odwrócenia warunkowego. Argument oznacza parę dwumianowych opinii warunkowych wydanych przez źródło , a argument oznacza prawdopodobieństwo a priori (czyli stawkę bazową ) . Oznaczono parę odwróconych opinii warunkowych . Opinia warunkowa uogólnia warunkowe probabilistyczne , tzn. oprócz przypisania prawdopodobieństwa źródło może przypisać zdaniu warunkowemu dowolną subiektywną opinię . Dwumianowa opinia subiektywna to wiara w prawdziwość wypowiedzi ze stopniami epistemicznej niepewności, wyrażona przez źródło . Każdej subiektywnej opinii odpowiada przewidywane prawdopodobieństwo . Zastosowanie twierdzenia Bayesa do prognozowanych prawdopodobieństw opinii jest homomorfizmem , co oznacza, że twierdzenie Bayesa można wyrazić w kategoriach prognozowanych prawdopodobieństw opinii:
Stąd subiektywne twierdzenie Bayesa reprezentuje uogólnienie twierdzenia Bayesa.
Uogólnienia
Wersja kondycjonowana
Uwarunkowana wersja twierdzenia Bayesa wynika z dodania trzeciego zdarzenia, od którego uwarunkowane są wszystkie prawdopodobieństwa:
Pochodzenie
Korzystanie z zasady łańcucha
A z drugiej strony
Pożądany wynik uzyskuje się identyfikując oba wyrażenia i rozwiązując .
Reguła Bayesa z 3 zdarzeniami
W przypadku 3 zdarzeń – A, B i C – można wykazać, że:
Historia
Twierdzenie Bayesa zostało nazwane na cześć wielebnego Thomasa Bayesa ( / b eɪ z / ; ok. 1701 - 1761), który jako pierwszy użył prawdopodobieństwa warunkowego do dostarczenia algorytmu (jego propozycja 9) wykorzystującego dowody do obliczenia granic nieznanego parametru, opublikowanego jako esej o rozwiązaniu problemu w doktrynie szans (1763). Studiował, jak obliczyć rozkład dla parametru prawdopodobieństwa rozkładu dwumianowego (we współczesnej terminologii). Po śmierci Bayesa jego rodzina przekazała jego papiery jego staremu przyjacielowi, Richardowi Price'owi (1723-1791), który w ciągu dwóch lat znacznie redagował nieopublikowany rękopis, po czym wysłał go do przyjaciela, który 23 grudnia przeczytał go na głos w Royal Society . 1763. Price zredagował główne dzieło Bayesa „Esej o rozwiązywaniu problemu w doktrynie szans” (1763), które ukazało się w Philosophical Transactions i zawiera twierdzenie Bayesa. Price napisał wstęp do artykułu, który dostarcza pewnych podstaw filozoficznych statystyki bayesowskiej i wybrał jedno z dwóch rozwiązań oferowanych przez Bayesa. W 1765 roku Price został wybrany członkiem Towarzystwa Królewskiego w uznaniu jego pracy nad dziedzictwem Bayesa. 27 kwietnia list wysłany do jego przyjaciela Benjamina Franklina został odczytany w Royal Society, a później opublikowany, w którym Price stosuje tę pracę do populacji i oblicza „dożywotnią rentę”.
Niezależnie od Bayesa, Pierre-Simon Laplace w 1774 r., a później w jego Theorie analytique des probabilités z 1812 r. , użyli prawdopodobieństwa warunkowego do sformułowania relacji zaktualizowanego prawdopodobieństwa a posteriori z prawdopodobieństwem a priori, z danymi dowodami. Odtworzył i rozszerzył wyniki Bayesa w 1774 roku, najwyraźniej nieświadomy pracy Bayesa. Bayesa interpretacja prawdopodobieństwa został opracowany głównie przez Laplace'a.
Sir Harold Jeffreys umieścił algorytm Bayesa i sformułowanie Laplace'a na podstawie aksjomatycznej , pisząc, że twierdzenie Bayesa „jest dla teorii prawdopodobieństwa tym, czym twierdzenie Pitagorasa dla geometrii”.
Stephen Stigler użył argumentu bayesowskiego, aby stwierdzić, że twierdzenie Bayesa zostało odkryte przez Nicholasa Saundersona , niewidomego angielskiego matematyka, jakiś czas przed Bayesem; ta interpretacja została jednak zakwestionowana. Martyn Hooper i Sharon McGrayne twierdzili, że wkład Richarda Price był znaczny:
Według współczesnych standardów powinniśmy odwoływać się do reguły Bayesa-Price. Price odkrył pracę Bayesa, rozpoznał jej znaczenie, poprawił ją, przyczynił się do powstania artykułu i znalazł dla niego zastosowanie. Współczesna konwencja posługiwania się samym nazwiskiem Bayesa jest niesprawiedliwa, ale tak zakorzeniona, że cokolwiek innego nie ma sensu.
Zastosowanie w genetyce
W genetyce twierdzenie Bayesa można wykorzystać do obliczenia prawdopodobieństwa posiadania przez osobnika określonego genotypu. Wiele osób stara się zbliżyć swoje szanse na chorobę genetyczną lub prawdopodobieństwo bycia nosicielem interesującego genu recesywnego. Analizę Bayesa można przeprowadzić na podstawie wywiadu rodzinnego lub testów genetycznych, aby przewidzieć, czy dana osoba rozwinie chorobę lub przekaże ją swoim dzieciom. Testy genetyczne i prognozy są powszechną praktyką wśród par, które planują mieć dzieci, ale obawiają się, że oboje mogą być nosicielami choroby, zwłaszcza w społecznościach o niskiej zmienności genetycznej.
Pierwszym krokiem w analizie bayesowskiej dla genetyki jest zaproponowanie wzajemnie wykluczających się hipotez: dla określonego allelu osobnik jest lub nie jest nosicielem. Następnie obliczane są cztery prawdopodobieństwa: Prawdopodobieństwo wcześniejsze (prawdopodobieństwo każdej hipotezy z uwzględnieniem informacji, takich jak historia rodzinna lub przewidywania oparte na dziedziczeniu Mendla), Prawdopodobieństwo warunkowe (określonego wyniku), Prawdopodobieństwo wspólne (iloczyn dwóch pierwszych) oraz Prawdopodobieństwo późniejsze Prawdopodobieństwo (iloczyn ważony obliczany przez podzielenie wspólnego prawdopodobieństwa dla każdej hipotezy przez sumę obu wspólnych prawdopodobieństw). Ten rodzaj analizy można przeprowadzić wyłącznie na podstawie historii choroby w rodzinie lub w połączeniu z testami genetycznymi.
Korzystanie z rodowodu do obliczania prawdopodobieństw
Hipoteza | Hipoteza 1: Pacjent jest nosicielem | Hipoteza 2: Pacjent nie jest nosicielem |
---|---|---|
Wcześniejsze prawdopodobieństwo | 1/2 | 1/2 |
Warunkowe prawdopodobieństwo, że cała czwórka potomstwa pozostanie nienaruszona | (1/2) · (1/2) · (1/2) · (1/2) = 1/16 | Około 1 |
Wspólne prawdopodobieństwo | (1/2) · (1/16) = 1/32 | (1/2) · 1 = 1/2 |
Prawdopodobieństwo a posteriori | (1/32) / (1/32 + 1/2) = 1/17 | (1/2) / (1/32 + 1/2) = 16/17 |
Przykład tabeli analizy bayesowskiej dla ryzyka zachorowania u kobiety w oparciu o wiedzę, że choroba występuje u jej rodzeństwa, ale nie u jej rodziców ani u żadnego z jej czworga dzieci. Opierając się wyłącznie na statusie rodzeństwa i rodziców osoby badanej, jest równie prawdopodobne, że jest ona nosicielką, jak nie-nosicielką (prawdopodobieństwo to jest określone przez Wcześniejszą Hipotezę). Jednak prawdopodobieństwo, że wszyscy czterej synowie osoby pozostaną nienaruszeni, wynosi 1/16 (½·½·½·½), jeśli jest ona nosicielem, około 1, jeśli nie jest nosicielem (jest to prawdopodobieństwo warunkowe). Wspólne prawdopodobieństwo godzi te dwie prognozy, mnożąc je razem. Ostatnia linia (prawdopodobieństwo a posteriori) jest obliczana poprzez podzielenie wspólnego prawdopodobieństwa dla każdej hipotezy przez sumę obu wspólnych prawdopodobieństw.
Korzystanie z wyników testów genetycznych
Testy genetyczne rodziców mogą wykryć około 90% znanych alleli chorobowych u rodziców, które mogą prowadzić do nosicielstwa lub stanu chorobowego u ich dziecka. Mukowiscydoza jest chorobą dziedziczną spowodowaną autosomalną recesywną mutacją genu CFTR, zlokalizowanego w ramieniu q chromosomu 7.
Analiza bayesowska pacjentki z rodzinną historią mukowiscydozy (CF), u której wynik testu na mukowiscydozę był ujemny, pokazujący, w jaki sposób ta metoda została wykorzystana do określenia ryzyka urodzenia dziecka z mukowiscydozą:
Ponieważ pacjentka nie jest dotknięta chorobą, jest albo homozygotyczna pod względem allelu typu dzikiego, albo heterozygotyczna. Aby ustalić wcześniejsze prawdopodobieństwa, używa się kwadratu Punneta, opartego na wiedzy, że żaden z rodziców nie był dotknięty chorobą, ale obaj mogli być nosicielami:
Mama
Ojciec |
W
Homozygotyczny dla |
m
Heterozygota (nosiciel CF) |
---|---|---|
W
Homozygotyczny dla |
W W | MW |
m
Heterozygota (nosiciel CF) |
MW | MM
(dotknięty mukowiscydozą) |
Biorąc pod uwagę, że pacjent jest zdrowy, istnieją tylko trzy możliwości. W ramach tych trzech istnieją dwa scenariusze, w których pacjent jest nosicielem zmutowanego allelu. Zatem prawdopodobieństwa a priori to ⅔ i ⅓.
Następnie pacjent poddawany jest badaniom genetycznym i negatywnym badaniom na mukowiscydozę. Ten test ma 90% wykrywalność, więc warunkowe prawdopodobieństwa negatywnego testu wynoszą 1/10 i 1. Na koniec prawdopodobieństwa stawu i tylnego są obliczane jak poprzednio.
Hipoteza | Hipoteza 1: Pacjent jest nosicielem | Hipoteza 2: Pacjent nie jest nosicielem |
---|---|---|
Wcześniejsze prawdopodobieństwo | 2/3 | 1/3 |
Warunkowe prawdopodobieństwo negatywnego testu | 1/10 | 1 |
Wspólne prawdopodobieństwo | 1/15 | 1/3 |
Prawdopodobieństwo a posteriori | 1/6 | 5/6 |
Po przeprowadzeniu tej samej analizy na partnerze pacjenta (z negatywnym wynikiem testu) prawdopodobieństwo, że dziecko zostanie dotknięte chorobą, jest równe iloczynowi prawdopodobieństw, że rodzice są nosicielami a posteriori pomnożonej przez prawdopodobieństwo, że dwóch nosicieli spowoduje nosicielstwo. dotknięte potomstwo (¼).
Testy genetyczne wykonywane równolegle z identyfikacją innych czynników ryzyka.
Analizę bayesowską można przeprowadzić przy użyciu informacji fenotypowych związanych z chorobą genetyczną, a w połączeniu z badaniami genetycznymi analiza ta staje się znacznie bardziej skomplikowana. Na przykład mukowiscydozę można zidentyfikować u płodu poprzez badanie ultrasonograficzne w poszukiwaniu echogenicznego jelita, co oznacza, że jest jaśniejsze niż normalnie na skanie2. Nie jest to niezawodny test, ponieważ jelito echogeniczne może być obecne w całkowicie zdrowym płodzie. Rodzicielskie testy genetyczne mają duży wpływ w tym przypadku, gdy aspekt fenotypowy może mieć zbyt duży wpływ na obliczenie prawdopodobieństwa. W przypadku płodu z jelitem echogenicznym, z matką, która została przebadana i jest znana jako nosicielka mukowiscydozy, prawdopodobieństwo, że płód rzeczywiście ma chorobę, jest bardzo wysokie (0,64). Jednakże, gdy ojciec uzyskał negatywny wynik testu na mukowiscydozę, prawdopodobieństwo a posteriori znacznie spada (do 0,16).
Obliczanie czynników ryzyka jest potężnym narzędziem w poradnictwie genetycznym i planowaniu reprodukcji, ale nie może być traktowane jako jedyny ważny czynnik, który należy wziąć pod uwagę. Jak wyżej, niepełne testowanie może dać fałszywie wysokie prawdopodobieństwo statusu nosiciela, a testowanie może być finansowo niedostępne lub niewykonalne, gdy rodzic nie jest obecny.
Zobacz też
- Prawdopodobieństwo indukcyjne
- Bayesianizm kwantowy
- Dlaczego większość opublikowanych wyników badań jest fałszywa
- epistemologia bayesowska
Uwagi
Bibliografia
Dalsza lektura
- Grunau, Hans-Christoph (24 stycznia 2014). „Przedmowa Wydanie 3/4-2013” . Jahresbericht der Deutschen Mathematiker-Vereinigung . 115 (3–4): 127–128. doi : 10.1365/s13291-013-0077-z .
- Gelman, A, Carlin, JB, Stern, HS i Rubin, DB (2003), „Bayesian Data Analysis”, wydanie drugie, CRC Press.
- Grinstead, CM i Snell, JL (1997), "Wprowadzenie do prawdopodobieństwa (2nd edition)," American Mathematical Society (dostępny bezpłatny pdf) [1] .
- „Formuła Bayesa” , Encyklopedia Matematyki , EMS Press , 2001 [1994]
- McGrayne, SB (2011). Teoria, która nie umrze: jak rządy Bayesa złamały kod Enigmy, ścigały rosyjskie okręty podwodne i triumfowały od dwóch wieków kontrowersji . Wydawnictwo Uniwersytetu Yale . Numer ISBN 978-0-300-18822-6.
- Laplace'a, Pierre'a Simona (1986). „Pamiętnik o prawdopodobieństwie przyczyn zdarzeń” . Nauka statystyczna . 1 (3): 364–378. doi : 10.1214/ss/1177013621 . JSTOR 2245476 .
- Lee, Peter M (2012), „Bayesian Statistics: An Introduction”, wydanie 4.. Wileya. ISBN 978-1-118-33257-3 .
- Puga JL, Krzywiński M, Altman N (31 marca 2015). „Twierdzenie Bayesa” . Metody natury . 12 (4): 277–278. doi : 10.1038/nmeth.3335 . PMID 26005726 .
- Rosenthal, Jeffrey S (2005), „Uderzony piorunem: Ciekawy świat prawdopodobieństwa”. Harper Collins. (Granta, 2008. ISBN 9781862079960 ).
- Stigler, Stephen M. (sierpień 1986). „Wspomnienia Laplace'a z 1774 r. dotyczące odwrotnego prawdopodobieństwa” . Nauka statystyczna . 1 (3): 359–363. doi : 10.1214/ss/1177013620 .
- Stone, JV (2013), pobierz rozdział 1 książki „Bayes' Rule: A Tutorial Introduction to Bayesian Analysis” , Sebtel Press, Anglia.
- Bayesowskie rozumowanie dla inteligentnych ludzi , Wprowadzenie i samouczek do wykorzystania twierdzenia Bayesa w statystyce i kognitywistyce.
- Morris, Dan (2016), Przeczytaj pierwsze 6 rozdziałów za darmo z „ Przykłady twierdzenia Bayesa: wizualne wprowadzenie dla początkujących ” Blue Windmill ISBN 978-1549761744 . Krótki samouczek dotyczący rozumienia scenariuszy problemowych i znajdowania P(B), P(A) i P(B|A).
Zewnętrzne linki
- Teoria, która nie umrze Sharon Bertsch McGrayne New York Times Book Review Johna Allena Paulosa 5 sierpnia 2011
- Wizualne wyjaśnienie Bayesa za pomocą drzew (wideo)
- Interpretacja częstościowa Bayesa wyjaśniona wizualnie (wideo)
- Najwcześniejsze znane zastosowania niektórych słów matematyki (B) . Zawiera źródła „Bayesa”, „Twierdzenie Bayesa”, „Oszacowanie/ryzyko/rozwiązanie Bayesa”, „Empiryczne Bayesa” i „Współczynnik Bayesa”.
- Weisstein, Eric W. „Twierdzenie Bayesa” . MatematykaŚwiat .
- Twierdzenie Bayesa w PlanetMath .
- Twierdzenie Bayesa i szaleństwo przewidywania
- Samouczek dotyczący prawdopodobieństwa i twierdzenia Bayesa opracowany dla studentów psychologii Uniwersytetu Oksfordzkiego
- Intuicyjne wyjaśnienie twierdzenia Bayesa autorstwa Eliezera S. Yudkowsky'ego
- Internetowy demonstrator subiektywnego twierdzenia Bayesa
- Bayesowski Kliniczny Model Diagnostyczny