Twierdzenie Bayesa - Bayes' theorem

Niebieski neon przedstawiający proste stwierdzenie twierdzenia Bayesa

W teorii prawdopodobieństwa i statystyki , twierdzenie Bayesa (alternatywnie Bayesa prawa lub reguły Bayesa ; niedawno Bayesa-Price twierdzenie ), nazwany Thomasa Bayesa , opisuje prawdopodobieństwo danego zdarzenia , na podstawie wcześniejszej wiedzy o warunkach, które mogą być związane z wydarzenie. Na przykład, jeśli wiadomo, że ryzyko wystąpienia problemów zdrowotnych wzrasta wraz z wiekiem, twierdzenie Bayesa pozwala na dokładniejszą ocenę ryzyka dla osoby w znanym wieku (poprzez uwarunkowanie jej wieku), niż po prostu zakładając, że dana osoba jest typowe dla całej populacji.

Jednym z wielu zastosowań twierdzenia Bayesa jest wnioskowanie bayesowskie , szczególne podejście do wnioskowania statystycznego . Po zastosowaniu prawdopodobieństwa zawarte w twierdzeniu mogą mieć różne interpretacje prawdopodobieństwa . Z interpretacją prawdopodobieństwa bayesowskiego twierdzenie wyraża, w jaki sposób stopień przekonania wyrażony jako prawdopodobieństwo powinien się racjonalnie zmienić, aby uwzględnić dostępność powiązanych dowodów. Wnioskowanie bayesowskie jest podstawą statystyki bayesowskiej .

Stwierdzenie twierdzenia

Twierdzenie Bayesa jest sformułowane matematycznie jako następujące równanie:

gdzie i są wydarzenia i .

  • jest prawdopodobieństwem warunkowym : prawdopodobieństwo wystąpienia zdarzenia , jeśli to prawda. Nazywana jest również prawdopodobieństwo a posteriori z podana .
  • jest również prawdopodobieństwem warunkowym: prawdopodobieństwem zajścia zdarzenia , jeśli jest ono prawdziwe. Może być również interpretowana jako prawdopodobieństwa o podane stałe , ponieważ .
  • i są prawdopodobieństwami obserwacji i odpowiednio bez żadnych warunków; są one znane jako prawdopodobieństwo krańcowe lub prawdopodobieństwo a priori .
  • i muszą być różnymi wydarzeniami.

Dowód

Na imprezy

Twierdzenie Bayesa można wyprowadzić z definicji prawdopodobieństwa warunkowego :

gdzie jest prawdopodobieństwo, że zarówno A, jak i B są prawdziwe. Podobnie,

Rozwiązując i podstawiając do powyższego wyrażenia, otrzymujemy twierdzenie Bayesa:

Dla ciągłych zmiennych losowych

Dla dwóch ciągłych zmiennych losowych X i Y twierdzenie Bayesa można analogicznie wyprowadzić z definicji gęstości warunkowej :

W związku z tym,

Przykłady

Testowanie narkotyków

Rysunek 1: Używanie ramki częstotliwości do wizualnego pokazania poprzez porównanie obszarów

Załóżmy, że konkretny test sprawdzający, czy ktoś używał konopi indyjskich, jest czuły w 90% , co oznacza prawdziwy wskaźnik pozytywnych wyników (TPR)=0,90. W związku z tym prowadzi to do 90% prawdziwie pozytywnych wyników (prawidłowa identyfikacja używania narkotyków) dla osób używających konopi indyjskich.

Test jest również w 80% specyficzny , co oznacza odsetek prawdziwie ujemnych wyników (TNR)=0,80. Dlatego test poprawnie identyfikuje 80% nieużywania przez osoby niebędące użytkownikami, ale generuje również 20% fałszywych trafień lub współczynnik fałszywych trafień (FPR)=0,20 dla osób niebędących użytkownikami.

Zakładając 0,05 występowania , co oznacza 5% osób używa konopi, jakie jest prawdopodobieństwo , że losowo osoba, która testuje pozytywne jest naprawdę użytkownik konopi?

Pozytywna wartość predykcyjna (PPV) testu jest odsetek osób, które są rzeczywiście pozytywne z tych wszystkich testów dodatnia, i może być obliczone z próbki jako:

PPV = Prawdziwie pozytywny / Testowany pozytywny

Jeśli znana jest czułość, swoistość i częstość występowania, PPV można obliczyć za pomocą twierdzenia Bayesa. Miejmy na myśli „prawdopodobieństwo, że ktoś jest użytkownikiem konopi, biorąc pod uwagę, że wynik testu jest pozytywny”, co oznacza PPV. Możemy pisać:

Fakt, że jest to bezpośrednie zastosowanie Prawa Całkowitego Prawdopodobieństwa . W tym przypadku mówi się, że prawdopodobieństwo pozytywnego wyniku testów jest prawdopodobieństwo pozytywnego wyniku testu użytkownika, razy prawdopodobieństwo, że jest użytkownikiem, plus prawdopodobieństwo, że test niebędący użytkownikiem jest pozytywny, razy prawdopodobieństwo, że nie jest użytkownikiem . Dzieje się tak, ponieważ klasyfikacje użytkownika i nieużytkownika tworzą podział zbioru , czyli zbioru osób, które poddają się testowi narkotykowemu. To w połączeniu z definicją prawdopodobieństwa warunkowego daje w wyniku powyższe stwierdzenie.

Innymi słowy, nawet jeśli ktoś testuje pozytywnie, prawdopodobieństwo, że jest użytkownikiem konopi wynosi tylko 19% — to dlatego, że w tej grupie tylko 5% osób to użytkownicy, a większość pozytywnych wyników to fałszywe alarmy pochodzące z pozostałych 95% .

Jeśli przebadano 1000 osób:

  • 950 nie jest użytkownikami, a 190 z nich daje fałszywie pozytywne (0,20 × 950)
  • 50 z nich to użytkownicy, a 45 z nich daje prawdziwy pozytyw (0,90 × 50)

W ten sposób 1000 osób daje 235 pozytywnych testów, z których tylko 45 to prawdziwi użytkownicy narkotyków, około 19%. Zobacz rysunek 1, aby zobaczyć ilustrację z wykorzystaniem pola częstotliwości i zauważ, jak mały różowy obszar wyników prawdziwie pozytywnych jest w porównaniu z niebieskim obszarem wyników fałszywie dodatnich.

Czułość lub specyficzność

Znaczenie swoistości można zaobserwować pokazując, że nawet jeśli czułość jest zwiększona do 100%, a swoistość pozostaje na poziomie 80%, prawdopodobieństwo, że ktoś z pozytywnym wynikiem testu rzeczywiście jest użytkownikiem konopi wzrasta tylko z 19% do 21%, ale jeśli czułość jest utrzymany na poziomie 90%, a swoistość zwiększona do 95%, prawdopodobieństwo wzrasta do 49%.

Wskaźnik raka

Nawet jeśli 100% pacjentów z rakiem trzustki ma określony objaw, to gdy ktoś ma ten sam objaw, nie oznacza to, że ta osoba ma 100% szans na zachorowanie na raka trzustki. Załóżmy, że wskaźnik zachorowalności na raka trzustki wynosi 1/100000, podczas gdy 10/100000 zdrowych osób ma takie same objawy na całym świecie, prawdopodobieństwo wystąpienia raka trzustki przy tych objawach wynosi tylko 9,1%, a pozostałe 90,9% może być „fałszywie dodatnie” ( to znaczy, fałszywie mówi się, że ma raka; „pozytywny” jest mylącym terminem, gdy, jak tutaj, test daje złe wieści).

W oparciu o współczynnik zapadalności, poniższa tabela przedstawia odpowiednie liczby na 100 000 osób.

Nowotwór
Objaw  
tak Nie Całkowity
tak 1 10 11
Nie 0 99989 99989
Całkowity 1 99999 100000

Które następnie można wykorzystać do obliczenia prawdopodobieństwa zachorowania na raka, gdy masz objawy:

Wadliwa stawka przedmiotu

Stan: schorzenie

Maszyna
Wadliwy Doskonały Całkowity
A 10 190 200
b 9 291 300
C 5 495 500
Całkowity 24 976 1000

Fabryka produkuje przedmiot przy użyciu trzech maszyn — A, B i C — które stanowią odpowiednio 20%, 30% i 50% jej produkcji. Z przedmiotów wyprodukowanych przez maszynę A 5% jest wadliwych; podobnie, 3% elementów maszyny B i 1% maszyn C jest uszkodzonych. Jeśli losowo wybrany przedmiot jest uszkodzony, jakie jest prawdopodobieństwo, że został wyprodukowany przez maszynę C?

Po raz kolejny odpowiedź można uzyskać bez użycia wzoru, stosując warunki do hipotetycznej liczby przypadków. Na przykład, jeśli fabryka produkuje 1000 sztuk, 200 zostanie wyprodukowanych przez Maszynę A, 300 przez Maszynę B, a 500 przez Maszynę C. Maszyna A wyprodukuje 5% × 200 = 10 wadliwych elementów, Maszyna B 3% × 300 = 9 , a Maszyna C 1% × 500 = 5, w sumie 24. Zatem prawdopodobieństwo, że losowo wybrany wadliwy element został wyprodukowany przez maszynę C wynosi 5/24 (~20,83%).

Problem ten można również rozwiązać za pomocą twierdzenia Bayesa: Niech X i oznacza zdarzenie, w którym losowo wybrany przedmiot został wykonany przez i- maszynę (dla i  = A,B,C). Niech Y oznacza zdarzenie, w którym losowo wybrany element jest uszkodzony. Następnie otrzymujemy następujące informacje:

Jeśli przedmiot został wykonany przez pierwszą maszynę, prawdopodobieństwo, że jest wadliwy, wynosi 0,05; to znaczy, P ( Y  |  X A ) = 0,05. Ogólnie mamy

Aby odpowiedzieć na pierwotne pytanie, najpierw znajdujemy P (Y). Można to zrobić w następujący sposób:

W związku z tym 2,4% całkowitej produkcji jest wadliwe.

Mamy dane, że zaszło Y i chcemy obliczyć prawdopodobieństwo warunkowe X C . Według twierdzenia Bayesa,

Biorąc pod uwagę, że przedmiot jest uszkodzony, prawdopodobieństwo, że został wykonany przez maszynę C wynosi 5/24. Chociaż maszyna C wytwarza połowę całkowitej produkcji, wytwarza znacznie mniejszą część wadliwych elementów. Stąd wiedza, że ​​wybrany przedmiot był wadliwy, pozwala nam zastąpić prawdopodobieństwo a priori P ( X C ) = 1/2 mniejszym prawdopodobieństwem a posteriori P (X C  |  Y ) = 5/24.

Interpretacje

Rysunek 2: Geometryczna wizualizacja twierdzenia Bayesa.

Interpretacja reguły Bayesa zależy od interpretacji prawdopodobieństwa przypisanego terminom. Poniżej opisano dwie główne interpretacje. Rysunek 2 pokazuje geometryczną wizualizację podobną do rysunku 1. Gerd Gigerenzer i współautorzy mocno naciskali na nauczanie reguły Bayesa w ten sposób, ze szczególnym naciskiem na uczenie jej lekarzy. Przykładem jest strona internetowa Willa Kurta „Bayes' Theorem with Lego”, która później przekształciła się w książkę, Bayesian Statistics the Fun Way: Understanding Statistics and Probability with Star Wars, LEGO i Rubber Ducks. Zhu i Gigerenzer stwierdzili w 2006 r., że podczas gdy 0% uczniów klas 4, 5 i 6 potrafiło rozwiązywać zadania tekstowe po nauczeniu się za pomocą formuł, 19%, 39% i 53% mogło rozwiązywać zadania z wykorzystaniem pól częstotliwości, a nauka była albo dokładna, albo zerowa.

Interpretacja bayesowska

W interpretacji bayesowskiej (lub epistemologicznej) prawdopodobieństwo mierzy „stopień wiary”. Twierdzenie Bayesa łączy stopień wiary w twierdzenie przed i po uwzględnieniu dowodów. Załóżmy na przykład, że uważa się z 50% pewnością, że moneta ma dwa razy większe szanse na wylądowanie orłem niż remkiem. Jeśli moneta zostanie rzucona kilka razy i zaobserwowane wyniki, ten stopień wiary prawdopodobnie wzrośnie lub spadnie, ale może nawet pozostać taki sam, w zależności od wyników. Dla wniosku A i dowodu B ,

  • P  ( A ) , przeor , jest początkowym stopniem wiary w A .
  • P  ( A  |  B ), a posteriori , to stopień przekonania po włączeniu wiadomości, że B jest prawdą.
  • iloraz P ( B  |  A )/P ( B )reprezentuje wsparcie, jakie B zapewnia A .

Aby uzyskać więcej informacji na temat zastosowania twierdzenia Bayesa w bayesowskiej interpretacji prawdopodobieństwa, zobacz wnioskowanie bayesowskie .

Interpretacja częsta

Rysunek 3: Ilustracja interpretacji częstościowej z diagramami drzewiastymi .

W interpretacji częstolistycznej prawdopodobieństwo mierzy „proporcję wyników”. Załóżmy na przykład, że eksperyment jest przeprowadzany wiele razy. P ( A ) jest proporcją wyników o własności A (uprzedniej), a P ( B ) jest proporcją z własnością B . P ( B  |  A ) to proporcja wyników z własnością B od wyników z własnością A , a P ( A  |  B ) to proporcja tych z A od tych z  B ( a posteriori ).

Rolę twierdzenia Bayesa najlepiej zobrazować za pomocą diagramów drzewiastych, takich jak rysunek 3. Te dwa diagramy dzielą te same wyniki na A i B w przeciwnej kolejności, aby uzyskać odwrotne prawdopodobieństwa. Twierdzenie Bayesa łączy różne partycjonowanie.

Przykład

Rysunek 4: Schemat drzewa ilustrujący przykład chrząszcza. R, C, P i są zdarzeniami rzadkimi, powszechnymi, wzorcowymi i bez wzorca. Obliczane są wartości procentowe w nawiasach. Podano trzy niezależne wartości, dzięki czemu możliwe jest obliczenie drzewa odwrotnego.

An entomolog plamy, co może, ze względu na wzór na plecach, być rzadki podgatunek z żuka . Pełne 98% członków rzadkich podgatunków ma wzór, więc P (Wzór | Rzadki) = 98%. Tylko 5% członków wspólnego podgatunku ma wzór. Rzadki podgatunek stanowi 0,1% całej populacji. Jak prawdopodobne jest, że chrząszcz ma wzór rzadki: co to jest P (Rare | Pattern)?

Z rozszerzonej postaci twierdzenia Bayesa (ponieważ każdy chrząszcz jest rzadki lub pospolity),

Formularze

Wydarzenia

Prosta forma

Dla zdarzeń A i B , pod warunkiem, że P ( B ) ≠ 0,

W wielu zastosowaniach, na przykład we wnioskowaniu bayesowskim , zdarzenie B jest ustalone w dyskusji i chcemy rozważyć wpływ jego zaobserwowania na naszą wiarę w różne możliwe zdarzenia A . W takiej sytuacji mianownik ostatniego wyrażenia, prawdopodobieństwo danego dowodu B , jest ustalony; to, co chcemy zmienić, to A . Twierdzenie Bayesa pokazuje następnie, że prawdopodobieństwa a posteriori są proporcjonalne do licznika, więc ostatnie równanie staje się:

.

Słowem, a posteriori jest proporcjonalna do poprzednich razy prawdopodobieństwo.

Jeśli zdarzenia A 1 , A 2 , ... są wzajemnie wykluczające się i wyczerpujące, tj. jedno z nich na pewno wystąpi, ale żadne dwa nie mogą wystąpić razem, możemy określić stałą proporcjonalności, wykorzystując fakt, że ich prawdopodobieństwa muszą się sumować do jednego. Na przykład dla zdarzeń danym A , zdarzenie sam i jego dopełnienie ¬ są wyłączne i wyczerpująca. Oznaczając stałą proporcjonalności przez c mamy

Dodając te dwie formuły wywnioskujemy, że

lub

Alternatywna forma

Tabela awaryjna
  Tło

Propozycja
b ¬B
(nie B)
Całkowity
A P(B|A)·P(A)
= P(A|B)·P(B)
P(¬B|A)·P(A)
= P(A|¬B)·P(¬B)
ROCZNIE)
¬A
(nie A)
P(B|¬A)·P(¬A)
= P(¬A|B)·P(B)
P(¬B|¬A)·P(¬A)
= P(¬A|¬B)·P(¬B)
P(¬A) =
1-P(A)
Całkowity    P(B)    P(¬B) = 1-P(B) 1

Inną formą twierdzenia Bayesa dla dwóch konkurujących ze sobą twierdzeń lub hipotez jest:

Dla interpretacji epistemologicznej:

Dla wniosku A i dowodów lub tła B ,

  • jest przed prawdopodobieństwo , początkowy stopień wiary w A .
  • jest odpowiednim początkowym stopniem wiary w not-A , że A jest fałszywe, gdzie
  • jest prawdopodobieństwem warunkowym lub prawdopodobieństwem, stopniem wiary w B przy założeniu, że zdanie A jest prawdziwe.
  • jest prawdopodobieństwem warunkowym lub prawdopodobieństwem, stopniem wiary w B przy założeniu, że zdanie A jest fałszywe.
  • jest prawdopodobieństwem a posteriori , prawdopodobieństwem A po uwzględnieniu B .

Formularz rozszerzony

Często, dla niektórych partycji { j } na powierzchni próbki The miejsca zdarzenia są podane w odniesieniu do P ( j ) i P ( B  |  J ). Przydatne jest zatem obliczenie P ( B ) przy użyciu prawa całkowitego prawdopodobieństwa :

W szczególnym przypadku, gdy A jest zmienną binarną :

Zmienne losowe

Rysunek 5: Twierdzenie Bayesa zastosowane do przestrzeni zdarzeń generowanej przez ciągłe zmienne losowe X i Y . Istnieje instancja twierdzenia Bayesa dla każdego punktu w domenie . W praktyce, te przykłady mogą być sparametryzowanego pisząc wyspecyfikowane gęstości prawdopodobieństwa w zależności od x i y .

Rozważmy przestrzeń próbną Ω generowaną przez dwie zmienne losowe X i Y . W zasadzie twierdzenie Bayesa dotyczy zdarzeń A  = { X  =  x } i B  = { Y  =  y }.

Jednak wyrazy stają się 0 w punktach, w których każda zmienna ma skończoną gęstość prawdopodobieństwa . Aby pozostać użytecznym, twierdzenie Bayesa musi być sformułowane w kategoriach odpowiednich gęstości (patrz Wyprowadzenie ).

Prosta forma

Jeśli X jest ciągłe, a Y jest dyskretne,

gdzie każdy jest funkcją gęstości.

Jeśli X jest dyskretne, a Y jest ciągłe,

Jeśli zarówno X, jak i Y są ciągłe,

Formularz rozszerzony

Rysunek 6: Sposób konceptualizacji przestrzeni zdarzeń generowanych przez ciągłe zmienne losowe X i Y.

Ciągła przestrzeń zdarzeń jest często konceptualizowana za pomocą terminów licznika. Przydatne jest wtedy wyeliminowanie mianownika za pomocą prawa całkowitego prawdopodobieństwa . Dla f Y ( y ) staje się to całką:

Zasada Bayesa

Twierdzenie Bayesa w postaci kursów to:

gdzie

nazywa się współczynnikiem Bayesa lub współczynnikiem prawdopodobieństwa . Szanse między dwoma zdarzeniami to po prostu stosunek prawdopodobieństw dwóch zdarzeń. Zatem

Tak więc reguła mówi, że szanse a posteriori są wcześniejszymi szansami pomnożonymi przez czynnik Bayesa , czyli innymi słowy, a posteriori jest proporcjonalne do wcześniejszych razy prawdopodobieństwo.

W szczególnym przypadku, że i , pisze się , i używa podobnego skrótu dla współczynnika Bayesa i dla szans warunkowych. Kursy są z definicji kursami za i przeciw . Regułę Bayesa można wtedy zapisać w postaci skróconej

lub, słownie, a posteriori prawdopodobieństwa równa się wcześniejszemu prawdopodobieństwu krotności ilorazu prawdopodobieństwa dla danej informacji . Krótko mówiąc, szanse a posteriori są równe prawdopodobieństwu wcześniejszemu i ilorazowi prawdopodobieństwa .

Korespondencja z innymi schematami matematycznymi

Logika zdań

Twierdzenie Bayesa reprezentuje uogólnienie kontrapozycji, które w logice zdań można wyrazić jako:

Odpowiednim wzorem w zakresie rachunku prawdopodobieństwa jest twierdzenie Bayesa, które w swojej rozszerzonej postaci wyraża się jako:

W powyższym równaniu prawdopodobieństwo warunkowe uogólnia zdanie logiczne , tzn. oprócz przypisania PRAWDA lub FAŁSZ możemy również przypisać zdaniu dowolne prawdopodobieństwo. Termin ten oznacza prawdopodobieństwo a priori (czyli stawkę bazową ) . Załóżmy, że jest to równoważne byciu PRAWDA, a to jest równoważne byciu FAŁSZ. Łatwo wtedy zauważyć, że kiedy, czyli kiedy, jest PRAWDĄ. Dzieje się tak dlatego , że ułamek po prawej stronie powyższego równania jest równy 1, a zatem jest równoważny byciu PRAWDA. Stąd twierdzenie Bayesa reprezentuje uogólnienie kontrapozycji .

Logika subiektywna

Twierdzenie Bayesa reprezentuje szczególny przypadek warunkowej inwersji w logice subiektywnej wyrażonej jako:

gdzie oznacza operator odwrócenia warunkowego. Argument oznacza parę dwumianowych opinii warunkowych wydanych przez źródło , a argument oznacza prawdopodobieństwo a priori (czyli stawkę bazową ) . Oznaczono parę odwróconych opinii warunkowych . Opinia warunkowa uogólnia warunkowe probabilistyczne , tzn. oprócz przypisania prawdopodobieństwa źródło może przypisać zdaniu warunkowemu dowolną subiektywną opinię . Dwumianowa opinia subiektywna to wiara w prawdziwość wypowiedzi ze stopniami epistemicznej niepewności, wyrażona przez źródło . Każdej subiektywnej opinii odpowiada przewidywane prawdopodobieństwo . Zastosowanie twierdzenia Bayesa do prognozowanych prawdopodobieństw opinii jest homomorfizmem , co oznacza, że ​​twierdzenie Bayesa można wyrazić w kategoriach prognozowanych prawdopodobieństw opinii:

Stąd subiektywne twierdzenie Bayesa reprezentuje uogólnienie twierdzenia Bayesa.

Uogólnienia

Wersja kondycjonowana

Uwarunkowana wersja twierdzenia Bayesa wynika z dodania trzeciego zdarzenia, od którego uwarunkowane są wszystkie prawdopodobieństwa:

Pochodzenie

Korzystanie z zasady łańcucha

A z drugiej strony

Pożądany wynik uzyskuje się identyfikując oba wyrażenia i rozwiązując .

Reguła Bayesa z 3 zdarzeniami

W przypadku 3 zdarzeń – A, B i C – można wykazać, że:

[Dowód]

Historia

Twierdzenie Bayesa zostało nazwane na cześć wielebnego Thomasa Bayesa ( / b z / ; ok. 1701 - 1761), który jako pierwszy użył prawdopodobieństwa warunkowego do dostarczenia algorytmu (jego propozycja 9) wykorzystującego dowody do obliczenia granic nieznanego parametru, opublikowanego jako esej o rozwiązaniu problemu w doktrynie szans (1763). Studiował, jak obliczyć rozkład dla parametru prawdopodobieństwa rozkładu dwumianowego (we współczesnej terminologii). Po śmierci Bayesa jego rodzina przekazała jego papiery jego staremu przyjacielowi, Richardowi Price'owi (1723-1791), który w ciągu dwóch lat znacznie redagował nieopublikowany rękopis, po czym wysłał go do przyjaciela, który 23 grudnia przeczytał go na głos w Royal Society . 1763. Price zredagował główne dzieło Bayesa „Esej o rozwiązywaniu problemu w doktrynie szans” (1763), które ukazało się w Philosophical Transactions i zawiera twierdzenie Bayesa. Price napisał wstęp do artykułu, który dostarcza pewnych podstaw filozoficznych statystyki bayesowskiej i wybrał jedno z dwóch rozwiązań oferowanych przez Bayesa. W 1765 roku Price został wybrany członkiem Towarzystwa Królewskiego w uznaniu jego pracy nad dziedzictwem Bayesa. 27 kwietnia list wysłany do jego przyjaciela Benjamina Franklina został odczytany w Royal Society, a później opublikowany, w którym Price stosuje tę pracę do populacji i oblicza „dożywotnią rentę”.

Niezależnie od Bayesa, Pierre-Simon Laplace w 1774 r., a później w jego Theorie analytique des probabilités z 1812 r. , użyli prawdopodobieństwa warunkowego do sformułowania relacji zaktualizowanego prawdopodobieństwa a posteriori z prawdopodobieństwem a priori, z danymi dowodami. Odtworzył i rozszerzył wyniki Bayesa w 1774 roku, najwyraźniej nieświadomy pracy Bayesa. Bayesa interpretacja prawdopodobieństwa został opracowany głównie przez Laplace'a.

Sir Harold Jeffreys umieścił algorytm Bayesa i sformułowanie Laplace'a na podstawie aksjomatycznej , pisząc, że twierdzenie Bayesa „jest dla teorii prawdopodobieństwa tym, czym twierdzenie Pitagorasa dla geometrii”.

Stephen Stigler użył argumentu bayesowskiego, aby stwierdzić, że twierdzenie Bayesa zostało odkryte przez Nicholasa Saundersona , niewidomego angielskiego matematyka, jakiś czas przed Bayesem; ta interpretacja została jednak zakwestionowana. Martyn Hooper i Sharon McGrayne twierdzili, że wkład Richarda Price był znaczny:

Według współczesnych standardów powinniśmy odwoływać się do reguły Bayesa-Price. Price odkrył pracę Bayesa, rozpoznał jej znaczenie, poprawił ją, przyczynił się do powstania artykułu i znalazł dla niego zastosowanie. Współczesna konwencja posługiwania się samym nazwiskiem Bayesa jest niesprawiedliwa, ale tak zakorzeniona, że ​​cokolwiek innego nie ma sensu.

Zastosowanie w genetyce

W genetyce twierdzenie Bayesa można wykorzystać do obliczenia prawdopodobieństwa posiadania przez osobnika określonego genotypu. Wiele osób stara się zbliżyć swoje szanse na chorobę genetyczną lub prawdopodobieństwo bycia nosicielem interesującego genu recesywnego. Analizę Bayesa można przeprowadzić na podstawie wywiadu rodzinnego lub testów genetycznych, aby przewidzieć, czy dana osoba rozwinie chorobę lub przekaże ją swoim dzieciom. Testy genetyczne i prognozy są powszechną praktyką wśród par, które planują mieć dzieci, ale obawiają się, że oboje mogą być nosicielami choroby, zwłaszcza w społecznościach o niskiej zmienności genetycznej.

Pierwszym krokiem w analizie bayesowskiej dla genetyki jest zaproponowanie wzajemnie wykluczających się hipotez: dla określonego allelu osobnik jest lub nie jest nosicielem. Następnie obliczane są cztery prawdopodobieństwa: Prawdopodobieństwo wcześniejsze (prawdopodobieństwo każdej hipotezy z uwzględnieniem informacji, takich jak historia rodzinna lub przewidywania oparte na dziedziczeniu Mendla), Prawdopodobieństwo warunkowe (określonego wyniku), Prawdopodobieństwo wspólne (iloczyn dwóch pierwszych) oraz Prawdopodobieństwo późniejsze Prawdopodobieństwo (iloczyn ważony obliczany przez podzielenie wspólnego prawdopodobieństwa dla każdej hipotezy przez sumę obu wspólnych prawdopodobieństw). Ten rodzaj analizy można przeprowadzić wyłącznie na podstawie historii choroby w rodzinie lub w połączeniu z testami genetycznymi.

Korzystanie z rodowodu do obliczania prawdopodobieństw

Hipoteza Hipoteza 1: Pacjent jest nosicielem Hipoteza 2: Pacjent nie jest nosicielem
Wcześniejsze prawdopodobieństwo 1/2 1/2
Warunkowe prawdopodobieństwo, że cała czwórka potomstwa pozostanie nienaruszona (1/2) · (1/2) · (1/2) · (1/2) = 1/16 Około 1
Wspólne prawdopodobieństwo (1/2) · (1/16) = 1/32 (1/2) · 1 = 1/2
Prawdopodobieństwo a posteriori (1/32) / (1/32 + 1/2) = 1/17 (1/2) / (1/32 + 1/2) = 16/17

Przykład tabeli analizy bayesowskiej dla ryzyka zachorowania u kobiety w oparciu o wiedzę, że choroba występuje u jej rodzeństwa, ale nie u jej rodziców ani u żadnego z jej czworga dzieci. Opierając się wyłącznie na statusie rodzeństwa i rodziców osoby badanej, jest równie prawdopodobne, że jest ona nosicielką, jak nie-nosicielką (prawdopodobieństwo to jest określone przez Wcześniejszą Hipotezę). Jednak prawdopodobieństwo, że wszyscy czterej synowie osoby pozostaną nienaruszeni, wynosi 1/16 (½·½·½·½), jeśli jest ona nosicielem, około 1, jeśli nie jest nosicielem (jest to prawdopodobieństwo warunkowe). Wspólne prawdopodobieństwo godzi te dwie prognozy, mnożąc je razem. Ostatnia linia (prawdopodobieństwo a posteriori) jest obliczana poprzez podzielenie wspólnego prawdopodobieństwa dla każdej hipotezy przez sumę obu wspólnych prawdopodobieństw.

Korzystanie z wyników testów genetycznych

Testy genetyczne rodziców mogą wykryć około 90% znanych alleli chorobowych u rodziców, które mogą prowadzić do nosicielstwa lub stanu chorobowego u ich dziecka. Mukowiscydoza jest chorobą dziedziczną spowodowaną autosomalną recesywną mutacją genu CFTR, zlokalizowanego w ramieniu q chromosomu 7.

Analiza bayesowska pacjentki z rodzinną historią mukowiscydozy (CF), u której wynik testu na mukowiscydozę był ujemny, pokazujący, w jaki sposób ta metoda została wykorzystana do określenia ryzyka urodzenia dziecka z mukowiscydozą:

Ponieważ pacjentka nie jest dotknięta chorobą, jest albo homozygotyczna pod względem allelu typu dzikiego, albo heterozygotyczna. Aby ustalić wcześniejsze prawdopodobieństwa, używa się kwadratu Punneta, opartego na wiedzy, że żaden z rodziców nie był dotknięty chorobą, ale obaj mogli być nosicielami:

Mama


Ojciec
W

Homozygotyczny dla
allelu typu dzikiego (nie nosiciel)

m

Heterozygota (nosiciel CF)

W

Homozygotyczny dla
allelu typu dzikiego (nie nosiciel)

W W MW
m

Heterozygota (nosiciel CF)

MW MM

(dotknięty mukowiscydozą)

Biorąc pod uwagę, że pacjent jest zdrowy, istnieją tylko trzy możliwości. W ramach tych trzech istnieją dwa scenariusze, w których pacjent jest nosicielem zmutowanego allelu. Zatem prawdopodobieństwa a priori to ⅔ i ⅓.

Następnie pacjent poddawany jest badaniom genetycznym i negatywnym badaniom na mukowiscydozę. Ten test ma 90% wykrywalność, więc warunkowe prawdopodobieństwa negatywnego testu wynoszą 1/10 i 1. Na koniec prawdopodobieństwa stawu i tylnego są obliczane jak poprzednio.

Hipoteza Hipoteza 1: Pacjent jest nosicielem Hipoteza 2: Pacjent nie jest nosicielem
Wcześniejsze prawdopodobieństwo 2/3 1/3
Warunkowe prawdopodobieństwo negatywnego testu 1/10 1
Wspólne prawdopodobieństwo 1/15 1/3
Prawdopodobieństwo a posteriori 1/6 5/6

Po przeprowadzeniu tej samej analizy na partnerze pacjenta (z negatywnym wynikiem testu) prawdopodobieństwo, że dziecko zostanie dotknięte chorobą, jest równe iloczynowi prawdopodobieństw, że rodzice są nosicielami a posteriori pomnożonej przez prawdopodobieństwo, że dwóch nosicieli spowoduje nosicielstwo. dotknięte potomstwo (¼).

Testy genetyczne wykonywane równolegle z identyfikacją innych czynników ryzyka.

Analizę bayesowską można przeprowadzić przy użyciu informacji fenotypowych związanych z chorobą genetyczną, a w połączeniu z badaniami genetycznymi analiza ta staje się znacznie bardziej skomplikowana. Na przykład mukowiscydozę można zidentyfikować u płodu poprzez badanie ultrasonograficzne w poszukiwaniu echogenicznego jelita, co oznacza, że ​​jest jaśniejsze niż normalnie na skanie2. Nie jest to niezawodny test, ponieważ jelito echogeniczne może być obecne w całkowicie zdrowym płodzie. Rodzicielskie testy genetyczne mają duży wpływ w tym przypadku, gdy aspekt fenotypowy może mieć zbyt duży wpływ na obliczenie prawdopodobieństwa. W przypadku płodu z jelitem echogenicznym, z matką, która została przebadana i jest znana jako nosicielka mukowiscydozy, prawdopodobieństwo, że płód rzeczywiście ma chorobę, jest bardzo wysokie (0,64). Jednakże, gdy ojciec uzyskał negatywny wynik testu na mukowiscydozę, prawdopodobieństwo a posteriori znacznie spada (do 0,16).

Obliczanie czynników ryzyka jest potężnym narzędziem w poradnictwie genetycznym i planowaniu reprodukcji, ale nie może być traktowane jako jedyny ważny czynnik, który należy wziąć pod uwagę. Jak wyżej, niepełne testowanie może dać fałszywie wysokie prawdopodobieństwo statusu nosiciela, a testowanie może być finansowo niedostępne lub niewykonalne, gdy rodzic nie jest obecny.

Zobacz też

Uwagi

Bibliografia

Dalsza lektura

Zewnętrzne linki