Prawdopodobieństwo indukcyjne - Inductive probability

Prawdopodobieństwo indukcyjne próbuje podać prawdopodobieństwo przyszłych zdarzeń na podstawie przeszłych zdarzeń. Jest podstawą rozumowania indukcyjnego i daje matematyczną podstawę do uczenia się i percepcji wzorców. Jest źródłem wiedzy o świecie.

Istnieją trzy źródła wiedzy: wnioskowanie , komunikacja i dedukcja. Komunikacja przekazuje informacje znalezione innymi metodami. Dedukcja ustala nowe fakty na podstawie faktów istniejących. Wnioskowanie ustala nowe fakty na podstawie danych. Jego podstawą jest twierdzenie Bayesa .

Informacje opisujące świat napisane są w języku. Na przykład można wybrać prosty matematyczny język zdań. Zdania mogą być zapisywane w tym języku jako ciągi znaków. Ale w komputerze można zakodować te zdania jako ciągi bitów (1s i 0s). Następnie język może być zakodowany tak, aby najczęściej używane zdania były jak najkrótsze. Ten język wewnętrzny domyślnie reprezentuje prawdopodobieństwa wypowiedzi.

Brzytwa Ockhama mówi, że „najprostsza teoria, zgodna z danymi, najprawdopodobniej będzie poprawna”. „Najprostsza teoria” jest interpretowana jako reprezentacja teorii napisanej w tym wewnętrznym języku. Teoria z najkrótszym kodowaniem w tym języku wewnętrznym najprawdopodobniej będzie poprawna.

Historia

Prawdopodobieństwo i statystyka koncentrowały się na rozkładach prawdopodobieństwa i testach istotności. Prawdopodobieństwo było formalne, dobrze zdefiniowane, ale ograniczone w zakresie. W szczególności jego zastosowanie ograniczało się do sytuacji, które można by określić jako eksperyment lub próbę, z dobrze zdefiniowaną populacją.

Twierdzenie Bayesa nosi imię ks. Thomasa Bayesa 1701-1761. Wnioskowanie bayesowskie rozszerzyło zastosowanie prawdopodobieństwa do wielu sytuacji, w których populacja nie była dobrze zdefiniowana. Ale twierdzenie Bayesa zawsze zależało od wcześniejszych prawdopodobieństw, aby wygenerować nowe prawdopodobieństwa. Nie było jasne, skąd powinny pochodzić te wcześniejsze prawdopodobieństwa.

Ray Solomonoff opracował algorytmiczne prawdopodobieństwo, które wyjaśniło, czym jest losowość i jak wzorce w danych mogą być reprezentowane przez programy komputerowe, które dają krótsze reprezentacje danych około 1964 roku.

Chris Wallace i DM Boulton opracowali minimalną długość wiadomości około 1968 roku. Później Jorma Rissanen opracowali minimalną długość opisu około 1978 roku. Metody te umożliwiają powiązanie teorii informacji z prawdopodobieństwem w sposób, który można porównać do zastosowania twierdzenia Bayesa, ale które dają źródło i wyjaśnienie roli wcześniejszych prawdopodobieństw.

Marcus Hutter połączył teorię decyzji z pracą Raya Solomonoffa i Andreya Kołmogorowa, aby dać teorię optymalnego zachowania Pareto dla inteligentnego agenta , około 1998 roku.

Minimalna długość opisu/wiadomości

Program o najkrótszej długości, który pasuje do danych, z największym prawdopodobieństwem przewiduje przyszłe dane. To jest teza stojąca za metodami minimalnej długości wiadomości i minimalnej długości opisu .

Na pierwszy rzut oka twierdzenie Bayesa różni się od zasady minimalnej długości wiadomości/opisu. Przy bliższym przyjrzeniu się okazuje się, że jest tak samo. Twierdzenie Bayesa dotyczy prawdopodobieństw warunkowych i określa prawdopodobieństwo wystąpienia zdarzenia B , jeśli najpierw wydarzy się zdarzenie A :

staje się pod względem długości wiadomości L ,

Oznacza to, że jeśli podane są wszystkie informacje opisujące zdarzenie, to długość informacji może być wykorzystana do podania surowego prawdopodobieństwa zdarzenia. Więc jeśli informacje opisujące występowanie A jest podana wraz z informacją opisującą B podano , następnie wszystkie informacje opisujące A i B została podana.

Dopasowanie

Overfitting występuje, gdy model pasuje do losowego szumu, a nie do wzorca w danych. Weźmy na przykład sytuację, w której krzywa jest dopasowana do zbioru punktów. Jeśli dopasowany jest wielomian z wieloma wyrazami, może on dokładniej reprezentować dane. Wtedy dopasowanie będzie lepsze, a informacje potrzebne do opisania odchyleń od dopasowanej krzywej będą mniejsze. Mniejsza długość informacji oznacza większe prawdopodobieństwo.

Należy jednak wziąć pod uwagę informacje potrzebne do opisania krzywej. Całkowita informacja dla krzywej z wieloma składnikami może być większa niż dla krzywej z mniejszą liczbą składników, która nie jest tak dobrze dopasowana, ale potrzebuje mniej informacji do opisania wielomianu.

Wnioskowanie na podstawie złożoności programu

Teoria wnioskowania indukcyjnego Solomonoffa jest również wnioskowaniem indukcyjnym. Obserwuje się ciąg bitów x . Następnie rozważ wszystkie programy, które generują ciągi zaczynające się od x . Oddane w formie wnioskowania indukcyjnego, programy są teoriami, które implikują obserwację ciągu bitów x .

Zastosowana tutaj metoda wyznaczania prawdopodobieństw wnioskowania indukcyjnego opiera się na teorii wnioskowania indukcyjnego Solomonoffa .

Wykrywanie wzorców w danych

Jeśli wszystkie bity to 1, to ludzie wnioskują, że moneta ma stronniczość i że jest bardziej prawdopodobne, że następny bit również ma wartość 1. Jest to określane jako uczenie się lub wykrywanie wzorca w danych.

Taki wzór może być reprezentowany przez program komputerowy . Można napisać krótki program komputerowy, który tworzy ciąg bitów, z których wszystkie są równe 1. Jeśli długość programu K wynosi bity, to jego prawdopodobieństwo a priori wynosi:

Długość najkrótszego programu reprezentującego ciąg bitów nazywana jest złożonością Kołmogorowa .

Złożoność Kołmogorowa nie jest obliczalna. Wiąże się to z problemem zatrzymania . Podczas wyszukiwania najkrótszego programu niektóre programy mogą wejść w nieskończoną pętlę.

Biorąc pod uwagę wszystkie teorie

Grecki filozof Epikur powiedział: „Jeśli więcej niż jedna teoria jest zgodna z obserwacjami, zachowaj wszystkie teorie”.

Jak w powieści kryminalnej, wszystkie teorie muszą być brane pod uwagę przy określaniu prawdopodobnego mordercy, tak z prawdopodobieństwem indukcyjnym wszystkie programy muszą być brane pod uwagę przy określaniu prawdopodobnych przyszłych bitów wynikających ze strumienia bitów.

Programy, które są już dłuższe niż n , nie mają mocy predykcyjnej. Surowe (lub wcześniejsze) prawdopodobieństwo, że wzorzec bitów jest losowy (nie ma wzorca) wynosi .

Każdy program, który tworzy sekwencję bitów, ale jest krótszy niż n, jest teorią/wzorem dotyczącym bitów z prawdopodobieństwem, gdzie k jest długością programu.

Prawdopodobieństwo otrzymania ciągu bitów y po odebraniu ciągu bitów x jest więc prawdopodobieństwem warunkowym otrzymania y przy danym x , które jest prawdopodobieństwem x z dołączonym y podzielonym przez prawdopodobieństwo x .

Uniwersalne przeorysze

Język programowania wpływa na przewidywania następnego bitu w ciągu. Język działa jako prawdopodobieństwo a priori . Jest to szczególnie problem, gdy kody języka programowania dla liczb i innych typów danych. Intuicyjnie myślimy, że 0 i 1 to proste liczby, a liczby pierwsze są w jakiś sposób bardziej złożone niż liczby, które mogą być złożone.

Użycie złożoności Kołmogorowa daje bezstronne oszacowanie (uniwersalny a priori) prawdopodobieństwa a priori liczby. W ramach eksperymentu myślowego inteligentny agent może być wyposażony w urządzenie do wprowadzania danych, podające szereg liczb, po zastosowaniu pewnej funkcji transformacji do nieprzetworzonych liczb. Inny agent może mieć to samo urządzenie wejściowe z inną funkcją transformacji. Agenci nie widzą ani nie wiedzą o tych funkcjach transformacji. Wtedy nie ma żadnej racjonalnej podstawy do przedkładania jednej funkcji nad drugą. Uniwersalna a priori zapewnia, że ​​chociaż dwa agenty mogą mieć różne początkowe rozkłady prawdopodobieństwa dla danych wejściowych, różnica będzie ograniczona przez stałą.

Zatem uniwersalne a priori nie eliminują początkowego nastawienia, ale je redukują i ograniczają. Ilekroć opisujemy wydarzenie w języku, używając języka naturalnego lub innego, język zakodował w nim nasze wcześniejsze oczekiwania. Więc pewne poleganie na wcześniejszych prawdopodobieństwach jest nieuniknione.

Problem pojawia się, gdy wcześniejsze oczekiwania inteligentnego agenta wchodzą w interakcję z otoczeniem, tworząc samowzmacniającą się pętlę sprzężenia zwrotnego. To jest problem uprzedzeń lub uprzedzeń. Uniwersalne apriory zmniejszają, ale nie eliminują tego problemu.

Uniwersalna sztuczna inteligencja

Teoria uniwersalnej sztucznej inteligencji stosuje teorię decyzji do prawdopodobieństw indukcyjnych. Teoria pokazuje, jak wybrać najlepsze działania, aby zoptymalizować funkcję nagrody. Rezultatem jest teoretyczny model inteligencji.

Jest to fundamentalna teoria inteligencji, która optymalizuje zachowanie agentów w

  • Poznawanie środowiska; wykonywanie działań w celu uzyskania odpowiedzi poszerzających wiedzę agentów.
  • Konkurowanie lub współpraca z innym agentem; Gry.
  • Równoważenie krótko- i długoterminowych nagród.

Ogólnie rzecz biorąc, żaden agent nie zawsze zapewni najlepsze działania we wszystkich sytuacjach. Konkretny wybór dokonany przez agenta może być błędny, a środowisko może nie zapewniać agentowi możliwości odzyskania sprawności po początkowym złym wyborze. Jednak agent jest optymalny w sensie Pareto w tym sensie, że żaden inny agent nie poradzi sobie lepiej niż ten agent w tym środowisku, nie postępując gorzej w innym środowisku. W tym sensie nie można powiedzieć, że żaden inny agent jest lepszy.

Obecnie teorię ogranicza nieobliczalność ( problem zatrzymania ). Aby tego uniknąć, można użyć przybliżeń. Szybkość przetwarzania i eksplozja kombinatoryczna pozostają głównymi czynnikami ograniczającymi sztuczną inteligencję .

Prawdopodobieństwo

Prawdopodobieństwo to reprezentacja niepewnej lub częściowej wiedzy o prawdziwości twierdzeń. Prawdopodobieństwo to subiektywne i osobiste szacunki prawdopodobnych wyników oparte na przeszłych doświadczeniach i wnioskach wyciągniętych z danych.

Ten opis prawdopodobieństwa może początkowo wydawać się dziwny. W języku naturalnym mówimy o „prawdopodobieństwie”, że jutro słońce wzejdzie. Nie odnosimy się do „twojego prawdopodobieństwa”, że słońce wzejdzie. Aby jednak wnioskowanie było prawidłowo modelowane, prawdopodobieństwo musi być osobiste, a akt wnioskowania generuje nowe prawdopodobieństwa a posteriori na podstawie prawdopodobieństw wcześniejszych.

Prawdopodobieństwa są osobiste, ponieważ zależą od wiedzy jednostki. Prawdopodobieństwa są subiektywne, ponieważ zawsze zależą w pewnym stopniu od wcześniejszych prawdopodobieństw przypisanych przez jednostkę. Subiektywny nie powinien być tutaj rozumiany jako niejasny lub nieokreślony.

Termin inteligentny agent jest używany w odniesieniu do posiadacza prawdopodobieństw. Inteligentnym agentem może być człowiek lub maszyna. Jeśli inteligentny agent nie wchodzi w interakcję ze środowiskiem, prawdopodobieństwo zbiegnie się w czasie do częstotliwości zdarzenia.

Jeśli jednak agent korzysta z prawdopodobieństwa interakcji ze środowiskiem, może wystąpić sprzężenie zwrotne, tak że dwaj agenci w identycznym środowisku, zaczynając od tylko nieznacznie różniących się a priori, kończą z zupełnie różnymi prawdopodobieństwami. W tym przypadku optymalna teoria decyzji, jak w Universal Artificial Intelligence Marcusa Huttera, zapewni Pareto optymalną wydajność dla agenta. Oznacza to, że żaden inny inteligentny agent nie poradziłby sobie lepiej w jednym środowisku bez pogorszenia się w innym.

Porównanie z prawdopodobieństwem dedukcyjnym

W dedukcyjnych teoriach prawdopodobieństwa prawdopodobieństwa są wartościami absolutnymi, niezależnymi od osoby dokonującej oceny. Ale prawdopodobieństwa dedukcyjne opierają się na

  • Wspólna wiedza.
  • Zakładane fakty, które należy wywnioskować z danych.

Na przykład w próbie uczestnicy są świadomi wyniku całej poprzedniej historii prób. Zakładają również, że każdy wynik jest jednakowo prawdopodobny. Razem pozwala to na zdefiniowanie jednej bezwarunkowej wartości prawdopodobieństwa.

Ale w rzeczywistości każda osoba nie ma tych samych informacji. Ogólnie rzecz biorąc, prawdopodobieństwo każdego wyniku nie jest równe. Kości mogą być ładowane, a ładowanie należy wywnioskować z danych.

Prawdopodobieństwo jako oszacowanie

Zasada obojętności odegrała kluczową rolę w teorii prawdopodobieństwa. Mówi, że jeśli N stwierdzeń jest symetryczne, tak że jeden warunek nie może być preferowany nad innym, to wszystkie zdania są jednakowo prawdopodobne.

Traktowana poważnie, przy ocenie prawdopodobieństwa zasada ta prowadzi do sprzeczności. Załóżmy, że w oddali znajdują się 3 worki złota i jeden jest proszony o wybranie jednego. Wtedy ze względu na odległość nie widać rozmiarów torebek. Szacujesz, stosując zasadę obojętności, że każda torba zawiera równe ilości złota, a każda torba ma jedną trzecią złota.

Teraz, gdy jedno z nas nie patrzy, drugie bierze jedną z torebek i dzieli ją na 3 torebki. Teraz jest 5 worków złota. Zasada obojętności mówi teraz, że każda torba ma jedną piątą złota. Szacuje się, że worek, który miał jedną trzecią złota, ma teraz jedną piątą złota.

Przyjmowane jako wartość związana z torbą wartości są różne, a więc sprzeczne. Ale traktowane jako oszacowanie podane w konkretnym scenariuszu, obie wartości są oddzielnymi szacunkami podanymi w różnych okolicznościach i nie ma powodu, aby sądzić, że są równe.

Szczególnie podejrzane są szacunki wcześniejszych prawdopodobieństw. Zostaną skonstruowane szacunki, które nie będą zgodne z żadnym spójnym rozkładem częstotliwości. Z tego powodu wcześniejsze prawdopodobieństwa są uważane za szacunki prawdopodobieństw, a nie prawdopodobieństwa.

Pełne teoretyczne traktowanie wiązałoby się z każdym prawdopodobieństwem,

  • Wyrok
  • Wcześniejsza wiedza
  • Wcześniejsze prawdopodobieństwa
  • Procedura estymacji użyta do podania prawdopodobieństwa.

Łączenie podejść prawdopodobieństwa

Prawdopodobieństwo indukcyjne łączy dwa różne podejścia do prawdopodobieństwa.

  • Prawdopodobieństwo i informacje
  • Prawdopodobieństwo i częstotliwość

Każde podejście daje nieco inny punkt widzenia. Teoria informacji służy do powiązania prawdopodobieństw z ilościami informacji. Takie podejście jest często stosowane przy oszacowaniu wcześniejszych prawdopodobieństw.

Prawdopodobieństwo częstych zdarzeń definiuje prawdopodobieństwa jako obiektywne stwierdzenia dotyczące częstotliwości występowania zdarzenia. Podejście to można naciągnąć, definiując próby, które dotyczą światów możliwych . Stwierdzenia o możliwych światach definiują zdarzenia .

Prawdopodobieństwo i informacje

Zważywszy, że logika reprezentuje tylko dwie wartości; prawda i fałsz jako wartości twierdzenia, prawdopodobieństwo przypisuje każdemu twierdzeniu liczbę w [0,1]. Jeśli prawdopodobieństwo stwierdzenia wynosi 0, to twierdzenie jest fałszywe. Jeśli prawdopodobieństwo stwierdzenia wynosi 1, to twierdzenie jest prawdziwe.

Rozważając niektóre dane jako ciąg bitów, wcześniejsze prawdopodobieństwa dla sekwencji jedynek i zer, prawdopodobieństwo 1 i 0 jest równe. Dlatego każdy dodatkowy bit zmniejsza o połowę prawdopodobieństwo sekwencji bitów. Prowadzi to do wniosku, że

Gdzie jest prawdopodobieństwo ciągu bitów i jego długość.

Prawdopodobieństwo a priori dowolnego stwierdzenia jest obliczane na podstawie liczby bitów potrzebnych do jej sformułowania. Zobacz także teoria informacji .

Łączenie informacji

Dwie instrukcje i mogą być reprezentowane przez dwa oddzielne kodowania. Wtedy długość kodowania wynosi,

lub pod względem prawdopodobieństwa,

Ale to prawo nie zawsze jest prawdziwe, ponieważ może istnieć krótsza metoda kodowania, jeśli założymy . Zatem powyższe prawo prawdopodobieństwa ma zastosowanie tylko wtedy, gdy i są „niezależne”.

Wewnętrzny język informacji

Podstawowym zastosowaniem podejścia informacyjnego do prawdopodobieństwa jest dostarczenie szacunków złożoności stwierdzeń. Przypomnijmy, że brzytwa Ockhama stwierdza, że ​​„wszystko jest równe, najprostsza teoria najprawdopodobniej będzie poprawna”. Aby zastosować tę zasadę, najpierw musi istnieć definicja tego, co oznacza „najprostszy”. Teoria informacji definiuje najprostszy sposób, aby oznaczać najkrótsze kodowanie.

Wiedza jest reprezentowana jako wypowiedzi . Każda instrukcja jest wyrażeniem logicznym . Wyrażenia są kodowane przez funkcję, która pobiera opis (w stosunku do wartości) wyrażenia i koduje go jako ciąg bitów.

Długość kodowania oświadczenia daje oszacowanie prawdopodobieństwa wystąpienia. To oszacowanie prawdopodobieństwa będzie często używane jako prawdopodobieństwo a priori stwierdzenia.

Z technicznego punktu widzenia to oszacowanie nie jest prawdopodobieństwem, ponieważ nie jest skonstruowane na podstawie rozkładu częstotliwości. Podane przez nią oszacowania prawdopodobieństwa nie zawsze są zgodne z prawem sumy prawdopodobieństwa . Zastosowanie prawa całkowitego prawdopodobieństwa do różnych scenariuszy zwykle daje dokładniejsze oszacowanie prawdopodobieństwa wcześniejszego prawdopodobieństwa niż oszacowanie na podstawie długości stwierdzenia.

Kodowanie wyrażeń

Wyrażenie składa się z podwyrażeń,

  • Stałe (w tym identyfikator funkcji).
  • Zastosowanie funkcji.
  • kwantyfikatory .

Kod Huffman należy wyróżnić 3 przypadki. Długość każdego kodu jest oparta na częstotliwości każdego typu podwyrażeń.

Początkowo wszystkim stałym przypisywana jest ta sama długość/prawdopodobieństwo. Późniejszym stałym można przypisać prawdopodobieństwo za pomocą kodu Huffmana na podstawie liczby użyć id funkcji we wszystkich dotychczas zarejestrowanych wyrażeniach. Przy użyciu kodu Huffmana celem jest oszacowanie prawdopodobieństw, a nie kompresowanie danych.

Długość aplikacji funkcji to długość stałej identyfikatora funkcji plus suma rozmiarów wyrażeń dla każdego parametru.

Długość kwantyfikatora to długość wyrażenia, które jest kwantyfikowane.

Rozkład liczb

Nie podano wyraźnej reprezentacji liczb naturalnych. Jednak liczby naturalne można konstruować, stosując funkcję następnika do 0, a następnie stosując inne funkcje arytmetyczne. Implikuje to rozkład liczb naturalnych, oparty na złożoności konstrukcji każdej liczby.

Liczby wymierne są konstruowane przez dzielenie liczb naturalnych. Najprostsza reprezentacja nie ma wspólnych czynników między licznikiem a mianownikiem. Dzięki temu rozkład prawdopodobieństwa liczb naturalnych można rozszerzyć na liczby wymierne.

Prawdopodobieństwo i częstotliwość

Prawdopodobieństwo zdarzenia można interpretować jako częstość wyników, w których stwierdzenie jest prawdziwe, podzielone przez całkowitą liczbę wyników. Jeśli wyniki tworzą kontinuum, częstość może wymagać zastąpienia miarą .

Zdarzenia to zbiory wyników. Oświadczenia mogą być związane ze zdarzeniami. Zdanie logiczne B o wynikach definiuje zbiór wyników b,

Warunkowe prawdopodobieństwo

Każde prawdopodobieństwo jest zawsze powiązane ze stanem wiedzy w określonym punkcie argumentacji. Prawdopodobieństwa przed wnioskowaniem są znane jako prawdopodobieństwa a priori, a prawdopodobieństwa po są znane jako prawdopodobieństwa a posteriori.

Prawdopodobieństwo zależy od znanych faktów. Prawda o fakcie ogranicza domenę skutków do wyników zgodnych z faktem. Prawdopodobieństwa a priori to prawdopodobieństwa przed poznaniem faktu. Prawdopodobieństwa a posteriori są po fakcie znanym. Mówi się, że prawdopodobieństwa a posteriori są uzależnione od tego faktu. prawdopodobieństwo, że jest prawdziwe, biorąc pod uwagę, że jest prawdziwe, jest zapisane jako:

Wszystkie prawdopodobieństwa są w pewnym sensie warunkowe. Prawdopodobieństwo a priori wynosi:

Częstoistowskie podejście stosowane do możliwych światów

W podejściu częstościowym prawdopodobieństwa definiuje się jako stosunek liczby wyników w zdarzeniu do całkowitej liczby wyników. W modelu świata możliwego każdy możliwy świat jest wynikiem, a stwierdzenia o możliwych światach definiują zdarzenia. Prawdopodobieństwo, że zdanie jest prawdziwe, to liczba możliwych światów, w których zdanie jest prawdziwe, podzielona przez całkowitą liczbę możliwych światów. Prawdopodobieństwo prawdziwości twierdzenia o światach możliwych wynosi wtedy,

Dla prawdopodobieństwa warunkowego.

następnie

Używając symetrii równanie to można zapisać jako prawo Bayesa.

Prawo to opisuje związek między prawdopodobieństwem uprzednim i późniejszym, gdy poznane zostaną nowe fakty.

Zapisane jako ilości informacji Twierdzenie Bayesa staje się,

Mówi się, że dwa zdania A i B są niezależne, jeśli znajomość prawdziwości A nie zmienia prawdopodobieństwa B. Matematycznie jest to,

następnie twierdzenie Bayesa redukuje się do,

Prawo sumy prawdopodobieństwa

Dla zbioru wzajemnie wykluczających się możliwości suma prawdopodobieństw a posteriori musi wynosić 1.

Podstawienie za pomocą twierdzenia Bayesa daje prawo całkowitego prawdopodobieństwa

Wynik ten służy do uzyskania rozszerzonej postaci twierdzenia Bayesa ,

Jest to typowa forma twierdzenia Bayesa stosowana w praktyce, ponieważ gwarantuje, że suma wszystkich prawdopodobieństw a posteriori dla wynosi 1.

Alternatywne możliwości

W przypadku wzajemnie wykluczających się możliwości dodają się prawdopodobieństwa.

Za pomocą

Wtedy alternatywy

wykluczają się wzajemnie. Również,

więc składając to wszystko razem,

Negacja

Tak jak,

następnie

Implikacja i prawdopodobieństwo warunku

Implikacja związana jest z prawdopodobieństwem warunkowym następującym równaniem:

Pochodzenie,

Testowanie hipotezy bayesowskiej

Twierdzenie Bayesa może być użyte do oszacowania prawdopodobieństwa hipotezy lub teorii H, biorąc pod uwagę pewne fakty F. Prawdopodobieństwo a posteriori H wynosi wtedy

lub pod względem informacyjnym,

Zakładając, że hipoteza jest prawdziwa, można podać prostszą reprezentację zdania F. Długość kodowania tej prostszej reprezentacji wynosi

reprezentuje ilość informacji potrzebnych do przedstawienia faktów F, jeśli H jest prawdziwe. to ilość informacji potrzebnych do przedstawienia F bez hipotezy H. Różnica polega na tym, jak bardzo przedstawienie faktów zostało skompresowane przy założeniu, że H jest prawdziwe. To jest dowód na to, że hipoteza H jest prawdziwa.

Jeśli jest oszacowane na podstawie długości kodowania, uzyskane prawdopodobieństwo nie będzie mieścić się w zakresie od 0 do 1. Otrzymana wartość jest proporcjonalna do prawdopodobieństwa, nie będąc dobrym oszacowaniem prawdopodobieństwa. Uzyskana liczba jest czasami nazywana prawdopodobieństwem względnym, określającym, o ile bardziej prawdopodobna jest teoria niż jej brak.

Jeżeli znany jest pełny zestaw wzajemnie wykluczających się hipotez, które dostarczają dowodów, można podać właściwe oszacowanie dla prawdopodobieństwa a priori .

Zestaw hipotez

Prawdopodobieństwa można obliczyć z rozszerzonej postaci twierdzenia Bayesa. Biorąc pod uwagę wszystkie wzajemnie wykluczające się hipotezy, które dostarczają dowodów, takich, że:

a także hipoteza R, że żadna z hipotez nie jest zatem prawdziwa,

W zakresie informacji,

W większości sytuacji dobrym przybliżeniem jest założenie, że jest niezależny od , co oznacza dawanie,

Wnioskowanie indukcyjne Boole'a

Wnioskowanie abdukcyjne zaczyna się od zbioru faktów F, który jest stwierdzeniem (wyrażeniem boolowskim). Rozumowanie abdukcyjne ma formę,

Teoria T implikuje zdanie F. Ponieważ teoria T jest prostsza niż F, uprowadzenie mówi, że istnieje prawdopodobieństwo, że teoria T jest implikowana przez F .

Teoria T , zwana także wyjaśnieniem warunku F , jest odpowiedzią na wszechobecne faktyczne pytanie „dlaczego”. Na przykład dla warunku F jest „Dlaczego jabłka spadają?”. Odpowiedzią jest teoria T, która sugeruje, że jabłka spadają;

Wnioskowanie indukcyjne ma postać,

Wszystkie obserwowane obiekty w klasie C mają właściwość P. Dlatego istnieje prawdopodobieństwo, że wszystkie obiekty w klasie C mają właściwość P .

Jeśli chodzi o wnioskowanie abdukcyjne, wszystkie obiekty w klasie C lub zbiorze mają właściwość P to teoria, która implikuje obserwowany warunek. Wszystkie obserwowane obiekty w klasie C mają właściwość P .

Zatem wnioskowanie indukcyjne jest szczególnym przypadkiem wnioskowania abdukcyjnego. W powszechnym użyciu termin wnioskowanie indukcyjne jest często używany w odniesieniu zarówno do wnioskowania abdukcyjnego, jak i indukcyjnego.

Generalizacja i specjalizacja

Wnioskowanie indukcyjne jest związane z uogólnianiem . Uogólnienia można tworzyć na podstawie stwierdzeń, zastępując konkretną wartość członkostwem w kategorii lub zastępując członkostwo kategorii członkostwem w szerszej kategorii. W logice dedukcyjnej uogólnienie jest potężną metodą generowania nowych teorii, które mogą być prawdziwe. W wnioskowaniu indukcyjnym uogólnienie generuje teorie, które mają prawdopodobieństwo bycia prawdziwymi.

Przeciwieństwem uogólnienia jest specjalizacja. Specjalizacja służy do zastosowania ogólnej zasady do konkretnego przypadku. Specjalizacje są tworzone z uogólnień poprzez zastąpienie członkostwa w kategorii określoną wartością lub zastąpienie kategorii podkategorią.

Linnaen klasyfikacja istot żywych i obiektów stanowi podstawę do uogólnienia i specyfikacji. Umiejętność identyfikacji, rozpoznawania i klasyfikowania jest podstawą do generalizacji. Postrzeganie świata jako zbioru przedmiotów wydaje się być kluczowym aspektem ludzkiej inteligencji. Jest to model obiektowy, w braku informatyki sensu.

Model obiektowy konstruowany jest na podstawie naszej percepcji . W szczególności widzenie opiera się na umiejętności porównywania dwóch obrazów i obliczania, ile informacji jest potrzebnych do przekształcenia lub odwzorowania jednego obrazu w drugi. Widzenie komputerowe wykorzystuje to mapowanie do konstruowania obrazów 3D z par obrazów stereo .

Programowanie logiki indukcyjnej jest sposobem konstruowania teorii, która implikuje warunek. Podejście Plotkinawzględnie najmniej uogólnione uogólnienie (rlgg) ” konstruuje najprostsze uogólnienie zgodne z warunkiem.

Zastosowanie indukcji Newtona

Isaac Newton użył argumentów indukcyjnych przy konstruowaniu swojego prawa powszechnego ciążenia . Począwszy od oświadczenia,

  • Środek jabłka opada w kierunku środka ziemi.

Uogólniając, zastępując jabłko na przedmiot, a ziemia na przedmiot, w systemie dwuciałowym

  • Środek obiektu opada w kierunku środka innego obiektu.

Teoria wyjaśnia wszystkie spadające przedmioty, więc istnieją na to mocne dowody. Druga obserwacja,

  • Planety wydają się podążać eliptyczną ścieżką.

Po pewnym skomplikowanym rachunku matematycznym można zauważyć, że jeśli przyspieszenie jest zgodne z zasadą odwrotności kwadratu, obiekty będą podążać za elipsą. Zatem indukcja dostarcza dowodów na istnienie prawa odwrotności kwadratu.

Korzystając z obserwacji Galileusza, że wszystkie obiekty spadają z tą samą prędkością,

gdzie i wektory w kierunku środka drugiego obiektu. Następnie korzystając z trzeciego prawa Newtona

Prawdopodobieństwo wnioskowania indukcyjnego

Implikacja określa prawdopodobieństwo warunku jako,

Więc,

Wynik ten może być wykorzystany w prawdopodobieństwach podanych do testowania hipotezy bayesowskiej. Dla jednej teorii, H = T i,

lub pod względem informacji, względne prawdopodobieństwo jest,

Zauważ, że to oszacowanie dla P(T|F) nie jest prawdziwym prawdopodobieństwem. Jeśli więc teoria ma na to dowody. Następnie dla zbioru teorii , takich , że ,

dający,

Pochodne

Wyprowadzenie prawdopodobieństwa indukcyjnego

Sporządź listę wszystkich najkrótszych programów, z których każdy tworzy odrębny nieskończony ciąg bitów i spełnia relację,

gdzie jest wynikiem uruchomienia programu i obcina ciąg po n bitach.

Problem polega na obliczeniu prawdopodobieństwa, że ​​źródło jest wytwarzane przez program, biorąc pod uwagę, że obcięte źródło po n bitach to x . Jest to reprezentowane przez prawdopodobieństwo warunkowe,

Korzystanie z rozszerzonej postaci twierdzenia Bayesa

Forma rozszerzona opiera się na prawie całkowitego prawdopodobieństwa . Oznacza to, że muszą być różne możliwości, co wynika z warunku, że każda z nich tworzy inny nieskończony ciąg. Również jeden z warunków musi być spełniony. To musi być prawda, ponieważ w limicie zawsze istnieje co najmniej jeden program, który produkuje .

Jak są wybierane tak, aby następnie

Prawdopodobieństwo apriori, że napis zostanie wytworzony z programu, przy braku informacji o napisie, opiera się na rozmiarze programu,

dający,

Programy, które są takie same lub dłuższe niż długość x, nie zapewniają żadnej mocy predykcyjnej. Oddziel ich, dając,

Następnie zidentyfikuj dwa prawdopodobieństwa jako:

Ale prawdopodobieństwo a priori, że x jest losowym zbiorem bitów, wynosi . Więc,

Prawdopodobieństwo, że źródło jest losowe lub nieprzewidywalne, wynosi

Model wnioskowania indukcyjnego

Model budowy światów służy do określania prawdopodobieństw teorii,

  • Wybrany jest losowy ciąg bitów.
  • Warunek jest konstruowany z ciągu bitów.
  • Świat jest konstruowany zgodnie z warunkami.

Jeśli w jest ciągiem bitów, to świat jest tworzony w taki sposób, że jest prawdziwy. Inteligentny czynnik ma pewne fakty o słowie, reprezentowaną przez nieco smyczkowy C , co daje warunek,

Zbiór ciągów bitów identyczny z dowolnym warunkiem x to .

Teoria to prostszy warunek, który wyjaśnia (lub implikuje) C . Zbiór wszystkich takich teorii nazywa się T ,

Zastosowanie twierdzenia Bayesa

można zastosować rozszerzoną formę twierdzenia Bayesa

gdzie,

Aby zastosować twierdzenie Bayesa, musi być spełnione: jest partycją przestrzeni zdarzeń.

Aby być partycją, żaden łańcuch bitów n nie może należeć do dwóch teorii. Aby to udowodnić, załóżmy, że mogą i wyprowadzają sprzeczność,

Po drugie udowodnij, że T obejmuje wszystkie wyniki zgodne z warunkiem. Ponieważ wszystkie teorie zgodne z C są uwzględnione, muszą być w tym zestawie.

Tak więc twierdzenie Bayesa można zastosować jako określone dające,

Wykorzystując prawo prawdopodobieństwa implikacji i warunków , definicja implikacji,

Prawdopodobieństwo każdej teorii w T jest podane przez,

więc,

Wreszcie prawdopodobieństwa zdarzeń można utożsamiać z prawdopodobieństwami warunku, który spełniają wyniki zdarzenia,

dający

Jest to prawdopodobieństwo teorii t po stwierdzeniu, że warunek C jest spełniony .

Usuwanie teorii bez mocy predykcyjnej

Teorie mniej prawdopodobne niż warunek C nie mają mocy predykcyjnej. Oddziel ich, dając,

Prawdopodobieństwo teorii bez mocy predykcyjnej na C jest takie samo jak prawdopodobieństwo C . Więc,

Więc prawdopodobieństwo

oraz prawdopodobieństwo braku przewidywania dla C, zapisane jako ,

Prawdopodobieństwo wystąpienia warunku podano jako:

Ciągi bitów dla teorii, które są bardziej złożone niż ciąg bitów przekazany agentowi jako dane wejściowe, nie mają mocy predykcyjnej. Tam prawdopodobieństwa są lepiej uwzględnione w przypadku losowym . Aby to zaimplementować, nowa definicja jest podana jako F w,

Używając F , ulepszoną wersją prawdopodobieństw uprowadzenia jest:

Kluczowi ludzie

Zobacz też

Bibliografia

Linki zewnętrzne