Dywergencja Kullbacka – Leiblera - Kullback–Leibler divergence

W statystyce matematycznej The względne entropia (zwany również dywergencja kullbacka-leiblera ) jest miarą tego, jak jeden rozkład prawdopodobieństwa jest inny od drugiego, rozkładu prawdopodobieństwa odniesienia. Zastosowania obejmują charakteryzowanie względnej (Shannona) entropii w systemach informacyjnych, losowość w ciągłych szeregach czasowych oraz uzyskiwanie informacji podczas porównywania statystycznych modeli wnioskowania . W przeciwieństwie do zmienności informacji , jest to miara asymetryczna pod względem dystrybucji, a zatem nie kwalifikuje się jako statystyczna miara rozrzutu - nie spełnia też nierówności trójkąta . W prostym przypadku względna entropia równa 0 wskazuje, że dwa rozpatrywane rozkłady są identyczne. W uproszczeniu jest to miara zaskoczenia, mająca różnorodne zastosowania, takie jak statystyka stosowana, mechanika płynów , neuronauka i uczenie maszynowe .

Wprowadzenie i kontekst

Rozważ dwa rozkłady prawdopodobieństwa i . Zwykle przedstawia dokładnie zmierzone dane, obserwacje lub rozkład prawdopodobieństwa. Dystrybucja reprezentuje zamiast tego teorię, model, opis lub przybliżenie . Rozbieżność Kullbacka – Leiblera jest następnie interpretowana jako średnia różnica liczby bitów wymaganych do zakodowania próbek przy użyciu kodu zoptymalizowanego, a nie zoptymalizowanego .

Etymologia

Względna entropia została wprowadzona przez Solomona Kullbacka i Richarda Leiblera w 1951 roku jako ukierunkowana dywergencja między dwoma dystrybucjami; Kullback wolał termin informacja o dyskryminacji . Dywergencja została omówiona w książce Kullbacka z 1959 r., Teoria informacji i statystyka .

Definicja

Na dyskretnych rozkładów prawdopodobieństwa, i określa się na tej samej powierzchni prawdopodobieństwa , względne entropia z aby określa się jako

co jest równoważne

Innymi słowy, jest to oczekiwanie na logarytmiczną różnicę między prawdopodobieństwami i , gdzie oczekiwanie jest przyjmowane przy użyciu prawdopodobieństw . Względna entropia jest definiowana tylko wtedy, gdy dla wszystkich , implikuje ( absolutna ciągłość ). Zawsze, gdy jest równe zero, wkład odpowiedniego terminu jest interpretowany jako zero, ponieważ

Dla rozkładu i z ciągłą zmienną losową względem entropia jest zdefiniowana jako integralna:

w którym i oznaczają gęstości prawdopodobieństwa o i .

Bardziej ogólnie, jeśli i są miarami prawdopodobieństwa na zbiorze i jest absolutnie ciągła względem , to względna entropia od do jest definiowana jako

gdzie jest pochodną Radona – Nikodyma w odniesieniu do i pod warunkiem, że istnieje wyrażenie po prawej stronie. Równoważnie (według reguły łańcucha ) można to zapisać jako

który jest entropii w stosunku do . Kontynuując w tym przypadku, jeśli jest jakaś miara, dla której i istnieje (co oznacza, że i są absolutnie ciągłe względem ), to względna entropia od do jest podawana jako

Logarytmy w tych formułach przyjmowane są do podstawy 2, jeśli informacja jest mierzona w jednostkach bitów , lub do podstawy, jeśli informacje są mierzone w nats . Większość formuł zawierających względną entropię jest zachowana niezależnie od podstawy logarytmu.

Istnieją różne konwencje odnoszące się do słów. Często określa się to jako rozbieżność między i , ale to nie oddaje fundamentalnej asymetrii w relacji. Czasami, jak w tym artykule, można to opisać jako rozbieżność od lub jako rozbieżność od do . Odzwierciedla to asymetrię w Bayesa wnioskowania , który rozpoczyna się od przed i aktualizacjach do tej tylnej . Innym powszechnym sposobem odnoszenia się do tego jest względna entropia względem .

Podstawowy przykład

Kullback podaje następujący przykład (Tabela 2.1, Przykład 2.1). Niech i będą rozkładami przedstawionymi w tabeli i na rysunku. jest rozkładem po lewej stronie rysunku, rozkładem dwumianowym z i . jest rozkład w prawej części rysunku, dyskretny rozkład jednolity z trzech możliwych wyników , lub (tj ), a każdy z prawdopodobieństwem .

Dwa rozkłady ilustrujące względną entropię

x 0 1 2
Dystrybucja P (x)
Dystrybucja Q (x)

Względne entropie i są obliczane w następujący sposób. W tym przykładzie zastosowano logarytm naturalny o podstawie e , oznaczony w celu uzyskania wyników w nats (zobacz jednostki informacji ).

Interpretacje

Często wskazuje się względną entropię od do .

W kontekście uczenia maszynowego , jest często nazywany uzyskać informacje osiągnąć, jeśli jest stosowany zamiast . Przez analogię do teorii informacji, to nazywa się względną entropii w stosunku do . W kontekście teorii kodowania , można je skonstruować, mierząc oczekiwaną liczbę dodatkowych bitów wymaganych do kodowania próbek przy użyciu kodu zoptymalizowanego zamiast kodu zoptymalizowanego .

Wyrażony językiem wnioskowania bayesowskiego , jest miarą informacji uzyskanych poprzez rewizję własnych przekonań od poprzedniego rozkładu prawdopodobieństwa do późniejszego rozkładu prawdopodobieństwa . Innymi słowy, jest to ilość utraconych informacji, gdy są używane do przybliżenia . W zastosowaniach, zazwyczaj reprezentuje „prawdziwą” dystrybucję danych, obserwacji, lub precyzyjnie obliczone rozkładem teoretycznym, podczas gdy zazwyczaj reprezentuje teoria, model, opis lub zbliżania się . Aby znaleźć rozkład, który jest najbliższy , możemy zminimalizować dywergencję KL i obliczyć projekcję informacyjną .

Względna entropia jest szczególnym przypadkiem szerszej klasy rozbieżności statystycznych zwanych f -divergences jak również klasy rozbieżności Bregman . Jest to jedyna taka rozbieżność w zakresie prawdopodobieństw, która należy do obu klas. Chociaż często jest ona postrzegana jako sposób pomiaru odległości między rozkładami prawdopodobieństwa , dywergencja Kullbacka-Leiblera nie jest prawdziwą miarą . Nie przestrzega nierówności trójkątów i generalnie nie jest równa . Jednak jego nieskończenie mała postać, a konkretnie hesjańska , daje metryczny tensor znany jako metryka informacyjna Fishera .

Arthur Hobson udowodnił, że entropia względna jest jedyną miarą różnicy między rozkładami prawdopodobieństwa, która spełnia pewne pożądane właściwości, które są kanonicznym rozszerzeniem tych, które pojawiają się w powszechnie używanej charakterystyce entropii . W konsekwencji wzajemna informacja jest jedyną miarą wzajemnej zależności, która spełnia określone powiązane warunki, ponieważ można ją zdefiniować w kategoriach dywergencji Kullbacka-Leiblera .

Motywacja

Ilustracja względnej entropii dla dwóch rozkładów normalnych . Wyraźnie widoczna jest typowa asymetria.

W teorii informacyjnego, Kraft-McMillan twierdzenie zakłada, że każda bezpośrednio dekodowane kodowanie schemat kodowania wiadomości zidentyfikować jedną wartość z zestawem możliwości mogą być postrzegane jako reprezentujące niejawny rozkład prawdopodobieństwa nad , gdzie jest długością kodu do w bity. W związku z tym entropia względna może być interpretowana jako oczekiwana dodatkowa długość komunikatu na daną, która musi zostać przekazana, jeśli używany jest kod optymalny dla danej (niewłaściwej) dystrybucji , w porównaniu z użyciem kodu opartego na rzeczywistym rozkładzie .

gdzie jest przekrój entropia z a , a to entropia z (który jest taki sam jak poprzecznie entropii P z siebie).

Względną entropię można traktować jako coś w rodzaju pomiaru tego, jak daleko rozkład Q jest od rozkładu P.Antropia krzyżowa sama w sobie jest takim pomiarem, ale ma wadę, która nie jest zerem, więc odejmujemy, aby się zgodzić ściślej z naszym pojęciem odległości. (Niestety nadal nie jest symetryczna.) Względna entropia odnosi się do „ funkcji szybkości ” w teorii dużych odchyleń .

Nieruchomości

wynik znany jako nierówność Gibbsa , z zerem wtedy i tylko wtedy, gdy prawie wszędzie . W ten sposób entropia ustala minimalną wartość dla entropii krzyżowej , oczekiwaną liczbę bitów wymaganych przy użyciu kodu opartego raczej na niż ; a zatem dywergencja Kullbacka-Leiblera reprezentuje oczekiwaną liczbę dodatkowych bitów, które muszą być przesłane, aby zidentyfikować wartość pobraną , jeśli używany jest kod odpowiadający rozkładowi prawdopodobieństwa , a nie rozkładowi „prawdziwemu” .
  • Względna entropia pozostaje dobrze zdefiniowana dla ciągłych rozkładów, a ponadto jest niezmienna w przypadku przekształceń parametrów . Na przykład, jeśli transformacja jest dokonywana ze zmiennej na zmienną , to ponieważ i względna entropia może zostać przepisana:
gdzie i . Chociaż założono, że transformacja jest ciągła, nie musi tak być. To również pokazuje, że względna entropia wytwarza wielkość spójną wymiarowo , ponieważ if jest zwymiarowaną zmienną i są również zwymiarowane, ponieważ np . Są bezwymiarowe. Argument terminu logarytmicznego jest i pozostaje bezwymiarowy, jak musi. Dlatego można ją postrzegać jako pod pewnymi względami bardziej fundamentalną wielkość niż niektóre inne właściwości teorii informacji (takie jak samoinformacja lub entropia Shannona ), które mogą stać się nieokreślone lub ujemne dla prawdopodobieństw niedyskretnych.
  • Względna entropia jest addytywna dla niezależnych rozkładów w podobny sposób jak entropia Shannona. Jeśli są niezależne dystrybucje, ze wspólną dystrybucją i podobnie, to
  • Względna entropia jest wypukła w parze funkcji mas prawdopodobieństwa , tj. Jeśli i są dwiema parami funkcji mas prawdopodobieństwa, to

Przykłady

Wielowymiarowe rozkłady normalne

Załóżmy, że mamy dwa wielowymiarowe rozkłady normalne , ze średnimi i z (niejednostkowymi) macierzami kowariancji.Jeśli te dwa rozkłady mają ten sam wymiar , to względna entropia między rozkładami jest następująca:

Logarytm w ostatniej kadencji muszą być podjęte do bazy e skoro wszystkie warunki oprócz ostatni są Base- e logarytmy wyrażeń, które są albo czynniki funkcji gęstości lub inaczej powstają w sposób naturalny. Zatem równanie daje wynik mierzony w nats . Dzielenie całego powyższego wyrażenia przez daje dywergencję w bitach .

Szczególnym przypadkiem i częstą wielkością we wnioskowaniu o wariacji jest względna entropia między diagonalną wielowymiarową normalną a standardowym rozkładem normalnym (z zerową średnią i jednostkową wariancją):

Związek z metrykami

Można by pokusić się o nazwanie entropii względnej „ miarą odległości ” w przestrzeni rozkładów prawdopodobieństwa, ale nie byłoby to poprawne, ponieważ nie jest to symetryczne - to znaczy - ani nie spełnia nierówności trójkąta . Generuje topologię w przestrzeni rozkładów prawdopodobieństwa . Bardziej konkretnie, jeśli jest taka sekwencja dystrybucji

wtedy tak się mówi

Pociąga to za sobą nierówność Pinskera

gdzie to ostatnie oznacza zwykłą zbieżność w całkowitej zmienności .

Metryka informacyjna Fishera

Względna entropia jest bezpośrednio związana z metryką informacyjną Fishera . Można to wyjaśnić w następujący sposób. Załóżmy, że rozkłady prawdopodobieństwa i oba są sparametryzowane przez jakiś (prawdopodobnie wielowymiarowy) parametr . Rozważmy więc dwie bliskie wartości i tak, aby parametr różnił się tylko o niewielką wartość od wartości parametru . Konkretnie, aż do pierwszego rzędu (przy użyciu konwencji sumowania Einsteina )

z niewielką zmianą w kierunku i odpowiedniej szybkości zmian w rozkładzie prawdopodobieństwa. Ponieważ entropia względna ma absolutne minimum 0 dla , tj . Zmienia się tylko do drugiego rzędu w małych parametrach . Bardziej formalnie, jak w przypadku każdego minimum, znikają pierwsze pochodne dywergencji

a przez rozszerzenie Taylora uzyskuje się do drugiego rzędu

gdzie Hesyjska macierz dywergencji

musi być dodatnia, częściowo skończona . Pozwalając na zmianę (i porzucając subindeks 0), Hesjan definiuje (prawdopodobnie zdegenerowaną) metrykę Riemanniana w przestrzeni parametrów θ , zwaną metryką informacyjną Fishera.

Informacyjne twierdzenie Fishera o metryce

Gdy spełnia następujące warunki prawidłowości:

istnieć,

gdzie ξ jest niezależne od ρ

następnie:

Zmienność informacji

Inną miarą teoretyczno-informacyjną jest wariacja informacji , która jest z grubsza symetryzacją warunkowej entropii . Jest to metryka na zbiorze podziałów dyskretnej przestrzeni prawdopodobieństwa .

Związek z innymi wielkościami teorii informacji

Wiele innych wielkości teorii informacji można zinterpretować jako zastosowania względnej entropii do określonych przypadków.

Informacje własne

Informacja własna , znana również jako zawartość informacyjna sygnału, zmiennej losowej lub zdarzenia, jest definiowana jako ujemny logarytm prawdopodobieństwa wystąpienia danego wyniku.

Po zastosowaniu do dyskretnej zmiennej losowej informacje o sobie można przedstawić jako

jest względną entropią rozkładu prawdopodobieństwa z delty Kroneckera reprezentującą pewność, że - tj. liczbę dodatkowych bitów, które muszą być przesłane, aby określić, czy tylko rozkład prawdopodobieństwa jest dostępny dla odbiorcy, a nie fakt, że .

Wzajemne informacje

Wzajemnego przekazywania informacji ,

jest względną entropią iloczynu dwóch krańcowych rozkładów prawdopodobieństwa z łącznego rozkładu prawdopodobieństwa - tj. oczekiwaną liczbę dodatkowych bitów, które należy przesłać, aby je zidentyfikować i jeśli są one zakodowane przy użyciu tylko ich rozkładów krańcowych zamiast wspólnego rozkładu. Równocześnie, jeśli znane jest prawdopodobieństwo łączne , jest to oczekiwana liczba dodatkowych bitów, które muszą być średnio wysłane, aby stwierdzić, czy wartość nie jest już znana odbiorcy.

Entropia Shannona

Shannon entropii ,

Jest to liczba bitów, które musiałyby być przekazywane do identyfikacji z równie prawdopodobnych możliwości, mniej względny entropia rozkładu równomiernego na przypadkowych zmiennymi o , z prawdziwego dystrybucji - czyli mniej oczekiwana liczba bitów zapisanych, która miałaby musiało zostać wysłane, jeśli wartość została zakodowana zgodnie z rozkładem równomiernym, a nie rzeczywistym .

Entropia warunkowa

Entropia warunkowa ,

to liczba bitów, które musiałyby zostać przesłane, aby zidentyfikować z równie prawdopodobnych możliwości, pomniejszona o względną entropię rozkładu iloczynu z prawdziwego wspólnego rozkładu - tj. pomniejszona o oczekiwaną liczbę zapisanych bitów, które musiałyby zostać wysłane, gdyby wartość z zostało zakodowanych zgodnie z rozkładem jednorodnym, a nie według podanego warunkowego rozkładu .

Entropia krzyżowa

Gdy mamy zbiór możliwych zdarzeń, pochodzących z dystrybucji p , możemy je zakodować (z bezstratną kompresją danych ) za pomocą kodowania entropijnego . To kompresuje dane, zastępując każdy symbol wejściowy o stałej długości odpowiadającym mu unikalnym kodem o zmiennej długości, pozbawionym prefiksów (np .: zdarzenia (A, B, C) z prawdopodobieństwami p = (1/2, 1/4, 1/4) można zakodować jako bity (0, 10, 11)). Jeśli znamy z góry dystrybucję p , możemy wymyślić optymalne kodowanie (np. Używając kodowania Huffmana ). Oznacza to, że zakodowane przez nas wiadomości będą miały średnio najkrótszą długość (zakładając, że zakodowane zdarzenia są próbkowane z p ), która będzie równa Entropii Shannona o wartości p (oznaczonej jako ). Jeśli jednak użyjemy innego rozkładu prawdopodobieństwa ( q ) podczas tworzenia schematu kodowania entropijnego, wówczas większa liczba bitów zostanie użyta (średnio) do zidentyfikowania zdarzenia ze zbioru możliwości. Ta nowa (większa) liczba jest mierzona przez entropię krzyżową między p i q .

Przekroju entropia dwóch rozkładów prawdopodobieństwa ( p i q ) pomiar średniej liczby bitów niezbędnych do identyfikacji zdarzenia z zestawu możliwości, czy schemat kodowania jest stosowany w oparciu o danym rozkładzie prawdopodobieństwa q , a nie „prawdziwe” Dystrybucja p . Entropia krzyżowa dla dwóch rozkładów p i q w tej samej przestrzeni prawdopodobieństwa jest zatem zdefiniowana następująco:

W tym scenariuszu względne entropie mogą być interpretowane jako średnia dodatkowa liczba bitów, które są potrzebne (poza ) do kodowania zdarzeń z powodu użycia q do konstruowania schematu kodowania zamiast p .

Aktualizacja bayesowska

W statystyce Bayesa w stosunku entropia może być stosowany jako miara zysku informacyjnego w ruchu z wcześniejszego rozkładu do rozkładu a posteriori : . Jeśli zostanie odkryty jakiś nowy fakt , można go użyć do zaktualizowania późniejszej dystrybucji dla z do nowego późniejszego rozkładu przy użyciu twierdzenia Bayesa :

Ta dystrybucja ma nową entropię :

która może być mniejsza lub większa niż pierwotna entropia . Jednak z punktu widzenia nowego rozkładu prawdopodobieństwa można oszacować, że użycie oryginalnego kodu opartego na zamiast nowego kodu opartego na dodaniu spodziewanej liczby bitów:

do długości wiadomości. Stanowi to zatem ilość użytecznych informacji lub zdobytych informacji, na temat których możemy oszacować, których nauczyliśmy się poprzez odkrycie .

Jeśli później pojawi się kolejna porcja danych, rozkład prawdopodobieństwa można będzie dalej aktualizować, aby uzyskać nowe, najlepsze przypuszczenie . Jeśli ktoś ponownie przeanalizuje zysk z informacji raczej za używanie niż , okazuje się, że może on być większy lub mniejszy niż wcześniej szacowano:

może być ≤ lub> niż

a więc połączony zysk informacji nie jest zgodny z nierównością trójkąta:

może być <, = lub> niż

Wszystko co mogę powiedzieć to, że na średni , średnio użyciu , obie strony będą uśrednienia.

Bayesowski projekt eksperymentalny

Wspólnym celem eksperymentalnego projektu bayesowskiego jest maksymalizacja oczekiwanej względnej entropii między poprzednią a tylną. Kiedy tylne są aproksymowane jako rozkłady Gaussa, projekt maksymalizujący oczekiwaną względną entropię nazywa się d-optymalnym Bayesa .

Informacje o dyskryminacji

Względną entropię można również interpretować jako oczekiwaną informację o rozróżnianiu dla ponad : średniej informacji na próbkę do dyskryminacji na korzyść hipotezy względem hipotezy , gdy hipoteza jest prawdziwa. Inną nazwą tej ilości, nadaną jej przez IJ Good , jest spodziewana waga dowodów na to, że można oczekiwać od każdej próbki ponad .

Oczekiwana waga dowodów na przekroczenie nie jest taka sama, jak oczekiwany przyrost informacji na temat rozkładu prawdopodobieństwa hipotez na próbkę ,

Każda z tych dwóch wielkości może być użyta jako funkcja użyteczności w Bayesowskim projekcie eksperymentalnym, aby wybrać optymalne następne pytanie do zbadania: ale generalnie prowadzą one do raczej różnych strategii eksperymentalnych.

Na entropii skali przyrostu informacji jest bardzo niewielka różnica między prawie pewnością a absolutną pewnością - kodowanie według prawie pewności nie wymaga prawie więcej bitów niż kodowanie według absolutnej pewności. Z drugiej strony, w skali logitowej, wynikającej z wagi dowodów, różnica między nimi jest ogromna - być może nieskończona; może to odzwierciedlać różnicę między byciem prawie pewnym (na poziomie probabilistycznym), że, powiedzmy, hipoteza Riemanna jest poprawna, a pewnością, że jest poprawna, ponieważ ma się dowód matematyczny. Te dwie różne skale funkcji straty dla niepewności są zarówno przydatne, według tego, jak dobrze każdy odzwierciedla szczególne okoliczności rozpatrywanego problemu.

Zasada minimalnej informacji o dyskryminacji

Idea względnej entropii jako informacji o dyskryminacji skłoniła Kullbacka do zaproponowania zasady minimalnej informacji o dyskryminacji (MDI): biorąc pod uwagę nowe fakty, należy wybrać nową dystrybucję, która jest tak trudna do odróżnienia od pierwotnej dystrybucji, jak to tylko możliwe; tak, aby nowe dane generowały jak najmniejszy przyrost informacji .

Na przykład, jeśli ktoś miał wcześniej dystrybucję nad i , a następnie nauczył się prawdziwego rozkładu było , to entropia względna pomiędzy nowej wspólnej dystrybucji i , oraz wcześniej uprzedniej dystrybucji będzie:

tj. suma względnej entropii poprzedniego rozkładu dla ze zaktualizowanego rozkładu plus wartość oczekiwana (przy użyciu rozkładu prawdopodobieństwa ) względnej entropii poprzedniego rozkładu warunkowego z nowego rozkładu warunkowego . (Należy zauważyć, że często późniejsza oczekiwana wartość nazywana jest warunkową entropią względną (lub warunkową dywergencją Kullbacka-Leiblera ) i jest oznaczana przez ). Jest to zminimalizowane, jeśli w całym wsparciu ; i zauważamy, że ten wynik zawiera twierdzenie Bayesa, jeśli nowy rozkład jest w rzeczywistości funkcją δ reprezentującą pewność, która ma jedną określoną wartość.

MDI może być postrzegana jako przedłużenie Laplace „s Zasada niedostatecznej Reason oraz zasadę maksymalnej entropii z ET Jaynesa . W szczególności jest to naturalne rozszerzenie zasady maksymalnej entropii od dystrybucji dyskretnych do ciągłych, dla których entropia Shannona przestaje być tak użyteczna (patrz entropia różniczkowa ), ale entropia względna pozostaje równie istotna.

W literaturze inżynierskiej MDI jest czasami nazywane zasadą minimalnej entropii krzyżowej (MCE) lub w skrócie Minxent . Minimalizacja względnej entropii od do w stosunku do jest równoważna minimalizacji entropii krzyżowej i , ponieważ

co jest właściwe, jeśli próbuje się wybrać odpowiednie przybliżenie . Jednak równie często nie jest to zadanie, które się stara. Zamiast tego, równie często zdarza się, że jest to jakaś ustalona wcześniej miara referencyjna, a ta próbuje się zoptymalizować poprzez zminimalizowanie z zastrzeżeniem pewnych ograniczeń. Doprowadziło to do pewnych niejasności w literaturze, a niektórzy autorzy próbowali rozwiązać tę niespójność poprzez przedefiniowanie cross-entropii jako raczej niż .

Stosunek do dostępnej pracy

Wykres zależności ciśnienia od objętości dostępnej pracy z mola gazowego argonu w stosunku do otoczenia, obliczony jako razy dywergencja Kullbacka – Leiblera.

Zaskoczenia dodają, gdzie mnożą się prawdopodobieństwa. Zaskoczenie dla zdarzenia prawdopodobieństwa jest zdefiniowane jako . Jeśli jest następnie nieuwagę jest NAT, bity, albo dlatego, że, na przykład, są bity nieuwagę do lądowania wszystkie „głowy” Na wrzucić z monet.

Stany z najlepszym zgadywaniem (np. Dla atomów w gazie) są wywnioskowane przez maksymalizację średniej zaskoczenia ( entropii ) dla danego zestawu parametrów kontrolnych (takich jak ciśnienie lub objętość ). Ta ograniczona maksymalizacja entropii , zarówno klasycznie, jak i mechanicznie kwantowo, minimalizuje dostępność Gibbsa w jednostkach entropii, gdzie jest ograniczona wielokrotność lub funkcja podziału .

Gdy temperatura jest stała, minimalizowana jest również darmowa energia ( ). Zatem jeśli i liczba cząsteczek jest stała, energia swobodna Helmholtza (gdzie jest energia) jest zminimalizowana, gdy układ się „równoważy”. Jeśli i są utrzymywane na stałym poziomie (powiedzmy podczas procesów w twoim ciele), zamiast tego energia swobodna Gibbsa jest zminimalizowana. Zmiana darmowej energii w tych warunkach jest miarą dostępnej pracy, którą można wykonać w tym procesie. Zatem dostępna praca dla gazu doskonałego o stałej temperaturze i ciśnieniu jest gdzie i (patrz także nierówność Gibbsa ).

Bardziej ogólnie, pracę dostępną w stosunku do pewnego otoczenia uzyskuje się przez pomnożenie temperatury otoczenia przez względną entropię lub zaskoczenie netto zdefiniowane jako średnia wartość gdzie jest prawdopodobieństwem danego stanu w warunkach otoczenia. Na przykład praca dostępna w celu zrównoważenia jednoatomowego gazu doskonałego do wartości otoczenia, a zatem jest , gdy względna entropia

Powstałe w ten sposób kontury o stałej względnej entropii, pokazane po prawej stronie dla mola argonu w standardowej temperaturze i ciśnieniu, ograniczają na przykład konwersję ciepła na zimno, jak w przypadku klimatyzacji zasilanej płomieniem lub w urządzeniu niezasilanym do przekształcania wrzenia woda do wody lodowej omówiona tutaj. Zatem entropia względna mierzy dostępność termodynamiczną w bitach.

Kwantowa teoria informacji

W przypadku macierzy gęstości i w przestrzeni Hilberta , względna entropia kwantowa od do jest zdefiniowana jako

W informatyce kwantowej minimum wszystkich możliwych do rozdzielenia stanów może być również użyte jako miara splątania w stanie .

Związek między modelami a rzeczywistością

Tak jak względna entropia „rzeczywistego z otoczenia” mierzy dostępność termodynamiczną, tak względna entropia „rzeczywistości z modelu” jest również użyteczna, nawet jeśli jedynymi wskazówkami dotyczącymi rzeczywistości są pomiary eksperymentalne. W pierwszym przypadku entropia względna określa odległość do równowagi lub (pomnożoną przez temperaturę otoczenia) ilość dostępnej pracy , w drugim zaś mówi o niespodziankach, które rzeczywistość ma w zanadrzu, czyli innymi słowy, ile model jeszcze się nie nauczył .

Chociaż to narzędzie do oceny modeli względem systemów, które są dostępne eksperymentalnie, może być stosowane w dowolnej dziedzinie, jego zastosowanie do wyboru modelu statystycznego na podstawie kryterium informacyjnego Akaike jest szczególnie dobrze opisane w artykułach i książce Burnhama i Andersona. Krótko mówiąc, względną entropię rzeczywistości z modelu można oszacować, w ramach stałego składnika addytywnego, za pomocą funkcji odchyleń obserwowanych między danymi a przewidywaniami modelu (np. Odchylenie średnie kwadratowe ). Oszacowania takiej rozbieżności dla modeli, które mają ten sam składnik addytywny, można z kolei wykorzystać do wyboru spośród modeli.

Próbując dopasować sparametryzowane modele do danych, istnieją różne estymatory, które próbują zminimalizować względną entropię, takie jak estymatory maksymalnego prawdopodobieństwa i maksymalnego odstępu .

Dywergencja symetryzowana

Kullback i Leibler sami zdefiniowali dywergencję jako:

który jest symetryczny i nieujemny. Ta ilość była czasami używana do wyboru cech w problemach klasyfikacyjnych , gdzie i są warunkowe pliki PDF obiektu w dwóch różnych klasach. W branży bankowej i finansowej wielkość ta jest nazywana wskaźnikiem stabilności populacji i jest używana do oceny zmian dystrybucyjnych cech modelu w czasie.

Alternatywą jest dywergencja,

co można zinterpretować jako oczekiwany zysk informacji na temat odkrycia, z którego rozkładu prawdopodobieństwa pochodzi, lub , czy obecnie mają one prawdopodobieństwa i odpowiednio.

Wartość określa dywergencję Jensena – Shannona , określoną przez

gdzie jest średnia z dwóch rozkładów,

można również zinterpretować jako pojemność zaszumionego kanału informacyjnego z dwoma wejściami, podającymi rozkłady wyjściowe i . Dywergencja Jensena – Shannona, podobnie jak wszystkie rozbieżności f , jest lokalnie proporcjonalna do metryki informacyjnej Fishera . Jest podobny do metryki Hellingera (w tym sensie, że indukuje to samo afiniczne połączenie na rozmaitości statystycznej ).

Związek z innymi miarami prawdopodobieństwa i odległości

Istnieje wiele innych ważnych miar odległości prawdopodobieństwa . Niektóre z nich są szczególnie związane ze względną entropią. Na przykład:

  • Całkowita odległość odmianą , . Jest to związane z dywergencją wynikającą z nierówności Pinskera :
  • Rozbieżności w rodzinie Rényi uogólniają względną entropię. W zależności od wartości określonego parametru można wydedukować różne nierówności.

Inne znaczące miary odległości obejmować dystans Hellinger , histogramu przecięcie , statystyką chi-kwadrat , formy kwadratowej dystans , dystans mecz , Kołmogorowa-Smirnowa dystans oraz dystans Earth Mover za .

Różnicowanie danych

Tak jak absolutna entropia służy jako teoretyczne tło dla kompresji danych , względna entropia służy jako teoretyczne tło dla różnicowania danych - absolutna entropia zbioru danych w tym sensie jest danymi wymaganymi do jego rekonstrukcji (minimalny rozmiar skompresowany), podczas gdy względna entropia z docelowego zestawu danych, przy danym źródłowym zestawie danych, są dane wymagane do zrekonstruowania celu przy danym źródle (minimalny rozmiar łatki ).

Zobacz też

Bibliografia

Linki zewnętrzne