Ilość informacji - Quantities of information

Wprowadzający w błąd diagram informacyjny pokazujący addytywne i subtraktywne relacje między podstawowymi ilościami informacji Shannona dla skorelowanych zmiennych i . Obszar zawarty przez oba koła to wspólna entropia . Okrąg po lewej stronie (czerwony i fioletowy) to indywidualna entropia , a czerwony to entropia warunkowa . Okrąg po prawej (niebieski i fioletowy) to , a niebieski to . Fiolet to wzajemna informacja .

Matematyczna teoria informacji opiera się na teorii prawdopodobieństwa i statystyki , a także środki informacji z kilku ilości informacji . Wybór podstawy logarytmicznej w poniższych wzorach określa jednostkę stosowanej entropii informacji . Najpopularniejszą jednostką informacji jest bit , oparty na logarytmie binarnym . Inne jednostki to nat , oparty na logarytmie naturalnym , i hartley , oparty na podstawie 10 lub logarytmie wspólnym .

W dalszej części, wyrażenie postaci jest uważane przez konwencję za równe zero, gdy jest równe zero. Jest to uzasadnione, ponieważ dla dowolnej podstawy logarytmicznej.

Informacje o sobie

Shannon pochodzący miarą zawartości informacyjnej nazywany self-informacje lub „nieuwagę” z komunikatem :

gdzie jest prawdopodobieństwem, że wiadomość zostanie wybrana spośród wszystkich możliwych wyborów w przestrzeni wiadomości . Podstawa logarytmu wpływa jedynie na współczynnik skalowania, a w konsekwencji na jednostki, w których wyrażona jest zmierzona zawartość informacji. Jeśli logarytm ma podstawę 2, miara informacji jest wyrażona w jednostkach bitów .

Informacja jest przekazywana ze źródła do odbiorcy tylko wtedy, gdy odbiorca informacji nie miał jeszcze informacji na początku. Wiadomości, które przekazują informacje, które na pewno się wydarzą i są już znane odbiorcy, nie zawierają prawdziwych informacji. Komunikaty pojawiające się rzadko zawierają więcej informacji niż komunikaty pojawiające się częściej. Fakt ten znajduje odzwierciedlenie w powyższym równaniu - pewna wiadomość, tj. o prawdopodobieństwie 1, ma miarę informacyjną równą zero. Ponadto wiadomość złożona składająca się z dwóch (lub więcej) niepowiązanych (lub wzajemnie niezależnych) wiadomości będzie zawierała ilość informacji, która jest sumą miar informacji każdej wiadomości z osobna. Fakt ten znajduje również odzwierciedlenie w powyższym równaniu, potwierdzając słuszność jego wyprowadzenia.

Przykład: Audycja z prognozą pogody brzmi: „Prognoza na dzisiaj: ciemno. Ciągła ciemność aż do szeroko rozproszonego światła nad ranem”. Ta wiadomość nie zawiera prawie żadnych informacji. Jednak prognoza śnieżycy z pewnością zawierałaby informacje, ponieważ nie zdarza się to każdego wieczoru. Dokładna prognoza opadów śniegu dla ciepłego miejsca, takiego jak Miami, zawierałaby jeszcze więcej informacji . Ilość informacji w prognozie opadów śniegu dla lokalizacji, w której nigdy nie pada śnieg (zdarzenie niemożliwe), jest najwyższa (nieskończoność).

Entropia

Entropia dyskretnego przestrzeni komunikatów jest miarą ilości niepewności jeden jest o których wiadomość zostanie wybrane. Definiuje się ją jako przeciętną samoinformację wiadomości z tej przestrzeni wiadomości:

gdzie

oznacza operację wartości oczekiwanej .

Ważną właściwością entropii jest to, że jest ona maksymalizowana, gdy wszystkie wiadomości w przestrzeni wiadomości są jednakowo prawdopodobne (np . ). W tym przypadku .

Czasami funkcję wyraża się w postaci prawdopodobieństw rozkładu:

gdzie każdy i

Ważnym szczególnym przypadkiem tego jest binarna funkcja entropii :

Wspólna entropia

Stawów entropia z dwóch oddzielnych zmiennymi losowymi i jest zdefiniowany jako entropii łącznego rozkładu z i :

Jeśli i są niezależne , to łączna entropia jest po prostu sumą ich indywidualnych entropii.

(Uwaga: nie należy mylić wspólnej entropii z entropią krzyżową , pomimo podobnych zapisów).

Entropia warunkowa (ekwiwokacja)

Przy danej wartości zmiennej losowej entropia warunkowa danej jest definiowana jako:

gdzie jest prawdopodobieństwo warunkowe z podana .

Warunkowy entropia od podano , zwany także dwuznaczność of about następnie ze wzoru:

Wykorzystuje to warunkowe oczekiwanie z teorii prawdopodobieństwa.

Podstawową własnością entropii warunkowej jest to, że:

Rozbieżność Kullbacka-Leiblera (zysk informacji)

Dywergencja kullbacka-leiblera (lub informacja rozbieżność , uzyskać informacje , czy krewny entropia ) jest sposobem porównywania dwóch rozkładów, a „prawdziwą” rozkład prawdopodobieństwa i dowolny rozkład prawdopodobieństwa . Jeśli kompresujemy dane w sposób, który zakłada, że jest to rozkład leżący u podstaw niektórych danych, podczas gdy w rzeczywistości jest to rozkład poprawny, rozbieżność Kullbacka-Leiblera to liczba średnich dodatkowych bitów na daną niezbędną do kompresji lub, matematycznie,

Jest to w pewnym sensie „odległość” od do , chociaż nie jest to prawdziwa metryka, ponieważ nie jest symetryczna.

Wzajemna informacja (transinformacja)

Okazuje się, że jednym z najbardziej użytecznych i ważnych mierników informacji jest wzajemna informacja , czyli transinformacja . Jest to miara tego, ile informacji można uzyskać o jednej zmiennej losowej, obserwując inną. Wzajemna informacja w stosunku do (która pojęciowo reprezentuje średnią ilość informacji na ten temat, którą można uzyskać obserwując ) jest dana wzorem:

Podstawową właściwością wzajemnych informacji jest to, że:

Oznacza to, że wiedząc , możemy zaoszczędzić średnio bitów w kodowaniu w porównaniu do niewiedzy . Wzajemne informacje są symetryczne :


Wzajemna informacja może być wyrażona jako średnia dywergencja kullbacka-leiblera (uzyskanie informacji) z tylnej rozkładu prawdopodobieństwa z uwagi na wartość do wcześniejszego podziału na :

Innymi słowy, jest to miara tego, jak średnio zmieni się rozkład prawdopodobieństwa na , jeśli otrzymamy wartość . Jest to często przeliczane jako rozbieżność od iloczynu rozkładów krańcowych do rzeczywistego rozkładu łącznego:

Wymiana informacji jest ściśle związana z testu stosunek log-prawdopodobieństwa w kontekście tabel awaryjnych i rozkładu wielomianowego i χ Pearsona 2 testu : wzajemne informacje mogą zostać uznane statystyka oceny niezależności pomiędzy parą zmiennych, i ma dobrze określony rozkład asymptotyczny.

Entropia różnicowa

Podstawowe pomiary dyskretnej entropii zostały rozszerzone przez analogię do ciągłych przestrzeniach zastępując sumy z całek i funkcji masy prawdopodobieństwa z funkcji gęstości prawdopodobieństwa . Chociaż w obu przypadkach wzajemna informacja wyraża liczbę bitów informacji wspólnych dla dwóch omawianych źródeł, analogia nie implikuje identycznych właściwości; na przykład entropia różnicowa może być ujemna.

Różniczkowe analogie entropii, entropii łącznej, entropii warunkowej i wzajemnej informacji są zdefiniowane w następujący sposób:

gdzie jest wspólną funkcją gęstości, i są rozkładami krańcowymi, i jest rozkładem warunkowym.

Zobacz też

Bibliografia

  1. ^ DJC Mackay. Teoria informacji, wnioskowanie i algorytmy uczenia się .