Ilość informacji - Quantities of information
Matematyczna teoria informacji opiera się na teorii prawdopodobieństwa i statystyki , a także środki informacji z kilku ilości informacji . Wybór podstawy logarytmicznej w poniższych wzorach określa jednostkę stosowanej entropii informacji . Najpopularniejszą jednostką informacji jest bit , oparty na logarytmie binarnym . Inne jednostki to nat , oparty na logarytmie naturalnym , i hartley , oparty na podstawie 10 lub logarytmie wspólnym .
W dalszej części, wyrażenie postaci jest uważane przez konwencję za równe zero, gdy jest równe zero. Jest to uzasadnione, ponieważ dla dowolnej podstawy logarytmicznej.
Informacje o sobie
Shannon pochodzący miarą zawartości informacyjnej nazywany self-informacje lub „nieuwagę” z komunikatem :
gdzie jest prawdopodobieństwem, że wiadomość zostanie wybrana spośród wszystkich możliwych wyborów w przestrzeni wiadomości . Podstawa logarytmu wpływa jedynie na współczynnik skalowania, a w konsekwencji na jednostki, w których wyrażona jest zmierzona zawartość informacji. Jeśli logarytm ma podstawę 2, miara informacji jest wyrażona w jednostkach bitów .
Informacja jest przekazywana ze źródła do odbiorcy tylko wtedy, gdy odbiorca informacji nie miał jeszcze informacji na początku. Wiadomości, które przekazują informacje, które na pewno się wydarzą i są już znane odbiorcy, nie zawierają prawdziwych informacji. Komunikaty pojawiające się rzadko zawierają więcej informacji niż komunikaty pojawiające się częściej. Fakt ten znajduje odzwierciedlenie w powyższym równaniu - pewna wiadomość, tj. o prawdopodobieństwie 1, ma miarę informacyjną równą zero. Ponadto wiadomość złożona składająca się z dwóch (lub więcej) niepowiązanych (lub wzajemnie niezależnych) wiadomości będzie zawierała ilość informacji, która jest sumą miar informacji każdej wiadomości z osobna. Fakt ten znajduje również odzwierciedlenie w powyższym równaniu, potwierdzając słuszność jego wyprowadzenia.
Przykład: Audycja z prognozą pogody brzmi: „Prognoza na dzisiaj: ciemno. Ciągła ciemność aż do szeroko rozproszonego światła nad ranem”. Ta wiadomość nie zawiera prawie żadnych informacji. Jednak prognoza śnieżycy z pewnością zawierałaby informacje, ponieważ nie zdarza się to każdego wieczoru. Dokładna prognoza opadów śniegu dla ciepłego miejsca, takiego jak Miami, zawierałaby jeszcze więcej informacji . Ilość informacji w prognozie opadów śniegu dla lokalizacji, w której nigdy nie pada śnieg (zdarzenie niemożliwe), jest najwyższa (nieskończoność).
Entropia
Entropia dyskretnego przestrzeni komunikatów jest miarą ilości niepewności jeden jest o których wiadomość zostanie wybrane. Definiuje się ją jako przeciętną samoinformację wiadomości z tej przestrzeni wiadomości:
gdzie
- oznacza operację wartości oczekiwanej .
Ważną właściwością entropii jest to, że jest ona maksymalizowana, gdy wszystkie wiadomości w przestrzeni wiadomości są jednakowo prawdopodobne (np . ). W tym przypadku .
Czasami funkcję wyraża się w postaci prawdopodobieństw rozkładu:
- gdzie każdy i
Ważnym szczególnym przypadkiem tego jest binarna funkcja entropii :
Wspólna entropia
Stawów entropia z dwóch oddzielnych zmiennymi losowymi i jest zdefiniowany jako entropii łącznego rozkładu z i :
Jeśli i są niezależne , to łączna entropia jest po prostu sumą ich indywidualnych entropii.
(Uwaga: nie należy mylić wspólnej entropii z entropią krzyżową , pomimo podobnych zapisów).
Entropia warunkowa (ekwiwokacja)
Przy danej wartości zmiennej losowej entropia warunkowa danej jest definiowana jako:
gdzie jest prawdopodobieństwo warunkowe z podana .
Warunkowy entropia od podano , zwany także dwuznaczność of about następnie ze wzoru:
Wykorzystuje to warunkowe oczekiwanie z teorii prawdopodobieństwa.
Podstawową własnością entropii warunkowej jest to, że:
Rozbieżność Kullbacka-Leiblera (zysk informacji)
Dywergencja kullbacka-leiblera (lub informacja rozbieżność , uzyskać informacje , czy krewny entropia ) jest sposobem porównywania dwóch rozkładów, a „prawdziwą” rozkład prawdopodobieństwa i dowolny rozkład prawdopodobieństwa . Jeśli kompresujemy dane w sposób, który zakłada, że jest to rozkład leżący u podstaw niektórych danych, podczas gdy w rzeczywistości jest to rozkład poprawny, rozbieżność Kullbacka-Leiblera to liczba średnich dodatkowych bitów na daną niezbędną do kompresji lub, matematycznie,
Jest to w pewnym sensie „odległość” od do , chociaż nie jest to prawdziwa metryka, ponieważ nie jest symetryczna.
Wzajemna informacja (transinformacja)
Okazuje się, że jednym z najbardziej użytecznych i ważnych mierników informacji jest wzajemna informacja , czyli transinformacja . Jest to miara tego, ile informacji można uzyskać o jednej zmiennej losowej, obserwując inną. Wzajemna informacja w stosunku do (która pojęciowo reprezentuje średnią ilość informacji na ten temat, którą można uzyskać obserwując ) jest dana wzorem:
Podstawową właściwością wzajemnych informacji jest to, że:
Oznacza to, że wiedząc , możemy zaoszczędzić średnio bitów w kodowaniu w porównaniu do niewiedzy . Wzajemne informacje są symetryczne :
Wzajemna informacja może być wyrażona jako średnia dywergencja kullbacka-leiblera (uzyskanie informacji) z tylnej rozkładu prawdopodobieństwa z uwagi na wartość do wcześniejszego podziału na :
Innymi słowy, jest to miara tego, jak średnio zmieni się rozkład prawdopodobieństwa na , jeśli otrzymamy wartość . Jest to często przeliczane jako rozbieżność od iloczynu rozkładów krańcowych do rzeczywistego rozkładu łącznego:
Wymiana informacji jest ściśle związana z testu stosunek log-prawdopodobieństwa w kontekście tabel awaryjnych i rozkładu wielomianowego i χ Pearsona 2 testu : wzajemne informacje mogą zostać uznane statystyka oceny niezależności pomiędzy parą zmiennych, i ma dobrze określony rozkład asymptotyczny.
Entropia różnicowa
Podstawowe pomiary dyskretnej entropii zostały rozszerzone przez analogię do ciągłych przestrzeniach zastępując sumy z całek i funkcji masy prawdopodobieństwa z funkcji gęstości prawdopodobieństwa . Chociaż w obu przypadkach wzajemna informacja wyraża liczbę bitów informacji wspólnych dla dwóch omawianych źródeł, analogia nie implikuje identycznych właściwości; na przykład entropia różnicowa może być ujemna.
Różniczkowe analogie entropii, entropii łącznej, entropii warunkowej i wzajemnej informacji są zdefiniowane w następujący sposób:
gdzie jest wspólną funkcją gęstości, i są rozkładami krańcowymi, i jest rozkładem warunkowym.
Zobacz też
Bibliografia
- ^ DJC Mackay. Teoria informacji, wnioskowanie i algorytmy uczenia się .