Ilość informacji - Quantities of information

Wprowadzający w błąd diagram informacyjny pokazujący addytywne i subtraktywne relacje między podstawowymi ilościami informacji Shannona dla skorelowanych zmiennych i . Obszar zawarty przez oba koła to wspólna entropia . Okrąg po lewej stronie (czerwony i fioletowy) to indywidualna entropia , a czerwony to entropia warunkowa . Okrąg po prawej (niebieski i fioletowy) to , a niebieski to . Fiolet to wzajemna informacja .

{\ Displaystyle X}

{\ Displaystyle Y}

{\ Displaystyle \ operatorname {H} (X, Y)}

{\ Displaystyle \ operatorname {H} (X)}

{\ Displaystyle \ operatorname {H} (X | Y)}

{\ Displaystyle \ operatorname {H} (Y)}

{\ Displaystyle \ operatorname {H} (Y | X)}

{\ Displaystyle \ Operatorname {I} (X; Y)}

Matematyczna teoria informacji opiera się na teorii prawdopodobieństwa i statystyki , a także środki informacji z kilku ilości informacji . Wybór podstawy logarytmicznej w poniższych wzorach określa jednostkę stosowanej entropii informacji . Najpopularniejszą jednostką informacji jest bit , oparty na logarytmie binarnym . Inne jednostki to nat , oparty na logarytmie naturalnym , i hartley , oparty na podstawie 10 lub logarytmie wspólnym .

W dalszej części, wyrażenie postaci jest uważane przez konwencję za równe zero, gdy jest równe zero. Jest to uzasadnione, ponieważ dla dowolnej podstawy logarytmicznej. $p\log p\,$ $p$ ${\ Displaystyle \ lim _ {p \ rightarrow 0 +} p \ log p = 0}$

Informacje o sobie

Shannon pochodzący miarą zawartości informacyjnej nazywany self-informacje lub „nieuwagę” z komunikatem : ${\ Displaystyle m}$

{\ Displaystyle \ Operatorname {I} (m) = \ log \ lewo ({\ Frac {1} {p (m)}} \ prawej) = - \ log (p (m)) \,}

gdzie jest prawdopodobieństwem, że wiadomość zostanie wybrana spośród wszystkich możliwych wyborów w przestrzeni wiadomości . Podstawa logarytmu wpływa jedynie na współczynnik skalowania, a w konsekwencji na jednostki, w których wyrażona jest zmierzona zawartość informacji. Jeśli logarytm ma podstawę 2, miara informacji jest wyrażona w jednostkach bitów . ${\ Displaystyle p (m) = \ operatorname {Pr} (M = m)}$ ${\ Displaystyle m}$ ${\ Displaystyle M}$

Informacja jest przekazywana ze źródła do odbiorcy tylko wtedy, gdy odbiorca informacji nie miał jeszcze informacji na początku. Wiadomości, które przekazują informacje, które na pewno się wydarzą i są już znane odbiorcy, nie zawierają prawdziwych informacji. Komunikaty pojawiające się rzadko zawierają więcej informacji niż komunikaty pojawiające się częściej. Fakt ten znajduje odzwierciedlenie w powyższym równaniu - pewna wiadomość, tj. o prawdopodobieństwie 1, ma miarę informacyjną równą zero. Ponadto wiadomość złożona składająca się z dwóch (lub więcej) niepowiązanych (lub wzajemnie niezależnych) wiadomości będzie zawierała ilość informacji, która jest sumą miar informacji każdej wiadomości z osobna. Fakt ten znajduje również odzwierciedlenie w powyższym równaniu, potwierdzając słuszność jego wyprowadzenia.

Przykład: Audycja z prognozą pogody brzmi: „Prognoza na dzisiaj: ciemno. Ciągła ciemność aż do szeroko rozproszonego światła nad ranem”. Ta wiadomość nie zawiera prawie żadnych informacji. Jednak prognoza śnieżycy z pewnością zawierałaby informacje, ponieważ nie zdarza się to każdego wieczoru. Dokładna prognoza opadów śniegu dla ciepłego miejsca, takiego jak Miami, zawierałaby jeszcze więcej informacji . Ilość informacji w prognozie opadów śniegu dla lokalizacji, w której nigdy nie pada śnieg (zdarzenie niemożliwe), jest najwyższa (nieskończoność).

Entropia

Entropia dyskretnego przestrzeni komunikatów jest miarą ilości niepewności jeden jest o których wiadomość zostanie wybrane. Definiuje się ją jako przeciętną samoinformację wiadomości z tej przestrzeni wiadomości: ${\ Displaystyle M}$ ${\ Displaystyle m}$

{\ Displaystyle \ operatorname {H} (M) = \ mathbb {E} \ lewo [\ operator {I} (M) \ prawo] = \ suma _ {m \ w M} p (m) \ operator {I} (m)=-\sum _{m\in M}p(m)\log p(m).}

gdzie

{\ Displaystyle \ mathbb {E} [-]}

oznacza operację wartości oczekiwanej .

Ważną właściwością entropii jest to, że jest ona maksymalizowana, gdy wszystkie wiadomości w przestrzeni wiadomości są jednakowo prawdopodobne (np . ). W tym przypadku . ${\ Displaystyle p (m) = 1 / | M |}$ ${\ Displaystyle \ operatorname {H} (M) = \ log | M |}$

Czasami funkcję wyraża się w postaci prawdopodobieństw rozkładu: ${\ Displaystyle \ operatorname {H}}$

{\ Displaystyle \ operatorname {H} (p_ {1}, p_ {2}, \ ldots, p_ {k}) = - \ suma _ {i = 1} ^ {k} p_ {i} \ log p_ {i },}

gdzie każdy i

p_{i}\geq 0

{\ Displaystyle \ suma _ {i = 1} ^ {k} p_ {i} = 1.}

Ważnym szczególnym przypadkiem tego jest binarna funkcja entropii :

{\ Displaystyle \ operatorname {H} _ {\ mbox {b}} (p) = \ operatorname {H} (p, 1-p) = - p \ log p-(1-p) \ log (1-p ).\,}

Wspólna entropia

Stawów entropia z dwóch oddzielnych zmiennymi losowymi i jest zdefiniowany jako entropii łącznego rozkładu z i : ${\ Displaystyle X}$ ${\ Displaystyle Y}$ ${\ Displaystyle X}$ ${\ Displaystyle Y}$

{\ Displaystyle \ operatorname {H} (X, Y) = \ mathbb {E} _ {X, Y} \ lewo [- \ log p (x, y) \ prawo] = - \ suma _ {x, y} p(x,y)\log p(x,y)\,}

Jeśli i są niezależne , to łączna entropia jest po prostu sumą ich indywidualnych entropii. ${\ Displaystyle X}$ ${\ Displaystyle Y}$

(Uwaga: nie należy mylić wspólnej entropii z entropią krzyżową , pomimo podobnych zapisów).

Entropia warunkowa (ekwiwokacja)

Przy danej wartości zmiennej losowej entropia warunkowa danej jest definiowana jako: ${\ Displaystyle Y}$ ${\ Displaystyle X}$ $Y=y$

{\ Displaystyle \ operatorname {H} (X | y) = \ mathbb {E} _ {\ lewo [X | Y \ prawo]} [- \ log p (x | y)] = - \ suma _ {x \ w X}p(x|y)\log p(x|y)}

gdzie jest prawdopodobieństwo warunkowe z podana . ${\ Displaystyle p (x | y) = {\ Frac {p (x, y)} {p (y)}}}$ $x$ $y$

Warunkowy entropia od podano , zwany także dwuznaczność of about następnie ze wzoru: ${\ Displaystyle X}$ ${\ Displaystyle Y}$ ${\ Displaystyle X}$ ${\ Displaystyle Y}$

{\ Displaystyle \ operatorname {H} (X | Y) = \ mathbb {E} _ {Y} \ lewo [\ operatorname {H} \ lewo (X | Y \ po prawej) \ po prawej] = - \ suma _ {y \in Y}p(y)\sum _{x\in X}p(x|y)\log p(x|y)=\sum _{x,y}p(x,y)\log {\ frac {p(y)}{p(x,y)}}.}

Wykorzystuje to warunkowe oczekiwanie z teorii prawdopodobieństwa.

Podstawową własnością entropii warunkowej jest to, że:

{\ Displaystyle \ operatorname {H} (X | Y) = \ operatorname {H} (X, Y) - \ operatorname {H} (Y). \,}

Rozbieżność Kullbacka-Leiblera (zysk informacji)

Dywergencja kullbacka-leiblera (lub informacja rozbieżność , uzyskać informacje , czy krewny entropia ) jest sposobem porównywania dwóch rozkładów, a „prawdziwą” rozkład prawdopodobieństwa i dowolny rozkład prawdopodobieństwa . Jeśli kompresujemy dane w sposób, który zakłada, że jest to rozkład leżący u podstaw niektórych danych, podczas gdy w rzeczywistości jest to rozkład poprawny, rozbieżność Kullbacka-Leiblera to liczba średnich dodatkowych bitów na daną niezbędną do kompresji lub, matematycznie, $p$ $q$ $q$ $p$

{\ Displaystyle D_ {\ operatorname {KL}} {\ bigl (} p (X) \ | q (X) {\ duży )} = \ suma _ {x \ w X} p (x) \ log {\ Frac {p(x)}{q(x)}}.}

Jest to w pewnym sensie „odległość” od do , chociaż nie jest to prawdziwa metryka, ponieważ nie jest symetryczna. $q$ $p$

Wzajemna informacja (transinformacja)

Okazuje się, że jednym z najbardziej użytecznych i ważnych mierników informacji jest wzajemna informacja , czyli transinformacja . Jest to miara tego, ile informacji można uzyskać o jednej zmiennej losowej, obserwując inną. Wzajemna informacja w stosunku do (która pojęciowo reprezentuje średnią ilość informacji na ten temat, którą można uzyskać obserwując ) jest dana wzorem: ${\ Displaystyle X}$ ${\ Displaystyle Y}$ ${\ Displaystyle X}$ ${\ Displaystyle Y}$

{\ Displaystyle \ Operatorname {I} (X; Y) = \ suma _ {y \ w Y} p (y) \ suma _ {x \ w X} {p (x | y) \ log {\ Frac {p (x|y)}{p(x)}}}=\suma _{x,y}p(x,y)\log {\frac {p(x,y)}{p(x)\,p (y)}}.}

Podstawową właściwością wzajemnych informacji jest to, że:

{\ Displaystyle \ Operatorname {I} (X; Y) = \ operator {H} (X) - \ operatorname {H} (X | Y). \,}

Oznacza to, że wiedząc , możemy zaoszczędzić średnio bitów w kodowaniu w porównaniu do niewiedzy . Wzajemne informacje są symetryczne : ${\ Displaystyle Y}$ ${\ Displaystyle \ Operatorname {I} (X; Y)}$ ${\ Displaystyle X}$ ${\ Displaystyle Y}$

{\ Displaystyle \ Operatorname {I} (X; Y) = \ Operator {I} (Y; X) = \ Operator {H} (X) + \ Operator {H} (Y) - \ Operator {H} (X) ,T).\,}

Wzajemna informacja może być wyrażona jako średnia dywergencja kullbacka-leiblera (uzyskanie informacji) z tylnej rozkładu prawdopodobieństwa z uwagi na wartość do wcześniejszego podziału na : ${\ Displaystyle X}$ ${\ Displaystyle Y}$ ${\ Displaystyle X}$

{\ Displaystyle \ Operatorname {I} (X; Y) = \ mathbb {E} _ {p (y)} \ lewo [D_ {\ operatorname {KL}} {\ Bigl (} p (X | Y = Y) \|p(X){\bigr )}\prawo].}

Innymi słowy, jest to miara tego, jak średnio zmieni się rozkład prawdopodobieństwa na , jeśli otrzymamy wartość . Jest to często przeliczane jako rozbieżność od iloczynu rozkładów krańcowych do rzeczywistego rozkładu łącznego: ${\ Displaystyle X}$ ${\ Displaystyle Y}$

{\ Displaystyle \ Operatorname {I} (X; Y) = D_ {\ operatorname {KL}} {\ Bigl (} p (X, Y) \ | p (X) p (Y) {\ Bigr}}.}

Wymiana informacji jest ściśle związana z testu stosunek log-prawdopodobieństwa w kontekście tabel awaryjnych i rozkładu wielomianowego i χ Pearsona ² testu : wzajemne informacje mogą zostać uznane statystyka oceny niezależności pomiędzy parą zmiennych, i ma dobrze określony rozkład asymptotyczny.

Entropia różnicowa

Podstawowe pomiary dyskretnej entropii zostały rozszerzone przez analogię do ciągłych przestrzeniach zastępując sumy z całek i funkcji masy prawdopodobieństwa z funkcji gęstości prawdopodobieństwa . Chociaż w obu przypadkach wzajemna informacja wyraża liczbę bitów informacji wspólnych dla dwóch omawianych źródeł, analogia nie implikuje identycznych właściwości; na przykład entropia różnicowa może być ujemna.

Różniczkowe analogie entropii, entropii łącznej, entropii warunkowej i wzajemnej informacji są zdefiniowane w następujący sposób: