Teoria informacji i teoria miary - Information theory and measure theory

W artykule omówiono związek teorii informacji (dział matematyki zajmujący się transmisją, przetwarzaniem i przechowywaniem informacji ) z teorią miary (działem matematyki związanym z integracją i prawdopodobieństwem ).

Miary w teorii informacji

Wiele pojęć w teorii informacji ma oddzielne definicje i formuły dla przypadków ciągłych i dyskretnych . Na przykład entropia jest zwykle definiowana dla dyskretnych zmiennych losowych, podczas gdy dla ciągłych zmiennych losowych używa się pokrewnej koncepcji entropii różniczkowej , napisanej (patrz Cover i Thomas, 2006, rozdział 8). Oba te pojęcia są oczekiwaniami matematycznymi , ale oczekiwanie jest definiowane za pomocą całki dla przypadku ciągłego i sumy dla przypadku dyskretnego. ${\ Displaystyle \ mathrm {H} (X)}$ ${\ Displaystyle h (X)}$

Te oddzielne definicje mogą być ściślej powiązane pod względem teorii miary . W przypadku dyskretnych zmiennych losowych, funkcje masy prawdopodobieństwa można uznać za funkcje gęstości w odniesieniu do miary zliczania. Myślenie o całce i sumie jako o integracji w przestrzeni miar pozwala na ujednolicone traktowanie.

Rozważ wzór na entropię różniczkową ciągłej zmiennej losowej z zakresem i funkcją gęstości prawdopodobieństwa : ${\ displaystyle X}$ ${\ displaystyle \ mathbb {R}}$ ${\ displaystyle f (x)}$

{\ Displaystyle h (X) = - \ int _ {\ mathbb {R}} f (x) \ log f (x) \, dx.}

Zwykle można to zinterpretować jako następującą całkę Riemanna – Stieltjesa :

{\ Displaystyle h (X) = - \ int _ {\ mathbb {R}} f (x) \ log f (x) \, d \ mu (x),}

gdzie jest miara Lebesgue'a . ${\ displaystyle \ mu}$

Jeśli zamiast tego jest dyskretny, z zakresu zbiorem skończonym, to funkcja masy prawdopodobieństwa na i jest miara licząca na , możemy napisać: ${\ displaystyle X}$ ${\ displaystyle \ Omega}$ ${\ displaystyle f}$ ${\ displaystyle \ Omega}$ ${\ displaystyle \ nu}$ ${\ displaystyle \ Omega}$

{\ Displaystyle \ mathrm {H} (X) = - \ suma _ {x \ in \ Omega} f (x) \ log f (x) = - \ int _ {\ Omega} f (x) \ log f ( x) \, d \ nu (x).}

Wyrażenie całkowe i koncepcja ogólna są identyczne w przypadku ciągłym; jedyną różnicą jest zastosowana miara. W obu przypadkach, funkcja gęstości prawdopodobieństwa jest pochodną Radona-Nikodyma w miarę prawdopodobieństwa w odniesieniu do środka w stosunku do którego jest całka wykonania. ${\ displaystyle f}$

Jeśli jest miara prawdopodobieństwa wywołana przez , to całkę można również przyjąć bezpośrednio w odniesieniu do : ${\ displaystyle P}$ ${\ displaystyle X}$ ${\ displaystyle P}$

{\ Displaystyle h (X) = - \ int _ {\ Omega} \ log {\ Frac {\ mathrm {d} P} {\ mathrm {d} \ mu}} \, dP,}

Jeśli zamiast miary bazowej μ weźmiemy inną miarę prawdopodobieństwa , doprowadzi nas do dywergencji Kullbacka-Leiblera : niech i bądź miarą prawdopodobieństwa w tej samej przestrzeni. Następnie, jeśli jest całkowicie ciągły względem napisany pochodną Radona-Nikodyma istnieje i rozbieżność Kullback-Leiblera może być wyrażona w pełnej ogólności: ${\ displaystyle Q}$ ${\ displaystyle P}$ ${\ displaystyle Q}$ ${\ displaystyle P}$ ${\ displaystyle Q}$ ${\ Displaystyle P \ ll Q,}$ ${\ Displaystyle {\ Frac {\ mathrm {d} P} {\ mathrm {d} Q}}}$

{\ displaystyle D _ {\ operatorname {KL}} (P \ | Q) = \ int _ {\ operatorname {sup} P} {\ frac {\ mathrm {d} P} {\ mathrm {d} Q}} \ log {\ frac {\ mathrm {d} P} {\ mathrm {d} Q}} \, dQ = \ int _ {\ operatorname {sup} P} \ log {\ frac {\ mathrm {d} P} { \ mathrm {d} Q}} \, dP,}

gdzie integralne biegnie po wsparcie z uwagą, że spadły ujemny znak: dywergencja Kullback-Leiblera jest zawsze nieujemna powodu nierówności Gibbsa . ${\ displaystyle P.}$

Entropia jako „miara”

Venna na różne środki informacji związanych ze zmiennymi skorelowane X i Y . Obszar zawarty przez oba okręgi to wspólna entropia H ( X , Y ). Okrąg po lewej stronie (czerwony i cyjan) to indywidualna entropia H ( X ), przy czym czerwony to entropia warunkowa H ( X | Y ). Okrąg po prawej stronie (niebieski i cyjan) to H ( Y ), a niebieski to H ( Y | X ). Cyjan to wzajemna informacja I ( X ; Y ).

Diagram Venna miar informacji teoretycznych dla trzech zmiennych x , y i z . Każde koło reprezentuje indywidualną entropię : H ( x ) to dolne lewe kółko, H ( y ) dolne prawe, a H ( z ) to górne kółko. Przecięcia dowolnych dwóch okręgów reprezentują wzajemną informację dla dwóch powiązanych zmiennych (np. I ( x ; z ) jest żółte i szare). Suma dowolnych dwóch okręgów jest wspólną entropią dla dwóch powiązanych zmiennych (np. H ( x , y ) jest wszystkim oprócz zielonego). Łączna entropia H ( x , y , z ) wszystkich trzech zmiennych jest sumą wszystkich trzech okręgów. Jest podzielony na 7 części, przy czym czerwony, niebieski i zielony to entropie warunkowe H ( x | y , z ), H ( y | x , z ), H ( z | x , y ) odpowiednio, żółty, magenta i cyjan będący warunkowymi informacjami wzajemnymi odpowiednio I ( x ; z | y ), I ( y ; z | x ) i I ( x ; y | z ), a szary jest wielowymiarową informacją wzajemną I ( x ; y ; z ). Wielowymiarowa wzajemna informacja jest jedyną ze wszystkich, które mogą być negatywne.

Istnieje analogia między podstawowymi „ miarami ” Shannona, dotyczącymi zawartości informacji zmiennych losowych, a miarą na zbiorach. Mianowicie wspólny entropii , entropia warunkowa i wzajemna informacja może być uznany za środek o zadanej unii , ustawionej różnicy , a nastawy przecięcia odpowiednio, (str. 106-108 Reza).

Jeśli skojarzymy istnienie abstrakcyjnych zbiorów i dowolnych dyskretnych zmiennych losowych X i Y , w jakiś sposób reprezentujących informacje noszone odpowiednio przez X i Y , takie, że: ${\ displaystyle {\ tilde {X}}}$ ${\ displaystyle {\ tilde {Y}}}$

${\ displaystyle \ mu ({\ tilde {X}} \ cap {\ tilde {Y}}) = 0}$ zawsze, gdy X i Y są bezwarunkowo niezależne , i
${\ displaystyle {\ tilde {X}} = {\ tilde {Y}}}$ kiedykolwiek X i Y są takie, że jedno jest całkowicie zdeterminowane przez drugie (tj. przez bijekcję);

gdzie jest podpisana miara nad tymi zbiorami, a my ustawiamy: ${\ displaystyle \ mu}$

{\ Displaystyle {\ zaczynać {wyrównane} \ mathrm {H} (X) & = \ mu ({\ tylda {X}}), \\\ mathrm {H} (Y) & = \ mu ({\ tilde { Y}}), \\\ mathrm {H} (X, Y) & = \ mu ({\ tilde {X}} \ cup {\ tilde {Y}}), \\\ mathrm {H} (X \ mid Y) & = \ mu ({\ tylda {X}} \ setminus {\ tylda {Y}}), \\\ nazwa operatora {I} (X; Y) & = \ mu ({\ tylda {X}} \ cap {\ tilde {Y}}); \ end {aligned}}}

dowiadujemy się, że „miara” zawartości informacyjnej Shannona spełnia wszystkie postulaty i podstawowe właściwości formalnej miary ze znakiem na zbiorach, jak to zwykle ilustruje diagram informacyjny . Pozwala to na zapisanie sumy dwóch miar:

{\ Displaystyle \ mu (A) + \ mu (B) = \ mu (A \ filiżanka B) + \ mu (A \ nasadka B)}

a analogia twierdzenia Bayesa ( ) pozwala na zapisanie różnicy dwóch miar: ${\ Displaystyle \ mu (A) + \ mu (B \ setminus A) = \ mu (B) + \ mu (A \ setminus B)}$

{\ Displaystyle \ mu (A) - \ mu (B) = \ mu (A \ setminus B) - \ mu (B \ setminus A)}

W niektórych sytuacjach może to być przydatne narzędzie mnemoniczne , np

{\ Displaystyle {\ rozpocząć {wyrównane} \ Mathrm {H} (X, Y) & = \ Mathrm {H} (X) + \ Mathrm {H} (Y \ Mid X) & \ mu ({\ tilde {X }} \ cup {\ tilde {Y}}) & = \ mu ({\ tilde {X}}) + \ mu ({\ tilde {Y}} \ setminus {\ tilde {X}}) \\\ nazwa operatora {I} (X; Y) & = \ mathrm {H} (X) - \ mathrm {H} (X \ mid Y) & \ mu ({\ tilde {X}} \ cap {\ tilde {Y}} ) & = \ mu ({\ tilde {X}}) - \ mu ({\ tilde {X}} \ setminus {\ tilde {Y}}) \ end {wyrównane}}}

Należy zauważyć, że środki (wartości oczekiwanie logarytmu) prawdziwych prawdopodobieństw są nazywane „entropia” i generalnie reprezentowany przez literę H , podczas gdy inne środki są często określane jako „informacji” lub „korelacji” i generalnie reprezentowany przez literę I . Dla uproszczenia notacji litera I jest czasami używana dla wszystkich miar.

Wielowymiarowe wzajemne informacje

Pewne rozszerzenia definicji podstawowych miar informacji Shannona są konieczne, aby poradzić sobie z σ-algebrą generowaną przez zbiory, które byłyby powiązane z trzema lub większą liczbą dowolnych zmiennych losowych. (Zobacz Reza str. 106–108 dla nieformalnej, ale raczej pełnej dyskusji). Mianowicie, musi być zdefiniowana w oczywisty sposób jako entropia wspólnego rozkładu i wielowymiarowa wzajemna informacja zdefiniowana w odpowiedni sposób, abyśmy mogli ustawić: ${\ Displaystyle \ mathrm {H} (X, Y, Z, \ cdots)}$ ${\ displaystyle \ operatorname {I} (X; Y; Z; \ cdots)}$

{\ Displaystyle {\ rozpocząć {wyrównane} \ mathrm {H} (X, Y, Z, \ cdots) & = \ mu ({\ tilde {X}} \ cup {\ tilde {Y}} \ cup {\ tylda) {Z}} \ cup \ cdots), \\\ nazwa operatora {I} (X; Y; Z; \ cdots) & = \ mu ({\ tilde {X}} \ cap {\ tilde {Y}} \ cap {\ tilde {Z}} \ cap \ cdots); \ end {aligned}}}

w celu zdefiniowania miary (ze znakiem) w całej σ-algebrze. Nie ma jednej, powszechnie akceptowanej definicji wzajemnej informacji o wielu zmiennych, ale ta, która odpowiada w tym miejscu miary zbioru punktów przecięcia, pochodzi od Fano (1966: s. 57-59). Definicja jest rekurencyjna. Jako bazowego przypadku wzajemnego przekazywania informacji z pojedynczej zmiennej losowej określa się jego entropia: . Następnie ustawiliśmy ${\ displaystyle \ operatorname {I} (X) = \ mathrm {H} (X)}$ ${\ Displaystyle n \ geq 2}$

{\ displaystyle \ operatorname {ja} (X_ {1}; \ cdots; X_ {n}) = \ operatorname {ja} (X_ {1}; \ cdots; X_ {n-1}) - \ operatorname {I} (X_ {1}; \ cdots; X_ {n-1} \ mid X_ {n}),}

gdzie warunkowe wzajemne informacje są zdefiniowane jako

{\ displaystyle \ operatorname {ja} (X_ {1}; \ cdots; X_ {n-1} \ mid X_ {n}) = \ mathbb {E} _ {X_ {n}} {\ duży (} \ operatorname {I} (X_ {1}; \ cdots; X_ {n-1}) \ mid X_ {n} {\ big)}.}

Pierwszy krok w rekurencji daje definicję Shannona Wielowymiarowe informacje wzajemne (takie same jak informacje o interakcji, ale dla zmiany znaku) trzech lub więcej zmiennych losowych mogą być zarówno ujemne, jak i dodatnie: Niech X i Y będą dwoma niezależnymi uczciwymi rzutami monetą, i niech Z będzie ich wyłącznością lub . Następnie trochę. ${\ Displaystyle \ operatorname {ja} (X_ {1}; X_ {2}) = \ operatorname {H} (X_ {1}) - \ operatorname {H} (X_ {1} \ mid X_ {2}). }$ ${\ displaystyle \ operatorname {I} (X; Y; Z) = - 1}$

Możliwe jest wiele innych wariacji dla trzech lub więcej zmiennych losowych: na przykład jest wzajemną informacją o wspólnym rozkładzie X i Y względem Z i można je interpretować jako Wiele bardziej skomplikowanych wyrażeń można zbudować w ten sposób i nadal mają one znaczenie , np. lub ${\ displaystyle \ operatorname {I} (X, Y; Z)}$ ${\ displaystyle \ mu (({\ tilde {X}} \ cup {\ tilde {Y}}) \ cap {\ tilde {Z}}).}$ ${\ displaystyle \ operatorname {I} (X, Y; Z \ mid W),}$ ${\ Displaystyle \ mathrm {H} (X, Z \ środkowy W, Y).}$

Bibliografia

Thomas M. Cover i Joy A. Thomas. Elementy teorii informacji , wydanie drugie, 2006. New Jersey: Wiley and Sons. ISBN 978-0-471-24195-9 .
Fazlollah M. Reza. Wprowadzenie do teorii informacji . Nowy Jork: McGraw – Hill 1961. Nowy Jork: Dover 1994. ISBN 0-486-68210-2
Fano, RM (1966), Przekazywanie informacji: statystyczna teoria komunikacji , MIT Press , ISBN 978-0-262-56169-3 , OCLC 804123877
RW Yeung, „O entropii, nierównościach informacyjnych i grupach”. PS

Languages

In other projects

Teoria informacji i teoria miary - Information theory and measure theory

Zawartość

Miary w teorii informacji

Entropia jako „miara”

Wielowymiarowe wzajemne informacje

Bibliografia

Zobacz też