Teoria informacji i teoria miary - Information theory and measure theory

W artykule omówiono związek teorii informacji (dział matematyki zajmujący się transmisją, przetwarzaniem i przechowywaniem informacji ) z teorią miary (działem matematyki związanym z integracją i prawdopodobieństwem ).

Miary w teorii informacji

Wiele pojęć w teorii informacji ma oddzielne definicje i formuły dla przypadków ciągłych i dyskretnych . Na przykład entropia jest zwykle definiowana dla dyskretnych zmiennych losowych, podczas gdy dla ciągłych zmiennych losowych używa się pokrewnej koncepcji entropii różniczkowej , napisanej (patrz Cover i Thomas, 2006, rozdział 8). Oba te pojęcia są oczekiwaniami matematycznymi , ale oczekiwanie jest definiowane za pomocą całki dla przypadku ciągłego i sumy dla przypadku dyskretnego.

Te oddzielne definicje mogą być ściślej powiązane pod względem teorii miary . W przypadku dyskretnych zmiennych losowych, funkcje masy prawdopodobieństwa można uznać za funkcje gęstości w odniesieniu do miary zliczania. Myślenie o całce i sumie jako o integracji w przestrzeni miar pozwala na ujednolicone traktowanie.

Rozważ wzór na entropię różniczkową ciągłej zmiennej losowej z zakresem i funkcją gęstości prawdopodobieństwa :

Zwykle można to zinterpretować jako następującą całkę Riemanna – Stieltjesa :

gdzie jest miara Lebesgue'a .

Jeśli zamiast tego jest dyskretny, z zakresu zbiorem skończonym, to funkcja masy prawdopodobieństwa na i jest miara licząca na , możemy napisać:

Wyrażenie całkowe i koncepcja ogólna są identyczne w przypadku ciągłym; jedyną różnicą jest zastosowana miara. W obu przypadkach, funkcja gęstości prawdopodobieństwa jest pochodną Radona-Nikodyma w miarę prawdopodobieństwa w odniesieniu do środka w stosunku do którego jest całka wykonania.

Jeśli jest miara prawdopodobieństwa wywołana przez , to całkę można również przyjąć bezpośrednio w odniesieniu do :

Jeśli zamiast miary bazowej μ weźmiemy inną miarę prawdopodobieństwa , doprowadzi nas do dywergencji Kullbacka-Leiblera : niech i bądź miarą prawdopodobieństwa w tej samej przestrzeni. Następnie, jeśli jest całkowicie ciągły względem napisany pochodną Radona-Nikodyma istnieje i rozbieżność Kullback-Leiblera może być wyrażona w pełnej ogólności:

gdzie integralne biegnie po wsparcie z uwagą, że spadły ujemny znak: dywergencja Kullback-Leiblera jest zawsze nieujemna powodu nierówności Gibbsa .

Entropia jako „miara”

Venna na różne środki informacji związanych ze zmiennymi skorelowane X i Y . Obszar zawarty przez oba okręgi to wspólna entropia H ( X , Y ). Okrąg po lewej stronie (czerwony i cyjan) to indywidualna entropia H ( X ), przy czym czerwony to entropia warunkowa H ( X | Y ). Okrąg po prawej stronie (niebieski i cyjan) to H ( Y ), a niebieski to H ( Y | X ). Cyjan to wzajemna informacja I ( X ; Y ).
Diagram Venna miar informacji teoretycznych dla trzech zmiennych x , y i z . Każde koło reprezentuje indywidualną entropię : H ( x ) to dolne lewe kółko, H ( y ) dolne prawe, a H ( z ) to górne kółko. Przecięcia dowolnych dwóch okręgów reprezentują wzajemną informację dla dwóch powiązanych zmiennych (np. I ( x ; z ) jest żółte i szare). Suma dowolnych dwóch okręgów jest wspólną entropią dla dwóch powiązanych zmiennych (np. H ( x , y ) jest wszystkim oprócz zielonego). Łączna entropia H ( x , y , z ) wszystkich trzech zmiennych jest sumą wszystkich trzech okręgów. Jest podzielony na 7 części, przy czym czerwony, niebieski i zielony to entropie warunkowe H ( x | y , z ), H ( y | x , z ), H ( z | x , y ) odpowiednio, żółty, magenta i cyjan będący warunkowymi informacjami wzajemnymi odpowiednio I ( x ; z | y ), I ( y ; z | x ) i I ( x ; y | z ), a szary jest wielowymiarową informacją wzajemną I ( x ; y ; z ). Wielowymiarowa wzajemna informacja jest jedyną ze wszystkich, które mogą być negatywne.

Istnieje analogia między podstawowymi „ miarami Shannona, dotyczącymi zawartości informacji zmiennych losowych, a miarą na zbiorach. Mianowicie wspólny entropii , entropia warunkowa i wzajemna informacja może być uznany za środek o zadanej unii , ustawionej różnicy , a nastawy przecięcia odpowiednio, (str. 106-108 Reza).

Jeśli skojarzymy istnienie abstrakcyjnych zbiorów i dowolnych dyskretnych zmiennych losowych X i Y , w jakiś sposób reprezentujących informacje noszone odpowiednio przez X i Y , takie, że:

  • zawsze, gdy X i Y są bezwarunkowo niezależne , i
  • kiedykolwiek X i Y są takie, że jedno jest całkowicie zdeterminowane przez drugie (tj. przez bijekcję);

gdzie jest podpisana miara nad tymi zbiorami, a my ustawiamy:

dowiadujemy się, że „miara” zawartości informacyjnej Shannona spełnia wszystkie postulaty i podstawowe właściwości formalnej miary ze znakiem na zbiorach, jak to zwykle ilustruje diagram informacyjny . Pozwala to na zapisanie sumy dwóch miar:

a analogia twierdzenia Bayesa ( ) pozwala na zapisanie różnicy dwóch miar:

W niektórych sytuacjach może to być przydatne narzędzie mnemoniczne , np

Należy zauważyć, że środki (wartości oczekiwanie logarytmu) prawdziwych prawdopodobieństw są nazywane „entropia” i generalnie reprezentowany przez literę H , podczas gdy inne środki są często określane jako „informacji” lub „korelacji” i generalnie reprezentowany przez literę I . Dla uproszczenia notacji litera I jest czasami używana dla wszystkich miar.

Wielowymiarowe wzajemne informacje

Pewne rozszerzenia definicji podstawowych miar informacji Shannona są konieczne, aby poradzić sobie z σ-algebrą generowaną przez zbiory, które byłyby powiązane z trzema lub większą liczbą dowolnych zmiennych losowych. (Zobacz Reza str. 106–108 dla nieformalnej, ale raczej pełnej dyskusji). Mianowicie, musi być zdefiniowana w oczywisty sposób jako entropia wspólnego rozkładu i wielowymiarowa wzajemna informacja zdefiniowana w odpowiedni sposób, abyśmy mogli ustawić:

w celu zdefiniowania miary (ze znakiem) w całej σ-algebrze. Nie ma jednej, powszechnie akceptowanej definicji wzajemnej informacji o wielu zmiennych, ale ta, która odpowiada w tym miejscu miary zbioru punktów przecięcia, pochodzi od Fano (1966: s. 57-59). Definicja jest rekurencyjna. Jako bazowego przypadku wzajemnego przekazywania informacji z pojedynczej zmiennej losowej określa się jego entropia: . Następnie ustawiliśmy

gdzie warunkowe wzajemne informacje są zdefiniowane jako

Pierwszy krok w rekurencji daje definicję Shannona Wielowymiarowe informacje wzajemne (takie same jak informacje o interakcji, ale dla zmiany znaku) trzech lub więcej zmiennych losowych mogą być zarówno ujemne, jak i dodatnie: Niech X i Y będą dwoma niezależnymi uczciwymi rzutami monetą, i niech Z będzie ich wyłącznością lub . Następnie trochę.

Możliwe jest wiele innych wariacji dla trzech lub więcej zmiennych losowych: na przykład jest wzajemną informacją o wspólnym rozkładzie X i Y względem Z i można je interpretować jako Wiele bardziej skomplikowanych wyrażeń można zbudować w ten sposób i nadal mają one znaczenie , np. lub

Bibliografia

  • Thomas M. Cover i Joy A. Thomas. Elementy teorii informacji , wydanie drugie, 2006. New Jersey: Wiley and Sons. ISBN   978-0-471-24195-9 .
  • Fazlollah M. Reza. Wprowadzenie do teorii informacji . Nowy Jork: McGraw – Hill 1961. Nowy Jork: Dover 1994. ISBN   0-486-68210-2
  • Fano, RM (1966), Przekazywanie informacji: statystyczna teoria komunikacji , MIT Press , ISBN   978-0-262-56169-3 , OCLC   804123877
  • RW Yeung, „O entropii, nierównościach informacyjnych i grupach”. PS

Zobacz też