W artykule omówiono związek teorii informacji (dział matematyki zajmujący się transmisją, przetwarzaniem i przechowywaniem informacji ) z teorią miary (działem matematyki związanym z integracją i prawdopodobieństwem ).
Miary w teorii informacji
Wiele pojęć w teorii informacji ma oddzielne definicje i formuły dla przypadków ciągłych i dyskretnych . Na przykład entropia jest zwykle definiowana dla dyskretnych zmiennych losowych, podczas gdy dla ciągłych zmiennych losowych używa się pokrewnej koncepcji entropii różniczkowej , napisanej (patrz Cover i Thomas, 2006, rozdział 8). Oba te pojęcia są oczekiwaniami matematycznymi , ale oczekiwanie jest definiowane za pomocą całki dla przypadku ciągłego i sumy dla przypadku dyskretnego.
Te oddzielne definicje mogą być ściślej powiązane pod względem teorii miary . W przypadku dyskretnych zmiennych losowych, funkcje masy prawdopodobieństwa można uznać za funkcje gęstości w odniesieniu do miary zliczania. Myślenie o całce i sumie jako o integracji w przestrzeni miar pozwala na ujednolicone traktowanie.
Rozważ wzór na entropię różniczkową ciągłej zmiennej losowej z zakresem i funkcją gęstości prawdopodobieństwa :
Zwykle można to zinterpretować jako następującą całkę Riemanna – Stieltjesa :
gdzie jest miara Lebesgue'a .
Jeśli zamiast tego jest dyskretny, z zakresu zbiorem skończonym, to funkcja masy prawdopodobieństwa na i jest miara licząca na , możemy napisać:
Wyrażenie całkowe i koncepcja ogólna są identyczne w przypadku ciągłym; jedyną różnicą jest zastosowana miara. W obu przypadkach, funkcja gęstości prawdopodobieństwa jest pochodną Radona-Nikodyma w miarę prawdopodobieństwa w odniesieniu do środka w stosunku do którego jest całka wykonania.
Jeśli jest miara prawdopodobieństwa wywołana przez , to całkę można również przyjąć bezpośrednio w odniesieniu do :
Jeśli zamiast miary bazowej μ weźmiemy inną miarę prawdopodobieństwa , doprowadzi nas do dywergencji Kullbacka-Leiblera : niech i bądź miarą prawdopodobieństwa w tej samej przestrzeni. Następnie, jeśli jest całkowicie ciągły względem napisany pochodną Radona-Nikodyma istnieje i rozbieżność Kullback-Leiblera może być wyrażona w pełnej ogólności:
gdzie integralne biegnie po wsparcie z uwagą, że spadły ujemny znak: dywergencja Kullback-Leiblera jest zawsze nieujemna powodu nierówności Gibbsa .
Entropia jako „miara”
Venna na różne środki informacji związanych ze zmiennymi skorelowane
X i
Y . Obszar zawarty przez oba okręgi to wspólna entropia
H (
X ,
Y ). Okrąg po lewej stronie (czerwony i cyjan) to indywidualna entropia
H (
X ), przy czym czerwony to entropia warunkowa
H (
X |
Y ). Okrąg po prawej stronie (niebieski i cyjan) to
H (
Y ), a niebieski to
H (
Y |
X ). Cyjan to wzajemna informacja
I (
X ;
Y ).
Diagram Venna miar informacji teoretycznych dla trzech zmiennych
x ,
y i
z . Każde koło reprezentuje indywidualną
entropię :
H (
x ) to dolne lewe kółko,
H (
y ) dolne prawe, a
H (
z ) to górne kółko. Przecięcia dowolnych dwóch okręgów reprezentują
wzajemną informację dla dwóch powiązanych zmiennych (np.
I (
x ;
z ) jest żółte i szare). Suma dowolnych dwóch okręgów jest
wspólną entropią dla dwóch powiązanych zmiennych (np.
H (
x ,
y ) jest wszystkim oprócz zielonego). Łączna entropia
H (
x ,
y ,
z ) wszystkich trzech zmiennych jest sumą wszystkich trzech okręgów. Jest podzielony na 7 części, przy czym czerwony, niebieski i zielony to
entropie warunkowe H (
x |
y ,
z ),
H (
y |
x ,
z ),
H (
z |
x ,
y ) odpowiednio, żółty, magenta i cyjan będący
warunkowymi informacjami wzajemnymi odpowiednio I (
x ;
z |
y ),
I (
y ;
z |
x ) i
I (
x ;
y |
z ), a szary jest
wielowymiarową informacją wzajemną I (
x ;
y ;
z ). Wielowymiarowa wzajemna informacja jest jedyną ze wszystkich, które mogą być negatywne.
Istnieje analogia między podstawowymi „ miarami ” Shannona, dotyczącymi zawartości informacji zmiennych losowych, a miarą na zbiorach. Mianowicie wspólny entropii , entropia warunkowa i wzajemna informacja może być uznany za środek o zadanej unii , ustawionej różnicy , a nastawy przecięcia odpowiednio, (str. 106-108 Reza).
Jeśli skojarzymy istnienie abstrakcyjnych zbiorów i dowolnych dyskretnych zmiennych losowych X i Y , w jakiś sposób reprezentujących informacje noszone odpowiednio przez X i Y , takie, że:
-
zawsze, gdy X i Y są bezwarunkowo niezależne , i
-
kiedykolwiek X i Y są takie, że jedno jest całkowicie zdeterminowane przez drugie (tj. przez bijekcję);
gdzie jest podpisana miara nad tymi zbiorami, a my ustawiamy:
dowiadujemy się, że „miara” zawartości informacyjnej Shannona spełnia wszystkie postulaty i podstawowe właściwości formalnej miary ze znakiem na zbiorach, jak to zwykle ilustruje diagram informacyjny . Pozwala to na zapisanie sumy dwóch miar:
a analogia twierdzenia Bayesa ( ) pozwala na zapisanie różnicy dwóch miar:
W niektórych sytuacjach może to być przydatne narzędzie mnemoniczne , np
Należy zauważyć, że środki (wartości oczekiwanie logarytmu) prawdziwych prawdopodobieństw są nazywane „entropia” i generalnie reprezentowany przez literę H , podczas gdy inne środki są często określane jako „informacji” lub „korelacji” i generalnie reprezentowany przez literę I . Dla uproszczenia notacji litera I jest czasami używana dla wszystkich miar.
Wielowymiarowe wzajemne informacje
Pewne rozszerzenia definicji podstawowych miar informacji Shannona są konieczne, aby poradzić sobie z σ-algebrą generowaną przez zbiory, które byłyby powiązane z trzema lub większą liczbą dowolnych zmiennych losowych. (Zobacz Reza str. 106–108 dla nieformalnej, ale raczej pełnej dyskusji). Mianowicie, musi być zdefiniowana w oczywisty sposób jako entropia wspólnego rozkładu i wielowymiarowa wzajemna informacja zdefiniowana w odpowiedni sposób, abyśmy mogli ustawić:
w celu zdefiniowania miary (ze znakiem) w całej σ-algebrze. Nie ma jednej, powszechnie akceptowanej definicji wzajemnej informacji o wielu zmiennych, ale ta, która odpowiada w tym miejscu miary zbioru punktów przecięcia, pochodzi od Fano (1966: s. 57-59). Definicja jest rekurencyjna. Jako bazowego przypadku wzajemnego przekazywania informacji z pojedynczej zmiennej losowej określa się jego entropia: . Następnie ustawiliśmy
gdzie warunkowe wzajemne informacje są zdefiniowane jako
Pierwszy krok w rekurencji daje definicję Shannona Wielowymiarowe informacje wzajemne (takie same jak informacje o interakcji, ale dla zmiany znaku) trzech lub więcej zmiennych losowych mogą być zarówno ujemne, jak i dodatnie: Niech X i Y będą dwoma niezależnymi uczciwymi rzutami monetą, i niech Z będzie ich wyłącznością lub . Następnie trochę.
Możliwe jest wiele innych wariacji dla trzech lub więcej zmiennych losowych: na przykład jest wzajemną informacją o wspólnym rozkładzie X i Y względem Z i można je interpretować jako Wiele bardziej skomplikowanych wyrażeń można zbudować w ten sposób i nadal mają one znaczenie , np. lub
Bibliografia
Zobacz też