Warunkowe informacje wzajemne - Conditional mutual information

Diagram Venna miar informacji teoretycznej dla trzech zmiennych , i , reprezentowanych odpowiednio przez lewy dolny, prawy dolny i górny okrąg. Warunkowe informacje wzajemne , i są reprezentowane odpowiednio przez regiony żółty, cyjan i magenta.

x

y

z

{\ Displaystyle I (x; z | y)}

{\ Displaystyle I (y; z | x)}

{\ Displaystyle I (x; y | z)}

W teorii prawdopodobieństwa , a zwłaszcza teorii informacji , warunkowy wzajemna informacja jest w swojej najprostszej formie, wartość oczekiwana od wzajemnego informowania dwóch zmiennych losowych podana wartość o jedną trzecią.

Definicja

Dla zmiennych losowych , , oraz ze zbiorami pomocniczymi , i , określamy wzajemną informację warunkową jako ${\ Displaystyle X}$ ${\ Displaystyle Y}$ ${\ Displaystyle Z}$ ${\mathcal {X}}$ ${\mathcal {Y}}$ ${\ Displaystyle {\ Mathcal {Z}}}$

${\ Displaystyle I (X; Y | Z) = \ int _ {\ mathcal {Z}} D_ {\ operatorname {KL}} (P_ {(X, Y) | Z} \ | P_ {X | Z} \ czasami P_{Y|Z})dP_{Z}}$

Można to zapisać w postaci operatora oczekiwania: . ${\ Displaystyle I (X; Y | Z) = \ mathbb {E} _ {Z} [D_ {\ operatorname {KL}} (P_ {(X, Y) | Z} \ | P_ {X | Z} \ czasami P_{Y|Z})]}$

Tak więc jest oczekiwana (w odniesieniu do ) dywergencja Kullbacka–Leiblera z warunkowego rozkładu łącznego do iloczynu warunkowych marginesów i . Porównaj z definicją informacji wzajemnej . ${\ Displaystyle I (X; Y | Z)}$ ${\ Displaystyle Z}$ ${\ Displaystyle P_ {(X, Y) | Z}}$ ${\ Displaystyle P_ {X | Z}}$ ${\ Displaystyle P_ {Y | Z}}$

Jeśli chodzi o pmf dla dystrybucji dyskretnych

Dla dyskretnych zmiennych losowych , , oraz ze zbiorami pomocniczymi , i , wzajemne warunkowe informacje są następujące: ${\ Displaystyle X}$ ${\ Displaystyle Y}$ ${\ Displaystyle Z}$ ${\mathcal {X}}$ ${\mathcal {Y}}$ ${\ Displaystyle {\ Mathcal {Z}}}$ ${\ Displaystyle I (X; Y | Z)}$

{\ Displaystyle I (X; Y | Z) = \ suma _ {z \ w {\ mathcal {Z}}} p_ {Z} (z) \ suma _ {y \ w {\ mathcal {Y}}} \ suma _{x\in {\mathcal {X}}}p_{X,Y|Z}(x,y|z)\log {\frac {p_{X,Y|Z}(x,y|z) }{p_{X|Z}(x|z)p_{Y|Z}(y|z)}}}

gdzie marginalne, wspólne i/lub warunkowe funkcje masy prawdopodobieństwa są oznaczone przez z odpowiednim indeksem dolnym. Można to uprościć jako $p$

${\ Displaystyle I (X; Y | Z) = \ suma _ {z \ w {\ mathcal {Z}}} \ suma _ {y \ w {\ mathcal {Y}}} \ suma _ {x \ w { \mathcal {X}}}p_{X,Y,Z}(x,y,z)\log {\frac {p_{Z}(z)p_{X,Y,Z}(x,y,z) }{p_{X,Z}(x,z)p_{Y,Z}(y,z)}}.}$

Jeśli chodzi o pdfy do ciągłych dystrybucji

Dla (bezwzględnie) ciągłych zmiennych losowych , , oraz ze zbiorami pomocniczymi , i , wzajemna informacja warunkowa jest następująca ${\ Displaystyle X}$ ${\ Displaystyle Y}$ ${\ Displaystyle Z}$ ${\mathcal {X}}$ ${\mathcal {Y}}$ ${\ Displaystyle {\ Mathcal {Z}}}$ ${\ Displaystyle I (X; Y | Z)}$

{\ Displaystyle I (X; Y | Z) = \ int _ {\ mathcal {Z}} {\ bigg (} \ int _ {\ mathcal {Y}} \ int _ {\ mathcal {X}} \ log \ lewo({\frac {p_{X,Y|Z}(x,y|z)}{p_{X|Z}(x|z)p_{Y|Z}(y|z)}}\prawo) p_{X,Y|Z}(x,y|z)dxdy{\bigg )}p_{Z}(z)dz}

gdzie marginalne, wspólne i/lub warunkowe funkcje gęstości prawdopodobieństwa są oznaczone przez z odpowiednim indeksem dolnym. Można to uprościć jako $p$

${\ Displaystyle I (X; Y | Z) = \ int _ {\ mathcal {Z}} \ int _ {\ mathcal {Y}} \ int _ {\ mathcal {X}} \ log \ lewo ({\ Frac {p_{Z}(z)p_{X,Y,Z}(x,y,z)}{p_{X,Z}(x,z)p_{Y,Z}(y,z)}}\ po prawej)p_{X,Y,Z}(x,y,z)dxdydz.}$

Niektóre tożsamości

Alternatywnie możemy pisać w kategoriach połączonych i warunkowych entropii jako

{\ Displaystyle {\ zacząć {wyrównany} I (X; Y | Z) i = H (X, Z) + H (Y, Z) -H (X, Y, Z) -H (Z) \ \ & = H(X|Z)-H(X|Y,Z)\\&=H(X|Z)+H(Y|Z)-H(X,Y|Z).\end{wyrównany}}}

Można to przepisać, aby pokazać jego związek z wzajemnymi informacjami

{\ Displaystyle I (X; Y | Z) = I (X; Y, Z)-I (X; Z)}

zwykle przearanżowane jako reguła łańcucha dla wzajemnych informacji

{\ Displaystyle I (X; Y, Z) = I (X; Z) + I (X; Y | Z)}

lub

{\ Displaystyle I (X; Y | Z) = I (X; Y) - (I (X; Z) - I (X; Z | Y)) \ ,.}

Inną równoważną formą powyższego jest

{\ Displaystyle {\ zacząć {wyrównany} I (X; Y | Z) i = H (Z | X) + H (X) + H (Z | Y) + H (Y) - H (Z | X, Y )-H(X,Y)-H(Z)\\&=I(X;Y)+H(Z|X)+H(Z|Y)-H(Z|X,Y)-H(Z )\end{wyrównany}}\,.}

Podobnie jak wzajemna informacja, warunkowa wzajemna informacja może być wyrażona jako rozbieżność Kullbacka-Leiblera :

{\ Displaystyle I (X; Y | Z) = D_ {\ operatorname {KL}} [p (X, Y, Z) \ | p (X | Z) p (Y | Z) p (Z)].}

Lub jako wartość oczekiwaną prostszych rozbieżności Kullbacka-Leiblera:

{\ Displaystyle I (X; Y | Z) = \ suma _ {z \ w {\ mathcal {Z}}} p (Z = z) D_ {\ operatorname {KL}} [p (X, Y | z) \|p(X|z)p(Y|z)]}

,

{\ Displaystyle I (X; Y | Z) = \ suma _ {y \ w {\ mathcal {Y}}} p (Y = y) D_ {\ operatorname {KL}} [p (X, Z | y) \|p(X|Z)p(Z|y)]}

.

Bardziej ogólna definicja

Bardziej ogólna definicja warunkowej informacji wzajemnej, mająca zastosowanie do zmiennych losowych o ciągłym lub innym dowolnym rozkładzie, będzie zależeć od koncepcji regularnego prawdopodobieństwa warunkowego . (Zobacz też.)

Niech będzie przestrzenią prawdopodobieństwa , a zmienne losowe , , i każda z nich będzie zdefiniowana jako funkcja borelowska z pewnej przestrzeni stanów obdarzonych strukturą topologiczną. ${\ Displaystyle (\ Omega {\ mathcal {F}} {\ mathfrak {P}})}$ ${\ Displaystyle X}$ ${\ Displaystyle Y}$ ${\ Displaystyle Z}$ ${\ Displaystyle \ Omega}$

Rozważ miarę borelowską (na algebrze σ generowanej przez zbiory otwarte) w przestrzeni stanów każdej zmiennej losowej zdefiniowanej przez przypisanie każdemu zbiorowi borelowskiemu miary jego obrazu wstępnego w . Nazywa się to miarą pushforward . Wsparcie zmiennej losowej definiuje się jako topologiczne wsparcie tej miary, tj. ${\mathfrak {P}}$ ${\mathcal {F}}$ ${\ Displaystyle X_ {*} {\ mathfrak {P}} = {\ mathfrak {P}} {\ duży (} X ^ {-1} (\ cdot) {\ duży}}.}$ ${\ Displaystyle \ operatorname {supp} \, X = \ operatorname {supp} \, X_ {*} {\ mathfrak {P}}.}$

Teraz możemy formalnie zdefiniować miarę prawdopodobieństwa warunkowego, biorąc pod uwagę wartość jednej (lub, poprzez topologię iloczynu , większej liczby) zmiennych losowych. Niech będzie mierzalnym podzbiorem (ie ) i niech Wtedy, korzystając z twierdzenia o dezintegracji : ${\ Displaystyle M}$ ${\ Displaystyle \ Omega,}$ ${\ Displaystyle M \ w {\ mathcal {F}},}$ ${\ Displaystyle x \ w \ operatorname {supp} \, X.}$

{\ Displaystyle {\ mathfrak {P}} (M | X = x) = \ lim _ {U \ ni x} {\ Frac {{\ mathfrak {P}} (M \ czapka \ {X \ w U \} )}{{\mathfrak {P}}(\{X\w U\})}}\qquad {\textrm {i}}\qquad {\mathfrak {P}}(M|X)=\int _{ M}d{\mathfrak {P}}{\big (}\omega |X=X(\omega ){\big )},}

gdzie ograniczenie jest przejmowane otwartych dzielnicach o , jak one mogą stać się dowolnie mniejszy w stosunku do zadanej włączenia . ${\ Displaystyle U}$ $x$

Na koniec możemy zdefiniować wzajemną informację warunkową poprzez integrację Lebesgue'a :

{\ Displaystyle I (X; Y | Z) = \ int _ {\ Omega} \ log {\ Bigl (} {\ Frac {d {\ mathfrak {P}} (\ Omega | X, Z) \ d { \mathfrak {P}}(\omega |Y,Z)}{d{\mathfrak {P}}(\omega |Z)\,d{\mathfrak {P}}(\omega |X,Y,Z) }}{\Bigr )}d{\mathfrak {P}}(\omega),}

gdzie całka jest logarytmem pochodnej Radona-Nikodyma obejmującej niektóre z miar prawdopodobieństwa warunkowego, które właśnie zdefiniowaliśmy.

Uwaga dotycząca notacji

W wyrażeniu takim jak i niekoniecznie musi być ograniczone do reprezentowania pojedynczych zmiennych losowych, ale może również reprezentować łączny rozkład dowolnego zbioru zmiennych losowych zdefiniowanych w tej samej przestrzeni prawdopodobieństwa . Jak to zwykle bywa w rachunku prawdopodobieństwa , możemy użyć przecinka do oznaczenia takiego łącznego rozkładu, np. stąd użycie średnika (lub czasami dwukropka lub nawet klina ) do oddzielenia głównych argumentów symbolu wzajemnej informacji. (Takie rozróżnienie nie jest konieczne w symbolu dla wspólnej entropii , ponieważ łączna entropia dowolnej liczby zmiennych losowych jest taka sama jak entropia ich wspólnego rozkładu). ${\ Displaystyle I (A; B | C)}$ $A$ $B$ $C$ $I(A_{0},A_{1};B_{1},B_{2},B_{3}|C_{0},C_{1}).$ ${\ Displaystyle \ klin}$

Nieruchomości

Nienegatywność

To zawsze prawda

{\ Displaystyle I (X; Y | Z) \ geq 0}

,

dla dyskretnych, wspólnie rozłożonych zmiennych losowych , oraz . Wynik ten został wykorzystany jako podstawowy element budulcowy do udowodnienia innych nierówności w teorii informacji , w szczególności tych znanych jako nierówności typu Shannona. Warunkowa informacja wzajemna jest również nieujemna dla ciągłych zmiennych losowych w określonych warunkach regularności. ${\ Displaystyle X}$ ${\ Displaystyle Y}$ ${\ Displaystyle Z}$

Informacje o interakcji

Uwarunkowanie na trzeciej zmiennej losowej może zwiększać lub zmniejszać wzajemną informację, czyli różnica , zwana informacją o interakcji , może być dodatnia, ujemna lub zerowa. Dzieje się tak nawet wtedy, gdy zmienne losowe są parami niezależne. Tak jest w przypadku, gdy: ${\ Displaystyle I (X; Y)-I (X; Y | Z)}$

{\ Displaystyle X \ SIM \ operatorname {Bernoulli} (0,5), Z \ Sim \ operatorname {Bernoulli} (0,5), \ quad Y = \ lewo \ {{\ zacząć {tablica} {ll} X i {\ tekst {jeśli }}Z=0\\1-X&{\text{if }}Z=1\end{array}}\right.}

w takim przypadku , i są parami niezależne , a w szczególności , ale

{\ Displaystyle X}

{\ Displaystyle Y}

{\ Displaystyle Z}

{\ Displaystyle I (X; Y) = 0}

{\ Displaystyle I (X; Y | Z) = 1.}

Zasada łańcucha wzajemnej informacji

{\ Displaystyle I (X; Y, Z) = I (X; Z) + I (X; Y | Z)}

Informacje o interakcji

Warunkowa informacja wzajemna służy do indukcyjnego definiowania informacji o interakcji , uogólnienia wzajemnych informacji, w następujący sposób:

{\ Displaystyle I (X_ {1}; \ ldots; X_ {n + 1}) = I (X_ {1}; \ ldots; X_ {n}) - I (X_ {1}; \ ldots; X_ {n }|X_{n+1}),}

gdzie

{\ Displaystyle I (X_ {1}; \ ldots; X_ {n} | X_ {n + 1}) = \ mathbb {E} _ {X_ {n + 1}} [D_ {\ operatorname {KL}} ( P_{(X_{1},\ldots ,X_{n})|X_{n+1}}\|P_{X_{1}|X_{n+1}}\otimes \cdots \otimes P_{X_{ n}|X_{n+1}})].}

Ponieważ warunkowa informacja wzajemna może być większa lub mniejsza niż jej bezwarunkowy odpowiednik, informacja o interakcji może być dodatnia, ujemna lub zerowa, co utrudnia interpretację.

Bibliografia

^ Wyner AD (1978). „Definicja warunkowej informacji wzajemnej dla dowolnych zespołów” . Informacja i kontrola . 38 (1): 51–59. doi : 10.1016/s0019-9958(78)90026-8 .
^ Dobrushin, RL (1959). „Ogólne sformułowanie głównego twierdzenia Shannona w teorii informacji”. Mata Uspechi. Nauka . 14 : 3–104.
^ Okładka, Tomasz ; Tomasz, Radość A. (2006). Elementy teorii informacji (wyd. 2). Nowy Jork: Wiley-Interscience . Numer ISBN 0-471-24195-4.
^ Regularne prawdopodobieństwo warunkowe na PlanetMath
^ D. Leao, Jr. i in. Prawdopodobieństwo warunkowe regularne, rozkład prawdopodobieństwa i przestrzenie Radona. Proyeccione. Cz. 23, nr 1, s. 15–29, maj 2004, Universidad Católica del Norte, Antofagasta, Chile PDF
^ Polanskij, Jurij; Wu, Yihong (2017). Notatki do wykładów z teorii informacji (PDF) . str. 30.

[Wyner1978-1] Wyner AD (1978). „Definicja warunkowej informacji wzajemnej dla dowolnych zespołów” . Informacja i kontrola . 38 (1): 51–59. doi : 10.1016/s0019-9958(78)90026-8 .

[Dobrushin1959-2] Dobrushin, RL (1959). „Ogólne sformułowanie głównego twierdzenia Shannona w teorii informacji”. Mata Uspechi. Nauka . 14 : 3–104.

[3] Okładka, Tomasz ; Tomasz, Radość A. (2006). Elementy teorii informacji (wyd. 2). Nowy Jork: Wiley-Interscience . Numer ISBN 0-471-24195-4.

[4] Regularne prawdopodobieństwo warunkowe na PlanetMath

[5] D. Leao, Jr. i in. Prawdopodobieństwo warunkowe regularne, rozkład prawdopodobieństwa i przestrzenie Radona. Proyeccione. Cz. 23, nr 1, s. 15–29, maj 2004, Universidad Católica del Norte, Antofagasta, Chile PDF

[6] Polanskij, Jurij; Wu, Yihong (2017). Notatki do wykładów z teorii informacji (PDF) . str. 30.

Languages

In other projects

Warunkowe informacje wzajemne - Conditional mutual information

Zawartość

Definicja

Jeśli chodzi o pmf dla dystrybucji dyskretnych

Jeśli chodzi o pdfy do ciągłych dystrybucji

Niektóre tożsamości

Bardziej ogólna definicja

Uwaga dotycząca notacji

Nieruchomości

Nienegatywność

Informacje o interakcji

Zasada łańcucha wzajemnej informacji

Informacje o interakcji

Bibliografia