Warunkowe informacje wzajemne - Conditional mutual information

Diagram Venna miar informacji teoretycznej dla trzech zmiennych , i , reprezentowanych odpowiednio przez lewy dolny, prawy dolny i górny okrąg. Warunkowe informacje wzajemne , i są reprezentowane odpowiednio przez regiony żółty, cyjan i magenta.

W teorii prawdopodobieństwa , a zwłaszcza teorii informacji , warunkowy wzajemna informacja jest w swojej najprostszej formie, wartość oczekiwana od wzajemnego informowania dwóch zmiennych losowych podana wartość o jedną trzecią.

Definicja

Dla zmiennych losowych , , oraz ze zbiorami pomocniczymi , i , określamy wzajemną informację warunkową jako

Można to zapisać w postaci operatora oczekiwania: .

Tak więc jest oczekiwana (w odniesieniu do ) dywergencja Kullbacka–Leiblera z warunkowego rozkładu łącznego do iloczynu warunkowych marginesów i . Porównaj z definicją informacji wzajemnej .

Jeśli chodzi o pmf dla dystrybucji dyskretnych

Dla dyskretnych zmiennych losowych , , oraz ze zbiorami pomocniczymi , i , wzajemne warunkowe informacje są następujące:

gdzie marginalne, wspólne i/lub warunkowe funkcje masy prawdopodobieństwa są oznaczone przez z odpowiednim indeksem dolnym. Można to uprościć jako

Jeśli chodzi o pdfy do ciągłych dystrybucji

Dla (bezwzględnie) ciągłych zmiennych losowych , , oraz ze zbiorami pomocniczymi , i , wzajemna informacja warunkowa jest następująca

gdzie marginalne, wspólne i/lub warunkowe funkcje gęstości prawdopodobieństwa są oznaczone przez z odpowiednim indeksem dolnym. Można to uprościć jako

Niektóre tożsamości

Alternatywnie możemy pisać w kategoriach połączonych i warunkowych entropii jako

Można to przepisać, aby pokazać jego związek z wzajemnymi informacjami

zwykle przearanżowane jako reguła łańcucha dla wzajemnych informacji

lub

Inną równoważną formą powyższego jest


Podobnie jak wzajemna informacja, warunkowa wzajemna informacja może być wyrażona jako rozbieżność Kullbacka-Leiblera :

Lub jako wartość oczekiwaną prostszych rozbieżności Kullbacka-Leiblera:

,
.

Bardziej ogólna definicja

Bardziej ogólna definicja warunkowej informacji wzajemnej, mająca zastosowanie do zmiennych losowych o ciągłym lub innym dowolnym rozkładzie, będzie zależeć od koncepcji regularnego prawdopodobieństwa warunkowego . (Zobacz też.)

Niech będzie przestrzenią prawdopodobieństwa , a zmienne losowe , , i każda z nich będzie zdefiniowana jako funkcja borelowska z pewnej przestrzeni stanów obdarzonych strukturą topologiczną.

Rozważ miarę borelowską (na algebrze σ generowanej przez zbiory otwarte) w przestrzeni stanów każdej zmiennej losowej zdefiniowanej przez przypisanie każdemu zbiorowi borelowskiemu miary jego obrazu wstępnego w . Nazywa się to miarą pushforward . Wsparcie zmiennej losowej definiuje się jako topologiczne wsparcie tej miary, tj.

Teraz możemy formalnie zdefiniować miarę prawdopodobieństwa warunkowego, biorąc pod uwagę wartość jednej (lub, poprzez topologię iloczynu , większej liczby) zmiennych losowych. Niech będzie mierzalnym podzbiorem (ie ) i niech Wtedy, korzystając z twierdzenia o dezintegracji :

gdzie ograniczenie jest przejmowane otwartych dzielnicach o , jak one mogą stać się dowolnie mniejszy w stosunku do zadanej włączenia .

Na koniec możemy zdefiniować wzajemną informację warunkową poprzez integrację Lebesgue'a :

gdzie całka jest logarytmem pochodnej Radona-Nikodyma obejmującej niektóre z miar prawdopodobieństwa warunkowego, które właśnie zdefiniowaliśmy.

Uwaga dotycząca notacji

W wyrażeniu takim jak i niekoniecznie musi być ograniczone do reprezentowania pojedynczych zmiennych losowych, ale może również reprezentować łączny rozkład dowolnego zbioru zmiennych losowych zdefiniowanych w tej samej przestrzeni prawdopodobieństwa . Jak to zwykle bywa w rachunku prawdopodobieństwa , możemy użyć przecinka do oznaczenia takiego łącznego rozkładu, np. stąd użycie średnika (lub czasami dwukropka lub nawet klina ) do oddzielenia głównych argumentów symbolu wzajemnej informacji. (Takie rozróżnienie nie jest konieczne w symbolu dla wspólnej entropii , ponieważ łączna entropia dowolnej liczby zmiennych losowych jest taka sama jak entropia ich wspólnego rozkładu).

Nieruchomości

Nienegatywność

To zawsze prawda

,

dla dyskretnych, wspólnie rozłożonych zmiennych losowych , oraz . Wynik ten został wykorzystany jako podstawowy element budulcowy do udowodnienia innych nierówności w teorii informacji , w szczególności tych znanych jako nierówności typu Shannona. Warunkowa informacja wzajemna jest również nieujemna dla ciągłych zmiennych losowych w określonych warunkach regularności.

Informacje o interakcji

Uwarunkowanie na trzeciej zmiennej losowej może zwiększać lub zmniejszać wzajemną informację, czyli różnica , zwana informacją o interakcji , może być dodatnia, ujemna lub zerowa. Dzieje się tak nawet wtedy, gdy zmienne losowe są parami niezależne. Tak jest w przypadku, gdy:

w takim przypadku , i są parami niezależne , a w szczególności , ale

Zasada łańcucha wzajemnej informacji

Informacje o interakcji

Warunkowa informacja wzajemna służy do indukcyjnego definiowania informacji o interakcji , uogólnienia wzajemnych informacji, w następujący sposób:

gdzie

Ponieważ warunkowa informacja wzajemna może być większa lub mniejsza niż jej bezwarunkowy odpowiednik, informacja o interakcji może być dodatnia, ujemna lub zerowa, co utrudnia interpretację.

Bibliografia

  1. ^ Wyner AD (1978). „Definicja warunkowej informacji wzajemnej dla dowolnych zespołów” . Informacja i kontrola . 38 (1): 51–59. doi : 10.1016/s0019-9958(78)90026-8 .
  2. ^ Dobrushin, RL (1959). „Ogólne sformułowanie głównego twierdzenia Shannona w teorii informacji”. Mata Uspechi. Nauka . 14 : 3–104.
  3. ^ Okładka, Tomasz ; Tomasz, Radość A. (2006). Elementy teorii informacji (wyd. 2). Nowy Jork: Wiley-Interscience . Numer ISBN 0-471-24195-4.
  4. ^ Regularne prawdopodobieństwo warunkowe na PlanetMath
  5. ^ D. Leao, Jr. i in. Prawdopodobieństwo warunkowe regularne, rozkład prawdopodobieństwa i przestrzenie Radona. Proyeccione. Cz. 23, nr 1, s. 15–29, maj 2004, Universidad Católica del Norte, Antofagasta, Chile PDF
  6. ^ Polanskij, Jurij; Wu, Yihong (2017). Notatki do wykładów z teorii informacji (PDF) . str. 30.