W teorii prawdopodobieństwa , a zwłaszcza teorii informacji , warunkowy wzajemna informacja jest w swojej najprostszej formie, wartość oczekiwana od wzajemnego informowania dwóch zmiennych losowych podana wartość o jedną trzecią.
Definicja
Dla zmiennych losowych , , oraz ze zbiorami pomocniczymi , i , określamy wzajemną informację warunkową jako
Można to zapisać w postaci operatora oczekiwania: .
Tak więc jest oczekiwana (w odniesieniu do ) dywergencja Kullbacka–Leiblera z warunkowego rozkładu łącznego do iloczynu warunkowych marginesów i . Porównaj z definicją informacji wzajemnej .
Jeśli chodzi o pmf dla dystrybucji dyskretnych
Dla dyskretnych zmiennych losowych , , oraz ze zbiorami pomocniczymi , i , wzajemne warunkowe informacje są następujące:
gdzie marginalne, wspólne i/lub warunkowe funkcje masy prawdopodobieństwa są oznaczone przez z odpowiednim indeksem dolnym. Można to uprościć jako
Jeśli chodzi o pdfy do ciągłych dystrybucji
Dla (bezwzględnie) ciągłych zmiennych losowych , , oraz ze zbiorami pomocniczymi , i , wzajemna informacja warunkowa jest następująca
gdzie marginalne, wspólne i/lub warunkowe funkcje gęstości prawdopodobieństwa są oznaczone przez z odpowiednim indeksem dolnym. Można to uprościć jako
Niektóre tożsamości
Alternatywnie możemy pisać w kategoriach połączonych i warunkowych entropii jako
Można to przepisać, aby pokazać jego związek z wzajemnymi informacjami
zwykle przearanżowane jako reguła łańcucha dla wzajemnych informacji
lub
Inną równoważną formą powyższego jest
Podobnie jak wzajemna informacja, warunkowa wzajemna informacja może być wyrażona jako rozbieżność Kullbacka-Leiblera :
Lub jako wartość oczekiwaną prostszych rozbieżności Kullbacka-Leiblera:
-
,
-
.
Bardziej ogólna definicja
Bardziej ogólna definicja warunkowej informacji wzajemnej, mająca zastosowanie do zmiennych losowych o ciągłym lub innym dowolnym rozkładzie, będzie zależeć od koncepcji regularnego prawdopodobieństwa warunkowego . (Zobacz też.)
Niech będzie przestrzenią prawdopodobieństwa , a zmienne losowe , , i każda z nich będzie zdefiniowana jako funkcja borelowska z pewnej przestrzeni stanów obdarzonych strukturą topologiczną.
Rozważ miarę borelowską (na algebrze σ generowanej przez zbiory otwarte) w przestrzeni stanów każdej zmiennej losowej zdefiniowanej przez przypisanie każdemu zbiorowi borelowskiemu miary jego obrazu wstępnego w . Nazywa się to miarą pushforward . Wsparcie zmiennej losowej definiuje się jako topologiczne wsparcie tej miary, tj.
Teraz możemy formalnie zdefiniować miarę prawdopodobieństwa warunkowego, biorąc pod uwagę wartość jednej (lub, poprzez topologię iloczynu , większej liczby) zmiennych losowych. Niech będzie mierzalnym podzbiorem (ie ) i niech Wtedy, korzystając z twierdzenia o dezintegracji :
gdzie ograniczenie jest przejmowane otwartych dzielnicach o , jak one mogą stać się dowolnie mniejszy w stosunku do zadanej włączenia .
Na koniec możemy zdefiniować wzajemną informację warunkową poprzez integrację Lebesgue'a :
gdzie całka jest logarytmem pochodnej Radona-Nikodyma obejmującej niektóre z miar prawdopodobieństwa warunkowego, które właśnie zdefiniowaliśmy.
Uwaga dotycząca notacji
W wyrażeniu takim jak i niekoniecznie musi być ograniczone do reprezentowania pojedynczych zmiennych losowych, ale może również reprezentować łączny rozkład dowolnego zbioru zmiennych losowych zdefiniowanych w tej samej przestrzeni prawdopodobieństwa . Jak to zwykle bywa w rachunku prawdopodobieństwa , możemy użyć przecinka do oznaczenia takiego łącznego rozkładu, np. stąd użycie średnika (lub czasami dwukropka lub nawet klina ) do oddzielenia głównych argumentów symbolu wzajemnej informacji. (Takie rozróżnienie nie jest konieczne w symbolu dla wspólnej entropii , ponieważ łączna entropia dowolnej liczby zmiennych losowych jest taka sama jak entropia ich wspólnego rozkładu).
Nieruchomości
Nienegatywność
To zawsze prawda
-
,
dla dyskretnych, wspólnie rozłożonych zmiennych losowych , oraz . Wynik ten został wykorzystany jako podstawowy element budulcowy do udowodnienia innych nierówności w teorii informacji , w szczególności tych znanych jako nierówności typu Shannona. Warunkowa informacja wzajemna jest również nieujemna dla ciągłych zmiennych losowych w określonych warunkach regularności.
Informacje o interakcji
Uwarunkowanie na trzeciej zmiennej losowej może zwiększać lub zmniejszać wzajemną informację, czyli różnica , zwana informacją o interakcji , może być dodatnia, ujemna lub zerowa. Dzieje się tak nawet wtedy, gdy zmienne losowe są parami niezależne. Tak jest w przypadku, gdy:
w takim przypadku , i są parami niezależne , a w szczególności , ale
Zasada łańcucha wzajemnej informacji
Informacje o interakcji
Warunkowa informacja wzajemna służy do indukcyjnego definiowania informacji o interakcji , uogólnienia wzajemnych informacji, w następujący sposób:
gdzie
Ponieważ warunkowa informacja wzajemna może być większa lub mniejsza niż jej bezwarunkowy odpowiednik, informacja o interakcji może być dodatnia, ujemna lub zerowa, co utrudnia interpretację.
Bibliografia
-
^
Wyner AD (1978). „Definicja warunkowej informacji wzajemnej dla dowolnych zespołów” . Informacja i kontrola . 38 (1): 51–59. doi : 10.1016/s0019-9958(78)90026-8 .
-
^ Dobrushin, RL (1959). „Ogólne sformułowanie głównego twierdzenia Shannona w teorii informacji”. Mata Uspechi. Nauka . 14 : 3–104.
-
^ Okładka, Tomasz ; Tomasz, Radość A. (2006). Elementy teorii informacji (wyd. 2). Nowy Jork: Wiley-Interscience . Numer ISBN 0-471-24195-4.
-
^ Regularne prawdopodobieństwo warunkowe na PlanetMath
-
^ D. Leao, Jr. i in. Prawdopodobieństwo warunkowe regularne, rozkład prawdopodobieństwa i przestrzenie Radona. Proyeccione. Cz. 23, nr 1, s. 15–29, maj 2004, Universidad Católica del Norte, Antofagasta, Chile PDF
-
^ Polanskij, Jurij; Wu, Yihong (2017). Notatki do wykładów z teorii informacji (PDF) . str. 30.