Wzajemne informacje - Mutual information

Diagram Venna przedstawiający addytywne i subtraktywne relacje różnych miar informacji związanych ze skorelowanymi zmiennymi i . Obszar zawarty przez oba koła to wspólna entropia . Okrąg po lewej stronie (czerwony i fioletowy) to indywidualna entropia , a czerwony to entropia warunkowa . Okrąg po prawej (niebieski i fioletowy) to , a niebieski to . Fiolet to wzajemna informacja .

W teorii prawdopodobieństwa i teorii informacji , informacja wzajemna ( MI ) dwóch zmiennych losowych jest miarą wzajemnego uzależnienia między dwiema zmiennymi. Dokładniej, określa ilościowo „ ilość informacji ” (w jednostkach takich jak Shannons ( bity ), nats lub hartleys ) uzyskaną na temat jednej zmiennej losowej, obserwując drugą zmienną losową. Pojęcie wzajemnej informacji jest ściśle powiązane z pojęciem entropii zmiennej losowej, podstawowym pojęciem w teorii informacji, które określa ilościowo oczekiwaną „ilość informacji” przechowywaną w zmiennej losowej.

Nie ogranicza się do zmiennych losowych o wartościach rzeczywistych i zależności liniowych, takich jak współczynnik korelacji , MI jest bardziej ogólny i określa, jak różni się wspólny rozkład pary od iloczynu rozkładów krańcowych i . MI jest wartość oczekiwana od punktowej wzajemnego informowania (PMI).

Ilość ta została zdefiniowana i przeanalizowana przez Claude'a Shannona w jego przełomowym artykule „ A Mathematical Theory of Communication ”, chociaż nie nazwał tego „wzajemną informacją”. Termin ten został ukuty później przez Roberta Fano . Wzajemne informacje są również znane jako zdobywanie informacji .

Definicja

Niech będzie parą zmiennych losowych z wartościami w przestrzeni . Jeżeli ich łączny rozkład jest a rozkładami krańcowymi są i , wzajemna informacja jest zdefiniowana jako

gdzie jest rozbieżność Kullbacka-Leiblera .

Zauważ, zgodnie z właściwością dywergencji Kullbacka–Leiblera , która jest równa zero dokładnie wtedy, gdy łączny rozkład pokrywa się z iloczynem marginalnych, tj. kiedy i są niezależne (a więc obserwacja nie mówi nic o ). Ogólnie jest nieujemna, jest miarą ceny za kodowanie jako parę niezależnych zmiennych losowych, podczas gdy w rzeczywistości tak nie jest.

W zakresie PMF dla dystrybucji dyskretnych

Wzajemne informacje o dwóch wspólnie dyskretnych zmiennych losowych i jest obliczana jako suma podwójnej:

 

 

 

 

( Równanie 1 )

gdzie jest wspólny prawdopodobieństwo masa funkcja o i i i są marginalne prawdopodobieństwo funkcje masowe i odpowiednio.

Jeśli chodzi o pliki PDF do ciągłej dystrybucji

W przypadku łącznie ciągłych zmiennych losowych sumę podwójną zastępuje się całką podwójną :

 

 

 

 

( Równanie 2 )

gdzie jest wspólny prawdopodobieństwo gęstość funkcją a i a są marginalne funkcje gęstości prawdopodobieństwa i odpowiednio.

Jeżeli używana jest logarytmiczna podstawa 2, jednostkami wzajemnych informacji są bity .

Motywacja

Intuicyjnie, wzajemne informacje mierzą informacje, które i udostępniają: mierzy, jak bardzo znajomość jednej z tych zmiennych zmniejsza niepewność co do drugiej. Na przykład, jeśli i są niezależne, to wiedza nie daje żadnych informacji o i odwrotnie, więc ich wzajemne informacje wynoszą zero. Z drugiej strony, jeśli jest funkcją deterministyczną i jest funkcją deterministyczną, to wszystkie informacje przekazywane przez są współdzielone z : poznanie określa wartość i odwrotnie. W rezultacie, w tym przypadku wzajemna informacja jest taka sama jak niepewność zawarta w (lub ) sam, czyli entropii z (lub ). Co więcej, ta wzajemna informacja jest taka sama jak entropia i entropia . (Bardzo szczególnym przypadkiem jest sytuacja, w której i są tą samą zmienną losową.)

Wymiana informacji jest miarą wrodzonej zależność wyrażoną w wspólnej dystrybucji z i w stosunku do marginalnej dystrybucji i przy założeniu niezależności. Wzajemna informacja mierzy zatem zależność w następującym sensie: wtedy i tylko wtedy, gdy i są niezależnymi zmiennymi losowymi. Łatwo to zauważyć w jednym kierunku: jeśli i są niezależne, to , a zatem:

Ponadto wzajemne informacje są nieujemne ( patrz poniżej) i symetryczne ( patrz poniżej).

Stosunek do innych ilości

Nienegatywność

Wykorzystując nierówność Jensena w definicji wzajemnej informacji możemy pokazać, że jest ona nieujemna, tj

Symetria

Związek z entropią warunkową i wspólną

Wzajemne informacje można równoważnie wyrazić jako:

gdzie i są marginalne entropie , i są entropie warunkowe i jest wspólny entropia od a .

Zwróć uwagę na analogię do sumy, różnicy i przecięcia dwóch zbiorów: pod tym względem wszystkie formuły podane powyżej wynikają z diagramu Venna przedstawionego na początku artykułu.

W odniesieniu do kanału komunikacyjnego, w którym wyjście jest zaszumioną wersją wejścia , relacje te są podsumowane na rysunku:

Związki między wielkościami teoretycznymi informacji

Ponieważ jest nieujemny, w konsekwencji . Tutaj podajemy szczegółową dedukcję dla przypadku wspólnie dyskretnych zmiennych losowych:

Dowody innych tożsamości powyżej są podobne. Dowód ogólnego przypadku (nie tylko dyskretnego) jest podobny, z całkami zastępującymi sumy.

Intuicyjnie, jeśli entropia jest traktowana jako miara niepewności o zmiennej losowej, a następnie jest miarą tego, co ma nie mówić o . Jest to "wielkość niepewności pozostałej po jest znana", a stąd prawą stronę drugiej z tych równości można odczytać jako "wielkość niepewności w , minus wielkość niepewności, w której pozostaje po jest znana", co jest równoważne „ilości niepewności, w której usuwa się wiedzę ”. Potwierdza to intuicyjne znaczenie wzajemnej informacji jako ilości informacji (tj. zmniejszenia niepewności), którą znajomość jednej zmiennej zapewnia o drugiej.

Zwróć uwagę, że w przypadku dyskretnym, a zatem . W ten sposób można sformułować podstawową zasadę, że zmienna zawiera co najmniej tyle informacji o sobie, ile może dostarczyć każda inna zmienna.

Stosunek do dywergencji Kullbacka-Leiblera

W przypadku par wspólnie dyskretnych lub wspólnie ciągłych wzajemną informacją jest rozbieżność Kullbacka-Leiblera z iloczynu rozkładów krańcowych , , łącznego rozkładu , czyli

Ponadto niech będzie warunkową funkcją masy lub gęstości. Wtedy mamy tożsamość

Dowód na wspólnie dyskretne zmienne losowe jest następujący:

Podobnie tę tożsamość można ustalić dla wspólnie ciągłych zmiennych losowych.

Zauważ, że tutaj dywergencja Kullbacka-Leiblera obejmuje całkowanie tylko wartości zmiennej losowej , a wyrażenie nadal oznacza zmienną losową, ponieważ jest losowa. Tak więc wzajemna informacja może być również rozumiana jako oczekiwanie na dywergencji Kullback-Leiblera w jednoczynnikowej dystrybucji od od rozkładu warunkowego o podane : im bardziej różnią dystrybucje i są średnio, tym większy przyrost informacji .

Bayesowska estymacja wzajemnych informacji

Jeśli dostępne są próbki ze wspólnego rozkładu, można zastosować podejście bayesowskie do oszacowania wzajemnych informacji tego rozkładu. Pierwszą pracą, która to wykonała, która pokazała również, jak wykonać bayesowskie oszacowanie wielu innych właściwości informacyjno-teoretycznych poza wzajemną informacją, była. Kolejni badacze ponownie wyprowadzili i rozszerzyli tę analizę. Zobacz ostatni artykuł oparty na wcześniej specjalnie dostosowanym do szacowania wzajemnych informacji per se. Poza tym ostatnio w .

Założenia niezależności

Sformułowanie dywergencji Kullbacka-Leiblera dla wzajemnych informacji opiera się na tym, że interesuje się porównanie z całkowicie sfaktoryzowanym produktem zewnętrznym . W wielu problemach, takich jak nieujemna faktoryzacja macierzy , interesuje się mniej ekstremalnymi faktoryzacjami; konkretnie, chciałoby się porównać z aproksymacją macierzy niskiego rzędu w jakiejś nieznanej zmiennej ; to znaczy do jakiego stopnia można mieć

Alternatywnie, ktoś może być zainteresowany wiedzą, o ile więcej informacji przenosi się na jego faktoryzację. W takim przypadku nadmiar informacji, że pełny rozkład przenosi na czynniki macierzowe jest podany przez dywergencję Kullbacka-Leiblera

Konwencjonalna definicja wzajemnej informacji zostaje przywrócona w skrajnym przypadku, gdy proces ma tylko jedną wartość dla .

Wariacje

Zaproponowano kilka wariantów wzajemnej informacji, aby zaspokoić różne potrzeby. Wśród nich są znormalizowane warianty i uogólnienia na więcej niż dwie zmienne.

Metryczny

Wiele aplikacji wymaga metryki , czyli miary odległości między parami punktów. Ilość

spełnia właściwości metryki ( nierówność trójkąta , nieujemność , nierozróżnialność i symetria). Ta metryka odległości jest również znana jako zmienność informacji .

Jeśli są dyskretnymi zmiennymi losowymi, to wszystkie składniki entropii są nieujemne, więc można zdefiniować znormalizowaną odległość

Metryka jest miarą uniwersalną, w tym sensie, że jeśli jakakolwiek inna odległość mierzy miejsca i bliskość, to również oceni je blisko.

Podpięcie definicji pokazuje, że

W interpretacji informacji opartej na teorii mnogości (patrz rysunek przedstawiający Entropię warunkową ) jest to w rzeczywistości odległość Jaccarda między a .

Wreszcie,

jest również metryką.

Warunkowe informacje wzajemne

Czasami przydatne jest wyrażenie wzajemnej informacji dwóch zmiennych losowych uwarunkowanych trzecią.

Dla wspólnie dyskretnych zmiennych losowych przyjmuje to postać

co można uprościć jako

Dla wspólnie ciągłych zmiennych losowych przyjmuje to postać

co można uprościć jako

Warunkowanie na trzeciej zmiennej losowej może zwiększać lub zmniejszać wzajemne informacje, ale zawsze jest prawdą, że

dla dyskretnych, wspólnie rozłożonych zmiennych losowych . Wynik ten został wykorzystany jako podstawowy element budulcowy do udowodnienia innych nierówności w teorii informacji .

Informacje o interakcji

Zaproponowano kilka uogólnień wzajemnych informacji na więcej niż dwie zmienne losowe, takie jak całkowita korelacja (lub multiinformacja) i podwójna korelacja całkowita . Wyrażenie i badanie wielowymiarowej wzajemnej informacji wyższego stopnia zostało osiągnięte w dwóch pozornie niezależnych pracach: McGill (1954), który nazwał te funkcje „informacją o interakcji”, oraz Hu Kuo Ting (1962). Informacje o interakcji są zdefiniowane dla jednej zmiennej w następujący sposób:

i dla

Niektórzy autorzy odwracają kolejność terminów po prawej stronie poprzedniego równania, które zmienia znak, gdy liczba zmiennych losowych jest nieparzysta. (W tym przypadku wyrażenie jednej zmiennej staje się ujemną wartością entropii.) Zauważ, że

Wielowymiarowa niezależność statystyczna

Wielowymiarowe funkcje wzajemnej informacji uogólniają przypadek niezależności parami, który stwierdza, że wtedy i tylko wtedy , gdy , na dowolną zmienną wiele. n zmienne są niezależne od siebie, wtedy i tylko wtedy, gdy wzajemne funkcji informacyjnych znikają z (tw 2). W tym sensie może być stosowany jako udoskonalone statystyczne kryterium niezależności.

Aplikacje

Dla 3 zmiennych Brenner i in. zastosowali wielowymiarową wzajemną informację do kodowania neuronowego i nazwali jego negatywność „synergią”, a Watkinson i in. zastosował go do ekspresji genetycznej. Dla dowolnych zmiennych k Tapia et al. zastosował wielowymiarową wzajemną informację do ekspresji genów). Może być zerowa, dodatnia lub ujemna. Pozytywność odpowiada relacjom uogólniającym korelacje parami, nieważność odpowiada wyrafinowanemu pojęciu niezależności, a negatywność wykrywa wysokowymiarowe „wyłaniające się” relacje i zgrupowane punkty danych).

Stwierdzono, że przy wyborze cech przydatny jest jeden wysokowymiarowy schemat uogólniania, który maksymalizuje wzajemne informacje między rozkładem łącznym a innymi zmiennymi docelowymi .

Wzajemna informacja jest również wykorzystywana w obszarze przetwarzania sygnałów jako miara podobieństwa między dwoma sygnałami. Na przykład metryka FMI jest miarą wydajności łączenia obrazów, która wykorzystuje wzajemne informacje w celu zmierzenia ilości informacji zawartych w połączonym obrazie o obrazach źródłowych. Matlab kod dla tej metryki można znaleźć na stronie. Dostępny jest pakiet Pythona do obliczania wszystkich wielowymiarowych informacji wzajemnych, warunkowych informacji wzajemnych, wspólnych entropii, całkowitych korelacji, odległości informacji w zbiorze danych składającym się z n zmiennych.

Skierowane informacje

Informacja skierowana , mierzy ilość informacji płynących z procesu do , gdzie oznacza wektor i oznacza . Termin informacja skierowana został ukuty przez Jamesa Masseya i jest zdefiniowany jako

.

Zauważ, że jeśli , skierowana informacja staje się informacją wzajemną. Informacja skierowana ma wiele zastosowań w problemach, w których przyczynowość odgrywa ważną rolę, takich jak przepustowość kanału ze sprzężeniem zwrotnym.

Warianty znormalizowane

Znormalizowane warianty wzajemnej informacji są dostarczane przez współczynniki ograniczenia , współczynnik niepewności lub biegłość:

Te dwa współczynniki mają wartość z przedziału [0, 1], ale niekoniecznie są równe. W niektórych przypadkach może być pożądana miara symetryczna, na przykład następująca miara nadmiarowości :

który osiąga minimum zero, gdy zmienne są niezależne i wartość maksymalną

kiedy jedna zmienna staje się całkowicie zbędna przy znajomości drugiej. Zobacz także Redundancja (teoria informacji) .

Inną miarą symetryczną jest niepewność symetryczna ( Witten i Frank 2005 ), podana przez

który reprezentuje średnią harmoniczną dwóch współczynników niepewności .

Jeśli uznamy wzajemne informacje za szczególny przypadek całkowitej korelacji lub podwójnej całkowitej korelacji , wersja znormalizowana to odpowiednio:

oraz

Ta znormalizowana wersja znana również jako wskaźnik jakości informacji (IQR), który określa ilościowo ilość informacji o zmiennej opartej na innej zmiennej w stosunku do całkowitej niepewności:

Istnieje normalizacja, która wywodzi się z myślenia o wzajemnych informacjach jako analogii do kowariancji (zatem entropia Shannona jest analogiczna do wariancji ). Następnie znormalizowana wzajemna informacja jest obliczana zgodnie ze współczynnikiem korelacji Pearsona ,

Warianty ważone

W tradycyjnym formułowaniu wzajemnej informacji,

każde zdarzenie lub obiekt określony przez jest ważone odpowiednim prawdopodobieństwem . Zakłada się, że wszystkie obiekty lub zdarzenia są równoważne poza prawdopodobieństwem ich wystąpienia. Jednak w niektórych zastosowaniach może się zdarzyć, że pewne obiekty lub zdarzenia są bardziej znaczące niż inne lub że pewne wzorce skojarzeń są ważniejsze semantycznie niż inne.

Na przykład, mapowanie deterministyczne może być postrzegane jako silniejsze niż mapowanie deterministyczne , chociaż te relacje dałyby te same wzajemne informacje. Dzieje się tak, ponieważ wzajemne informacje nie są w ogóle wrażliwe na jakiekolwiek nieodłączne uporządkowanie wartości zmiennych ( Cronbach 1954 , Coombs, Dawes i Tversky 1970 , Lockhead 1970 ), a zatem nie są w ogóle wrażliwe na formę relacyjnego odwzorowania między powiązane zmienne. Jeśli pożądane jest, aby pierwsza relacja – wykazująca zgodność co do wszystkich wartości zmiennych – była oceniana jako silniejsza niż późniejsza relacja, to można zastosować następującą ważoną informację wzajemną ( Guiasu 1977 ).

co przypisuje wagę prawdopodobieństwu współwystępowania każdej zmiennej wartości, . Pozwala to na to, że pewne prawdopodobieństwa mogą mieć większe lub mniejsze znaczenie niż inne, umożliwiając w ten sposób kwantyfikację odpowiednich czynników holistycznych lub czynników Prägnanza . W powyższym przykładzie użycie większych wag względnych dla , , i skutkowałoby oceną większej informacyjności dla relacji niż dla relacji , co może być pożądane w niektórych przypadkach rozpoznawania wzorców i tym podobnych. Ta ważona wzajemna informacja jest formą ważonej rozbieżności KL, o której wiadomo, że dla niektórych danych wejściowych przyjmuje wartości ujemne, a istnieją przykłady, w których ważone informacje wzajemne przyjmują również wartości ujemne.

Skorygowane wzajemne informacje

Rozkład prawdopodobieństwa można postrzegać jako podział zbioru . Można zatem zapytać: gdyby zbiór został podzielony losowo, jaki byłby rozkład prawdopodobieństw? Jaka byłaby wartość oczekiwana wzajemnej informacji? Regulować wzajemne przekazywanie informacji lub AMI odejmuje wartość oczekiwanie MI, tak że AMI wynosi zero, gdy dwie różne dystrybucje są przypadkowe, a jeden po dwie dystrybucje są identyczne. AMI definiuje się analogicznie do skorygowanego indeksu Rand dwóch różnych partycji zbioru.

Bezwzględne wzajemne informacje

Korzystając z idei złożoności Kołmogorowa , można rozważyć wzajemne informacje o dwóch ciągach niezależnych od jakiegokolwiek rozkładu prawdopodobieństwa:

Aby ustalić, że ta wielkość jest symetryczna aż do współczynnika logarytmicznego ( ), potrzebna jest reguła łańcucha dla złożoności Kołmogorowa ( Li i Vitányi 1997 ). Przybliżenia tej wielkości poprzez kompresję mogą być użyte do zdefiniowania miary odległości w celu przeprowadzenia hierarchicznego grupowania sekwencji bez posiadania jakiejkolwiek wiedzy dziedzinowej o sekwencjach ( Cilibrasi & Vitányi 2005 ).

Korelacja liniowa

W przeciwieństwie do współczynników korelacji, takich jak współczynnik korelacji momentu produktu , wzajemne informacje zawierają informacje o wszystkich zależnościach — liniowych i nieliniowych — a nie tylko o zależnościach liniowych, jak mierzy współczynnik korelacji. Jednak w wąskim przypadku, gdy wspólny rozkład dla i jest dwuwymiarowym rozkładem normalnym (co oznacza w szczególności, że oba rozkłady krańcowe mają rozkład normalny), istnieje dokładna zależność między współczynnikiem korelacji i współczynnikiem korelacji ( Gel'fand i Yaglom 1957 ).

Powyższe równanie można wyprowadzić w następujący sposób dla dwuwymiarowego Gaussa:

W związku z tym,

Dla danych dyskretnych

Gdy i są ograniczone do dyskretnej liczby stanów, dane obserwacji są podsumowywane w tabeli kontyngencji , ze zmienną wierszową (lub ) i zmienną kolumnową (lub ). Wzajemna informacja jest jedną z miar powiązania lub korelacji między zmiennymi wierszowymi i kolumnowymi. Inne miary powiązania obejmują statystyki testu chi-kwadrat Pearsona, statystyki testu G itp. W rzeczywistości wzajemne informacje są równe statystyce testu G podzielonej przez , gdzie oznacza wielkość próby.

Aplikacje

W wielu aplikacjach dąży się do maksymalizacji wzajemnych informacji (a tym samym zwiększenia zależności), co często jest równoznaczne z minimalizacją entropii warunkowej . Przykłady obejmują:

  • W technologii wyszukiwarek wzajemne informacje między frazami i kontekstami są wykorzystywane jako funkcja klastrowania k-średnich w celu odkrycia klastrów semantycznych (pojęć). Na przykład wzajemne informacje o bigramie można obliczyć jako:

gdzie to liczba wystąpień bigramu xy w korpusie, to liczba wystąpień unigramu x w korpusie, B to całkowita liczba bigramów, a U to całkowita liczba unigramów.
  • W telekomunikacji , pojemność kanału jest równa wzajemnej informacji, maksymalizacja nad wszystkimi dystrybucjami wejściowych.
  • Procedury uczenia dyskryminacyjnego dla ukrytych modeli Markowa zostały zaproponowane w oparciu o kryterium maksymalnej wzajemnej informacji (MMI).
  • Przewidywanie struktury drugorzędowej RNA na podstawie dopasowania wielu sekwencji .
  • Przewidywanie profilowania filogenetycznego na podstawie obecności w parach i zaniku funkcjonalnie połączonych genów .
  • Wzajemna informacja została wykorzystana jako kryterium wyboru funkcji i przekształceń funkcji w uczeniu maszynowym . Można go wykorzystać do scharakteryzowania zarówno trafności, jak i redundancji zmiennych, takich jak wybór minimalnej redundancji .
  • Wzajemne informacje są wykorzystywane do określania podobieństwa dwóch różnych grupowań zbioru danych. W związku z tym zapewnia pewną przewagę nad tradycyjnym indeksem Rand .
  • Wzajemna informacja o słowach jest często wykorzystywana jako funkcja istotności przy obliczaniu kolokacji w językoznawstwie korpusowym . Ma to dodatkową złożoność, że żadne słowo-instancja nie jest instancją dwóch różnych słów; raczej liczy się przypadki, w których 2 słowa występują obok siebie lub w bliskiej odległości; to nieco komplikuje obliczenia, ponieważ oczekiwane prawdopodobieństwo wystąpienia jednego słowa w słowach innego rośnie wraz z .
  • W obrazowaniu medycznym do rejestracji obrazu wykorzystuje się wzajemną informację . Biorąc pod uwagę obraz referencyjny (na przykład skan mózgu) i drugi obraz, który należy umieścić w tym samym układzie współrzędnych, co obraz referencyjny, obraz ten jest deformowany do momentu zmaksymalizowania wzajemnej informacji między nim a obrazem referencyjnym.
  • Wykrywanie synchronizacji faz w analizie szeregów czasowych
  • W metodzie infomax dla sieci neuronowych i innych uczenia maszynowego, w tym opartego na infomax algorytmie analizy niezależnych komponentów
  • Średnia wzajemna informacja w twierdzeniu o osadzeniu opóźnienia jest wykorzystywana do określenia parametru opóźnienia embedowania.
  • Wzajemne informacje między genami w danych z mikromacierzy ekspresji są wykorzystywane przez algorytm ARACNE do rekonstrukcji sieci genów .
  • W mechanice statystycznej , paradoks Loschmidt użytkownika może być wyrażona w kategoriach wzajemnej informacji. Loschmidt zauważył, że nie da się określić prawa fizycznego, w którym brakuje symetrii odwrócenia czasu (np. drugiej zasady termodynamiki ) tylko z praw fizycznych, które mają taką symetrię. Zauważył, że H-Twierdzenie o Boltzmanna wykonane przy założeniu, że prędkość cząstek w gazie trwale skorelowane, które usuwa się symetrię czasowe charakterystyczne H twierdzenia. Można wykazać, że jeśli układ jest opisany gęstością prawdopodobieństwa w przestrzeni fazowej , to z twierdzenia Liouville'a wynika, że ​​łączna informacja (ujemna od łącznej entropii) rozkładu pozostaje stała w czasie. Łączna informacja jest równa wzajemnej informacji plus suma wszystkich marginalnych informacji (ujemnych marginalnych entropii) dla każdej współrzędnej cząstki. Założenie Boltzmanna sprowadza się do ignorowania wzajemnych informacji przy obliczaniu entropii, co daje entropię termodynamiczną (podzieloną przez stałą Boltzmanna).
  • Wzajemne informacje są wykorzystywane do uczenia się struktury sieci bayesowskich / dynamicznych sieci bayesowskich , co ma wyjaśniać związek przyczynowy między zmiennymi losowymi, czego przykładem jest zestaw narzędzi GlobalMIT: uczenie się optymalnej globalnie dynamicznej sieci bayesowskiej z kryterium Mutual Information Test.
  • Wzajemne informacje są wykorzystywane do ilościowego określenia informacji przesyłanych podczas procedury aktualizacji w algorytmie próbkowania Gibbsa .
  • Popularna funkcja kosztu w uczeniu drzew decyzyjnych .
  • Wzajemne informacje są wykorzystywane w kosmologii do testowania wpływu środowisk wielkoskalowych na właściwości galaktyk w Galaktycznym Zoo .
  • Wzajemne informacje zostały wykorzystane w fizyce słonecznej do uzyskania profilu rotacji różnicowej Słońca , mapy odchylenia w czasie podróży dla plam słonecznych oraz wykresu czas-odległość na podstawie pomiarów cichego Słońca
  • Używany w niezmiennym klastrowaniu informacji do automatycznego uczenia klasyfikatorów sieci neuronowych i segmentatorów obrazów bez danych oznaczonych etykietami.

Zobacz też

Uwagi

  1. ^ Okładka, Tomasz M.; Tomasz, Radość A. (2005). Elementy teorii informacji (PDF) . John Wiley & Sons, Ltd., s. 13-55. Numer ISBN 9780471748823.
  2. ^ Kreer, JG (1957). „Kwestia terminologii”. Transakcje IRE dotyczące teorii informacji . 3 (3): 208. doi : 10.1109/TIT.1957.1057418 .
  3. ^ a b c Okładka, TM; Thomas, JA (1991). Elementy teorii informacji (red. Wiley). Numer ISBN 978-0-471-24195-9.
  4. ^ Wolpert, DH; Wilk, DR (1995). „Szacowanie funkcji rozkładów prawdopodobieństwa ze skończonego zbioru próbek”. Przegląd fizyczny E . 52 (6): 6841–6854. Kod bib : 1995PhRvE..52.6841W . CiteSeerX  10.1.1.55.7122 . doi : 10.1103/PhysRevE.52.6841 . PMID  9964199 . S2CID  9795679 .
  5. ^ Hutter, M. (2001). „Dystrybucja wzajemnych informacji”. Postępy w neuronowych systemach przetwarzania informacji 2001 .
  6. ^ Archer, E.; Park, IM; Poduszka, J. (2013). „Bayesowskie i quasi-bayesowskie estymatory dla wzajemnej informacji z danych dyskretnych”. Entropia . 15 (12): 1738-1755. Kod Bibcode : 2013Entrp..15.1738A . CiteSeerX  10.1.1.294.4690 . doi : 10.3390/e15051738 .
  7. ^ Wolpert, DH; DeDeo, S. (2013). „Szacowanie funkcji rozkładów zdefiniowanych w przestrzeniach o nieznanym rozmiarze”. Entropia . 15 (12): 4668–4699. arXiv : 1311.4548 . Kod bib : 2013Entrp..15.4668W . doi : 10.3390/e15114668 . S2CID  2737117 .
  8. ^ Tomasz Jetka; Karol Nienaltowski; Tomasz Winarski; Sławomir Błoński; Michał Komorowski (2019), „Information-theoretic analysis of multivariate single cell signaling responses”, PLOS Computational Biology , 15 (7): e1007132, arXiv : 1808.05581 , Bibcode : 2019PLSCB..15E7132J , doi : 10.1371/journal.pcbi. 1007132 , PMC  6655862 , PMID  31299056
  9. ^ Kraskow Aleksander; Stögbauera, Haralda; Andrzejak, Ralph G.; Grassberger, Piotr (2003). „Hierarchiczne klastrowanie na podstawie wzajemnych informacji”. arXiv : q- bio/0311039 . Kod bib : 2003q.bio....11039K . Cytowanie dziennika wymaga |journal=( pomoc )
  10. ^ McGill, W. (1954). „Wieloczynnikowa transmisja informacji”. Psychometrika . 19 (1): 97–116. doi : 10.1007/BF02289159 . S2CID  126431489 .
  11. ^ B Hu KT (1962). „O ilości informacji”. Teoria prawdopodobieństwa. Zał . 7 (4): 439–447. doi : 10.1137/1107041 .
  12. ^ a b Baudot, P.; Tapia, M.; Bennequin, D.; Bramkarz, JM (2019). „Analiza danych informacji topologicznych”. Entropia . 21 (9). 869. arXiv : 1907.04242 . Kod bib : 2019Entrp..21..869B . doi : 10.3390/e21090869 . S2CID  195848308 .
  13. ^ Brenner, N.; Silny, S.; Koberle, R.; Białek, W. (2000). „Synergia w kodzie neuronowym”. Obliczenia neuronowe . 12 (7): 1531–1552. doi : 10.1162/089976600300015259 . PMID  10935917 . S2CID  600528 .
  14. ^ Watkinson, J.; Liang, K.; Wang, X.; Zheng, T.; Anastassiou, D. (2009). „Wnioskowanie o interakcjach genów regulacyjnych z danych dotyczących ekspresji przy użyciu trójstronnych wzajemnych informacji” . Chall. Syst. Biol. Anny. Akademia Nowego Jorku. Nauka . 1158 (1): 302–313. Kod bib : 2009NYASA1158..302W . doi : 10.1111/j.1749-6632.2008.03757.x . PMID  19348651 . S2CID  8846229 .
  15. ^ B Tapia M .; Baudot, P.; Formizano-Treziny, C.; Dufour, M.; Goaillard, JM (2018). „Tożsamość neuroprzekaźnika i fenotyp elektrofizjologiczny są genetycznie sprzężone w neuronach dopaminergicznych śródmózgowia” . Nauka. Rep . 8 (1): 13637. Kod bib : 2018NatSR...813637T . doi : 10.1038/s41598-018-31765-z . PMC  6134142 . PMID  30206240 .
  16. ^ Christophera D. Manninga; Prabhakar Raghavan; Hinrich Schütze (2008). Wprowadzenie do wyszukiwania informacji . Wydawnictwo Uniwersytetu Cambridge . Numer ISBN 978-0-521-86571-5.
  17. ^ Haghighat, MBA; Aghagolzadeh, A.; Seyedarabi, H. (2011). „A non-referencyjna metryka fuzji obrazu oparta na wzajemnych informacjach o cechach obrazu”. Komputery i elektrotechnika . 37 (5): 744–756. doi : 10.1016/j.compeleceng.2011.07.012 .
  18. ^ „Feature Mutual Information (FMI) metryka dla fuzji obrazów bez odniesienia - Wymiana plików - MATLAB Central” . www.mathworks.com . Źródło 4 kwietnia 2018 .
  19. ^ „InfoTopo: Analiza danych topologicznych. Głębokie statystyczne uczenie nienadzorowane i nadzorowane - Wymiana plików - Github” . github.com/pierrebaudit/infotopopy/ . Źródło 26 września 2020 .
  20. ^ Massey James (1990). „Przyczynowość, sprzężenie zwrotne i ukierunkowane informacje”. Proc. 1990 Międzyn. Symp. na Info. NS. and its Applications, Waikiki, Hawaje, 27-30 listopada 1990 . CiteSeerX  10.1.1.36.5688 .
  21. ^ Permuter, Haim Henry; Weissman, Tsachy; Złotnik, Andrea J. (luty 2009). „Skończone kanały państwowe z deterministycznym sprzężeniem zwrotnym niezmiennym w czasie”. Transakcje IEEE dotyczące teorii informacji . 55 (2): 644–662. arXiv : cs/0608070 . doi : 10.1109/TIT.2008.2009849 . S2CID  13178 .
  22. ^ Coombs, Dawes i Tversky 1970 .
  23. ^ a b Naciśnij, WH; Teukolski SA; Vetterling, WT; Flannery, BP (2007). „Punkt 14.7.3. Entropia warunkowa i wzajemna informacja” . Przepisy numeryczne: The Art of Scientific Computing (3rd ed.). Nowy Jork: Cambridge University Press. Numer ISBN 978-0-521-88068-8.
  24. ^ Biały, Jim; Steinold, Sam; Fournelle, Connie. Metryki wydajności dla algorytmów wykrywania grup (PDF) . Interfejs 2004.
  25. ^ Wijaya, Dedy Rahman; Sarno, Riyanarto; Zulaika, Enny (2017). „Information Quality Ratio jako nowatorska metryka doboru falki macierzystej”. Chemometria i Inteligentne Systemy Laboratoryjne . 160 : 59–71. doi : 10.1016/j.chemolab.2016.11.012 .
  26. ^ Strehl, Aleksander; Ghosh, Joydeep (2003). „Zespoły klastrowe — ramy ponownego wykorzystania wiedzy do łączenia wielu partycji” (PDF) . Journal of Machine Learning Research . 3 : 583–617. doi : 10.1162/153244303321897735 .
  27. ^ Kvålseth, TO (1991). „Względna użyteczna miara informacji: kilka komentarzy”. Nauki informacyjne . 56 (1): 35–38. doi : 10.1016/0020-0255(91)90022-m .
  28. ^ Pocock, A. (2012). Wybór funkcji na podstawie prawdopodobieństwa wspólnego (PDF) (praca).
  29. ^ a b Parsowanie języka naturalnego przy użyciu statystyk wzajemnych informacji autorstwa Davida M. Magermana i Mitchella P. Marcusa
  30. ^ Hugh Everett Teoria uniwersalnej funkcji falowej , Thesis, Princeton University, (1956, 1973), s. 1-140 (strona 30)
  31. ^ Everett, Hugh (1957). „Względne sformułowanie stanu mechaniki kwantowej” . Recenzje fizyki współczesnej . 29 (3): 454–462. Kod bib : 1957RvMP...29..454E . doi : 10.1103/revmodphys.29.454 . Zarchiwizowane od oryginału w dniu 27.10.2011 . Źródło 16.07.2012 .
  32. ^ GlobalMIT w Google Code
  33. ^ Lee, Se Yoon (2021). „Gibbs sampler i koordynować wnioskowanie wariacyjne wznoszenia: przegląd teoretyczny mnogości”. Komunikacja w statystyce - teoria i metody : 1-21. arXiv : 2008.01006 . doi : 10.1080/03610926.2021.1921214 .
  34. ^ Klucze, Dustin; Cholikow, Szukur; Pevtsov, Aleksiej A. (luty 2015). „Zastosowanie metod wzajemnej informacji w heliosejsmologii na odległość czasową”. Fizyka Słońca . 290 (3): 659–671. arXiv : 1501.05597 . Kod Bibcode : 2015SoPh..290..659K . doi : 10.1007/s11207-015-0650-y . S2CID  118472242 .
  35. ^ Niezmienne klastrowanie informacji dla nienadzorowanej klasyfikacji i segmentacji obrazów przez Xu Ji, Joao Henriquesa i Andrea Vedaldi

Bibliografia