Treść informacji - Information content
W teorii informacji , do zawartości informacyjnej , własnej informacji , nieuwagę lub informacji Shannon jest podstawową ilość pochodząca z prawdopodobieństwem określonego zdarzenia występującego ze zmienną losową . Można go traktować jako alternatywny sposób wyrażania prawdopodobieństwa, podobnie jak szanse lub logarytmiczne szanse , ale który ma szczególne zalety matematyczne w kontekście teorii informacji.
Informacje Shannona można interpretować jako ilościowe określenie poziomu „zaskoczenia” określonego wyniku. Ponieważ jest to taka podstawowa wielkość, pojawia się ona również w kilku innych ustawieniach, takich jak długość komunikatu potrzebnego do przesłania zdarzenia przy optymalnym kodowaniu źródłowym zmiennej losowej.
Informacja Shannona jest ściśle powiązana z entropią teoretyczną informacji , która jest oczekiwaną wartością samoinformacji zmiennej losowej, określającą ilościowo, jak zaskakująca jest zmienna losowa „średnio”. Jest to średnia ilość informacji o sobie, jaką obserwator spodziewałby się uzyskać na temat zmiennej losowej podczas jej pomiaru.
Treść informacji może być wyrażona w różnych jednostkach informacji , z których najczęstszym jest „bit” (czasami nazywany również „shannon”), jak wyjaśniono poniżej.
Definicja
Definicja informacji o sobie Claude'a Shannona została wybrana tak, aby spełniała kilka aksjomatów:
- Zdarzenie z prawdopodobieństwem 100% nie jest niczym zaskakującym i nie daje żadnych informacji.
- Im mniej prawdopodobne jest zdarzenie, tym bardziej jest zaskakujące i tym więcej dostarcza informacji.
- Jeśli dwa niezależne zdarzenia są mierzone oddzielnie, całkowita ilość informacji jest sumą informacji o indywidualnych zdarzeniach.
Szczegółowe wyprowadzenie znajduje się poniżej, ale można wykazać, że istnieje unikalna funkcja prawdopodobieństwa, która spełnia te trzy aksjomaty, aż do multiplikatywnego współczynnika skalowania. Ogólnie biorąc pod uwagę zdarzenie z prawdopodobieństwem , zawartość informacji definiuje się w następujący sposób:
Podstawa dziennika pozostaje nieokreślona, co odpowiada powyższemu współczynnikowi skalowania. Różne wybory podstawy odpowiadają różnym jednostkom informacji: jeśli podstawa logarytmiczna wynosi 2, jednostką jest bit lub shannon ; jeśli logarytm jest logarytmem naturalnym (podstawa e ), jednostką jest nat , skrót od „naturalny”; a jeśli podstawą jest 10, jednostkami są hartley , cyfry dziesiętne lub czasami kropki .
Formalnie, biorąc pod uwagę zmienną losową z funkcją masy prawdopodobieństwa , samoinformacja pomiaru jako wynik jest zdefiniowana jako
Shannon entropia zmiennej losowej powyżej zdefiniowany jako
Użycie powyższej notacji do informacji o sobie nie jest uniwersalne. Ponieważ notacja jest również często używana dla powiązanej ilości wzajemnych informacji , wielu autorów zamiast tego używa małych liter dla autoentropii, co odzwierciedla użycie wielkiego dla entropii.
Nieruchomości
Monotonicznie malejąca funkcja prawdopodobieństwa
Dla danej przestrzeni prawdopodobieństwa pomiary rzadszych zdarzeń są intuicyjnie bardziej „zaskakujące” i dają więcej informacji niż bardziej powszechne wartości. Samoinformacja jest więc ściśle zmniejszającą się monotoniczną funkcją prawdopodobieństwa lub czasami nazywaną funkcją „antytoniczną”.
Podczas gdy standardowe prawdopodobieństwa są reprezentowane przez liczby rzeczywiste w przedziale , informacje własne są reprezentowane przez rozszerzone liczby rzeczywiste w przedziale . W szczególności mamy następujące, dla dowolnego wyboru podstawy logarytmicznej:
- Jeśli dane zdarzenie ma 100% prawdopodobieństwa wystąpienia, to jego samoinformacja jest taka : jego wystąpienie jest „zupełnie niezaskakujące” i nie daje żadnej informacji.
- Jeśli dane zdarzenie ma 0% prawdopodobieństwa wystąpienia, to jego samoinformacja brzmi : jego wystąpienie jest „nieskończenie zaskakujące”.
Z tego możemy uzyskać kilka ogólnych właściwości:
- Intuicyjnie, więcej informacji uzyskuje się dzięki obserwowaniu nieoczekiwanego zdarzenia – to „zaskakujące”.
- Na przykład, jeśli szansa Alicji na wygraną na loterii wynosi jeden na milion , jej przyjaciel Bob uzyska znacznie więcej informacji, dowiedziawszy się, że wygrała, niż przegrała danego dnia. (Zobacz też: Matematyka loterii .)
- To ustanawia niejawny związek między samoinformacją zmiennej losowej a jej wariancją .
Stosunek do logarytmicznych kursów
Informacje Shannona są ściśle powiązane z log-odds . W szczególności, biorąc pod uwagę jakieś zdarzenie , załóżmy, że jest to prawdopodobieństwo wystąpienia, a to jest prawdopodobieństwo, że nie wystąpi. Następnie mamy następującą definicję logarytmicznych szans:
Można to wyrazić jako różnicę dwóch informacji Shannona:
Innymi słowy, logarytmiczne szanse mogą być interpretowane jako poziom zaskoczenia, jeśli zdarzenie „nie ma” minus poziom zaskoczenia, jeśli zdarzenie „nie” się wydarzy.
Addytywność niezależnych zdarzeń
Zawartość informacyjna dwóch niezależnych wydarzeń jest sumą zawartości informacyjnej każdego wydarzenia. Ta właściwość jest znana jako addytywność w matematyce, a addytywność sigma w szczególności w teorii miary i prawdopodobieństwa. Rozważ dwie niezależne zmienne losowe z funkcjami masy prawdopodobieństwa i odpowiednio. Funkcją masy prawdopodobieństwa stawów jest
ponieważ i są niezależne . Zawartość informacyjna wyniku to
Odpowiednia właściwość prawdopodobieństwa polega na tym, że logarytm prawdopodobieństwa niezależnych zdarzeń jest sumą logarytmicznych prawdopodobieństw każdego zdarzenia. Interpretując logarytm prawdopodobieństwa jako „wsparcie” lub negatywną niespodziankę (stopień, w jakim zdarzenie wspiera dany model: model jest wspierany przez zdarzenie w takim stopniu, w jakim zdarzenie nie jest zaskakujące, biorąc pod uwagę model), oznacza to, że niezależne zdarzenia dodają wsparcie: informacja, którą te dwa zdarzenia razem dostarczają do wnioskowania statystycznego, jest sumą ich niezależnych informacji.
Uwagi
Ta miara została również nazwana zaskoczeniem , ponieważ reprezentuje „ niespodziankę ” widząc wynik (wysoce nieprawdopodobny wynik jest bardzo zaskakujący). Termin ten (jako miara logarytmiczna prawdopodobieństwa) został ukuty przez Myrona Tribusa w jego książce z 1961 r. Termostatyka i termodynamika .
Gdy zdarzenie jest losową realizacją (zmiennej), samoinformacja zmiennej jest definiowana jako oczekiwana wartość samoinformacji o realizacji.
Samoinformacja jest przykładem prawidłowej zasady punktacji .
Przykłady
Uczciwy rzut monetą
Rozważmy proces Bernoulliego o rzucanie uczciwą monetą . W prawdopodobieństw tych zdarzeń z lądowania monety jako głowy i ogony (patrz uczciwą monetą i awers i rewers ) stanowią połowę każda . Po zmierzeniu zmiennej jako głów, związany z nią zysk informacyjny wynosi:
Uczciwy rzut kostką
Załóżmy, że mamy porządną kostkę sześciościenną . Wartość rzutu kostką jest dyskretną jednolitą zmienną losową z funkcją masy prawdopodobieństwa
Dwie niezależne, identycznie rozmieszczone kości
Załóżmy, że mamy dwie niezależne zmienne losowe o identycznym rozkładzie, z których każda odpowiada niezależnemu sprawiedliwemu rzutowi kostką z sześciu stron. Joint Distribution of a jest
Zawartość informacyjna zmiennej losowej to
Informacje z częstotliwości rolek
Jeśli otrzymamy informację o wartości kostki bez wiedzy, która kostka ma jaką wartość, możemy sformalizować podejście za pomocą tzw. zmiennych zliczających
Aby to udowodnić, że 6 wyniki odpowiadają przypadku i całkowitego prawdopodobieństwa, z1/6. Są to jedyne wydarzenia, które są wiernie zachowane z tożsamością, które kości rzuciły jakim wynikiem, ponieważ wyniki są takie same. Bez wiedzy, jak rozróżnić kości rzucające innymi liczbami, inne kombinacje odpowiadają jednej kostce rzucającej jedną liczbą, a drugiej rzucającej inną liczbą, z których każda ma prawdopodobieństwo 1/18. Rzeczywiście, zgodnie z wymaganiami.
Nic dziwnego, że informacyjna treść uczenia się, że obie kości zostały rzucone jako ta sama konkretna liczba, jest czymś więcej niż informacyjna treść uczenia się, że jedna kostka była jedną liczbą, a druga inną liczbą. Weźmy na przykładach zdarzeń i dla . Na przykład i .
Zawartość informacji to
Niech będzie zdarzeniem, w którym obie kostki wyrzuciły tę samą wartość, i zdarzeniem, w którym kości się różnią. Następnie i . Treści informacyjne wydarzeń są
Informacje z sumy wykrojów
Funkcja masy lub gęstości prawdopodobieństwa (łącznie miara prawdopodobieństwa ) sumy dwóch niezależnych zmiennych losowych jest splotem każdej miary prawdopodobieństwa . W przypadku niezależnych uczciwych rzutów kostką 6-stronną, zmienna losowa ma funkcję masy prawdopodobieństwa , gdzie reprezentuje splot dyskretny . Wynik ma prawdopodobieństwa . Dlatego twierdzi się, że:
Ogólny dyskretny równomierny rozkład
Uogólniając powyższy przykład § Sprawiedliwego rzutu kostką , rozważ ogólną dyskretną jednolitą zmienną losową (DURV) Dla wygody zdefiniuj . PMF jest
Przypadek szczególny: stała zmienna losowa
Jeśli powyżej, degeneruje się do stałej zmiennej losowej z rozkładem prawdopodobieństwa deterministycznie podanym przez i miarą prawdopodobieństwa miarą Diraca . Jedyną wartością, jaką może przyjąć, jest wartość deterministyczna , więc zawartość informacyjna dowolnego pomiaru jest
Rozkład kategoryczny
Uogólniając wszystkie powyższe przypadki, rozważmy kategoryczną dyskretną zmienną losową ze wsparciem i pf podanym przez
Dla celów teorii informacji wartości nie muszą być liczbami ; mogą to być dowolne wzajemnie wykluczające się zdarzenia w przestrzeni miar o skończonej miary , która została znormalizowana do miary prawdopodobieństwa . Bez utraty ogólności możemy założyć, że rozkład kategoryczny jest obsługiwany na zbiorze ; struktura matematyczna jest izomorficzna pod względem teorii prawdopodobieństwa, a zatem również teorii informacji .
Informacje o wynikach podano
Na podstawie tych przykładów możliwe jest obliczenie informacji o dowolnym zestawie niezależnych DRV o znanych rozkładach przez addytywność .
Związek z entropią
Entropia jest oczekiwana wartość zawartości informacyjnej zmiennej losowej dyskretnej , z oczekiwaniem przejętego dyskretnych wartości przez nią działań . Czasami sama entropia nazywana jest „self-informacyjny” zmiennej losowej, prawdopodobnie dlatego, że entropia spełnia , gdzie jest wzajemna informacja o sama ze sobą.
Dla ciągłych zmiennych losowych odpowiada pojęcie entropia różniczkowa .
Pochodzenie
Z definicji informacja jest przekazywana od podmiotu inicjującego posiadającego informacje do podmiotu odbierającego tylko wtedy, gdy odbiorca nie znał informacji a priori . Jeżeli podmiot odbierający znał wcześniej treść wiadomości z pewnością przed odebraniem wiadomości, ilość informacji otrzymanej wiadomości wynosi zero. Tylko wtedy, gdy wcześniejsza wiedza o treści wiadomości przez odbiorcę jest mniej niż 100% pewna, wiadomość faktycznie przekazuje informację.
Na przykład, cytując postać (Hippy Dippy Weatherman) komika George'a Carlina , „Prognoza pogody na dziś: ciemno. Ciągle ciemność w nocy, z szeroko rozproszonym światłem do rana. Zakładając, że nie mieszka się w pobliżu biegunów Ziemi lub kręgów podbiegunowych , ilość informacji przekazywanych w tej prognozie wynosi zero, ponieważ wiadomo przed otrzymaniem prognozy, że ciemność zawsze nadchodzi wraz z nocą.
W związku z tym ilość samodzielnego informacji zawartych w treści wiadomości przenoszenia informującą o wystąpieniu zdarzenia , zależy tylko od prawdopodobieństwa tego zdarzenia.
Ponadto, z definicji, miara samoinformacji jest nieujemna i addytywna. Jeżeli komunikat informujący o zdarzeniu jest przecięciem dwóch niezależnych zdarzeń i , wtedy informacja o wystąpieniu zdarzenia jest informacją złożonej wiadomości zarówno o zdarzeniach niezależnych, jak i występujących. Oczekuje się, że ilość informacji wiadomości złożonej będzie równa sumie ilości informacji poszczególnych wiadomości składowych i odpowiednio:
Ze względu na niezależność zdarzeń i prawdopodobieństwo zdarzenia wynosi
Jednak zastosowanie funkcji powoduje
Dzięki pracy nad równaniem funkcyjnym Cauchy'ego jedyne funkcje monotoniczne mają taką właściwość, że
gdzie jest logarytm naturalny . Ponieważ prawdopodobieństwa zdarzeń są zawsze od 0 do 1, a informacje związane z tymi zdarzeniami muszą być nieujemne, wymaga to .
Biorąc pod uwagę te właściwości, samoinformację związaną z wynikiem z prawdopodobieństwem definiuje się jako:
Im mniejsze prawdopodobieństwo zdarzenia , tym większa ilość autoinformacji związanych z komunikatem, że zdarzenie rzeczywiście miało miejsce. Jeśli powyższy logarytm ma podstawę 2, jednostką są bity . To jest najczęstsza praktyka. Używając logarytmu naturalnego podstawy , jednostką będzie nat . Dla logarytmu o podstawie 10 jednostką informacji jest hartley .
Dla szybkiej ilustracji, zawartość informacyjna związana z wynikiem 4 orłów (lub dowolnym konkretnym wynikiem) w 4 kolejnych rzutach monetą to 4 bity (prawdopodobieństwo 1/16), a zawartość informacyjna związana z uzyskaniem wyniku innego niż określony będzie ~0,09 bita (prawdopodobieństwo 15/16). Zobacz powyżej szczegółowe przykłady.
Zobacz też
Bibliografia
Dalsza lektura
- CE Shannon , Matematyczna teoria komunikacji , Bell Systems Technical Journal , tom. 27, s. 379-423, (część I), 1948.