Treść informacji - Information content

W teorii informacji , do zawartości informacyjnej , własnej informacji , nieuwagę lub informacji Shannon jest podstawową ilość pochodząca z prawdopodobieństwem określonego zdarzenia występującego ze zmienną losową . Można go traktować jako alternatywny sposób wyrażania prawdopodobieństwa, podobnie jak szanse lub logarytmiczne szanse , ale który ma szczególne zalety matematyczne w kontekście teorii informacji.

Informacje Shannona można interpretować jako ilościowe określenie poziomu „zaskoczenia” określonego wyniku. Ponieważ jest to taka podstawowa wielkość, pojawia się ona również w kilku innych ustawieniach, takich jak długość komunikatu potrzebnego do przesłania zdarzenia przy optymalnym kodowaniu źródłowym zmiennej losowej.

Informacja Shannona jest ściśle powiązana z entropią teoretyczną informacji , która jest oczekiwaną wartością samoinformacji zmiennej losowej, określającą ilościowo, jak zaskakująca jest zmienna losowa „średnio”. Jest to średnia ilość informacji o sobie, jaką obserwator spodziewałby się uzyskać na temat zmiennej losowej podczas jej pomiaru.

Treść informacji może być wyrażona w różnych jednostkach informacji , z których najczęstszym jest „bit” (czasami nazywany również „shannon”), jak wyjaśniono poniżej.

Definicja

Definicja informacji o sobie Claude'a Shannona została wybrana tak, aby spełniała kilka aksjomatów:

  1. Zdarzenie z prawdopodobieństwem 100% nie jest niczym zaskakującym i nie daje żadnych informacji.
  2. Im mniej prawdopodobne jest zdarzenie, tym bardziej jest zaskakujące i tym więcej dostarcza informacji.
  3. Jeśli dwa niezależne zdarzenia są mierzone oddzielnie, całkowita ilość informacji jest sumą informacji o indywidualnych zdarzeniach.

Szczegółowe wyprowadzenie znajduje się poniżej, ale można wykazać, że istnieje unikalna funkcja prawdopodobieństwa, która spełnia te trzy aksjomaty, aż do multiplikatywnego współczynnika skalowania. Ogólnie biorąc pod uwagę zdarzenie z prawdopodobieństwem , zawartość informacji definiuje się w następujący sposób:

Podstawa dziennika pozostaje nieokreślona, ​​co odpowiada powyższemu współczynnikowi skalowania. Różne wybory podstawy odpowiadają różnym jednostkom informacji: jeśli podstawa logarytmiczna wynosi 2, jednostką jest bit lub shannon ; jeśli logarytm jest logarytmem naturalnym (podstawa e ), jednostką jest nat , skrót od „naturalny”; a jeśli podstawą jest 10, jednostkami są hartley , cyfry dziesiętne lub czasami kropki .

Formalnie, biorąc pod uwagę zmienną losową z funkcją masy prawdopodobieństwa , samoinformacja pomiaru jako wynik jest zdefiniowana jako

Shannon entropia zmiennej losowej powyżej zdefiniowany jako

z definicji równa oczekiwanej zawartości informacyjnej pomiaru .

Użycie powyższej notacji do informacji o sobie nie jest uniwersalne. Ponieważ notacja jest również często używana dla powiązanej ilości wzajemnych informacji , wielu autorów zamiast tego używa małych liter dla autoentropii, co odzwierciedla użycie wielkiego dla entropii.

Nieruchomości

Monotonicznie malejąca funkcja prawdopodobieństwa

Dla danej przestrzeni prawdopodobieństwa pomiary rzadszych zdarzeń są intuicyjnie bardziej „zaskakujące” i dają więcej informacji niż bardziej powszechne wartości. Samoinformacja jest więc ściśle zmniejszającą się monotoniczną funkcją prawdopodobieństwa lub czasami nazywaną funkcją „antytoniczną”.

Podczas gdy standardowe prawdopodobieństwa są reprezentowane przez liczby rzeczywiste w przedziale , informacje własne są reprezentowane przez rozszerzone liczby rzeczywiste w przedziale . W szczególności mamy następujące, dla dowolnego wyboru podstawy logarytmicznej:

  • Jeśli dane zdarzenie ma 100% prawdopodobieństwa wystąpienia, to jego samoinformacja jest taka : jego wystąpienie jest „zupełnie niezaskakujące” i nie daje żadnej informacji.
  • Jeśli dane zdarzenie ma 0% prawdopodobieństwa wystąpienia, to jego samoinformacja brzmi : jego wystąpienie jest „nieskończenie zaskakujące”.

Z tego możemy uzyskać kilka ogólnych właściwości:

Stosunek do logarytmicznych kursów

Informacje Shannona są ściśle powiązane z log-odds . W szczególności, biorąc pod uwagę jakieś zdarzenie , załóżmy, że jest to prawdopodobieństwo wystąpienia, a to jest prawdopodobieństwo, że nie wystąpi. Następnie mamy następującą definicję logarytmicznych szans:

Można to wyrazić jako różnicę dwóch informacji Shannona:

Innymi słowy, logarytmiczne szanse mogą być interpretowane jako poziom zaskoczenia, jeśli zdarzenie „nie ma” minus poziom zaskoczenia, jeśli zdarzenie „nie” się wydarzy.

Addytywność niezależnych zdarzeń

Zawartość informacyjna dwóch niezależnych wydarzeń jest sumą zawartości informacyjnej każdego wydarzenia. Ta właściwość jest znana jako addytywność w matematyce, a addytywność sigma w szczególności w teorii miary i prawdopodobieństwa. Rozważ dwie niezależne zmienne losowe z funkcjami masy prawdopodobieństwa i odpowiednio. Funkcją masy prawdopodobieństwa stawów jest

ponieważ i są niezależne . Zawartość informacyjna wyniku to

Zobacz § Dwie niezależne, identycznie rozmieszczone kości poniżej dla przykładu.

Odpowiednia właściwość prawdopodobieństwa polega na tym, że logarytm prawdopodobieństwa niezależnych zdarzeń jest sumą logarytmicznych prawdopodobieństw każdego zdarzenia. Interpretując logarytm prawdopodobieństwa jako „wsparcie” lub negatywną niespodziankę (stopień, w jakim zdarzenie wspiera dany model: model jest wspierany przez zdarzenie w takim stopniu, w jakim zdarzenie nie jest zaskakujące, biorąc pod uwagę model), oznacza to, że niezależne zdarzenia dodają wsparcie: informacja, którą te dwa zdarzenia razem dostarczają do wnioskowania statystycznego, jest sumą ich niezależnych informacji.

Uwagi

Ta miara została również nazwana zaskoczeniem , ponieważ reprezentuje „ niespodziankę ” widząc wynik (wysoce nieprawdopodobny wynik jest bardzo zaskakujący). Termin ten (jako miara logarytmiczna prawdopodobieństwa) został ukuty przez Myrona Tribusa w jego książce z 1961 r. Termostatyka i termodynamika .

Gdy zdarzenie jest losową realizacją (zmiennej), samoinformacja zmiennej jest definiowana jako oczekiwana wartość samoinformacji o realizacji.

Samoinformacja jest przykładem prawidłowej zasady punktacji .

Przykłady

Uczciwy rzut monetą

Rozważmy proces Bernoulliego o rzucanie uczciwą monetą . W prawdopodobieństw tych zdarzeń z lądowania monety jako głowy i ogony (patrz uczciwą monetą i awers i rewers ) stanowią połowę każda . Po zmierzeniu zmiennej jako głów, związany z nią zysk informacyjny wynosi:

więc zysk informacji o uczciwym lądowaniu monet jako głów wynosi 1 shannon . Podobnie, zysk informacji z pomiaru ogonów jest

Uczciwy rzut kostką

Załóżmy, że mamy porządną kostkę sześciościenną . Wartość rzutu kostką jest dyskretną jednolitą zmienną losową z funkcją masy prawdopodobieństwa

Prawdopodobieństwo wyrzucenia 4 wynosi , jak w przypadku każdego innego prawidłowego rzutu. Zawartość informacyjna wyrzucenia 4 jest zatem
informacji.

Dwie niezależne, identycznie rozmieszczone kości

Załóżmy, że mamy dwie niezależne zmienne losowe o identycznym rozkładzie, z których każda odpowiada niezależnemu sprawiedliwemu rzutowi kostką z sześciu stron. Joint Distribution of a jest

Zawartość informacyjna zmiennej losowej to

i może być również obliczona przez § Addytywność niezależnych zdarzeń

Informacje z częstotliwości rolek

Jeśli otrzymamy informację o wartości kostki bez wiedzy, która kostka ma jaką wartość, możemy sformalizować podejście za pomocą tzw. zmiennych zliczających

dla , wtedy i liczebności mają rozkład wielomianowy

Aby to udowodnić, że 6 wyniki odpowiadają przypadku i całkowitego prawdopodobieństwa, z1/6. Są to jedyne wydarzenia, które są wiernie zachowane z tożsamością, które kości rzuciły jakim wynikiem, ponieważ wyniki są takie same. Bez wiedzy, jak rozróżnić kości rzucające innymi liczbami, inne kombinacje odpowiadają jednej kostce rzucającej jedną liczbą, a drugiej rzucającej inną liczbą, z których każda ma prawdopodobieństwo 1/18. Rzeczywiście, zgodnie z wymaganiami.

Nic dziwnego, że informacyjna treść uczenia się, że obie kości zostały rzucone jako ta sama konkretna liczba, jest czymś więcej niż informacyjna treść uczenia się, że jedna kostka była jedną liczbą, a druga inną liczbą. Weźmy na przykładach zdarzeń i dla . Na przykład i .

Zawartość informacji to

Niech będzie zdarzeniem, w którym obie kostki wyrzuciły tę samą wartość, i zdarzeniem, w którym kości się różnią. Następnie i . Treści informacyjne wydarzeń są

Informacje z sumy wykrojów

Funkcja masy lub gęstości prawdopodobieństwa (łącznie miara prawdopodobieństwa ) sumy dwóch niezależnych zmiennych losowych jest splotem każdej miary prawdopodobieństwa . W przypadku niezależnych uczciwych rzutów kostką 6-stronną, zmienna losowa ma funkcję masy prawdopodobieństwa , gdzie reprezentuje splot dyskretny . Wynik ma prawdopodobieństwa . Dlatego twierdzi się, że:

Ogólny dyskretny równomierny rozkład

Uogólniając powyższy przykład § Sprawiedliwego rzutu kostką , rozważ ogólną dyskretną jednolitą zmienną losową (DURV) Dla wygody zdefiniuj . PMF jest

Ogólnie rzecz biorąc, wartości DURV nie muszą być liczbami całkowitymi lub, dla celów teorii informacji, nawet równomiernie rozmieszczonymi; muszą być tylko równoprawdopodobne . Zyskiem informacji z każdej obserwacji jest:

Przypadek szczególny: stała zmienna losowa

Jeśli powyżej, degeneruje się do stałej zmiennej losowej z rozkładem prawdopodobieństwa deterministycznie podanym przez i miarą prawdopodobieństwa miarą Diraca . Jedyną wartością, jaką może przyjąć, jest wartość deterministyczna , więc zawartość informacyjna dowolnego pomiaru jest

Ogólnie rzecz biorąc, nie ma informacji uzyskanych z pomiaru znanej wartości.

Rozkład kategoryczny

Uogólniając wszystkie powyższe przypadki, rozważmy kategoryczną dyskretną zmienną losową ze wsparciem i pf podanym przez

Dla celów teorii informacji wartości nie muszą być liczbami ; mogą to być dowolne wzajemnie wykluczające się zdarzenia w przestrzeni miar o skończonej miary , która została znormalizowana do miary prawdopodobieństwa . Bez utraty ogólności możemy założyć, że rozkład kategoryczny jest obsługiwany na zbiorze ; struktura matematyczna jest izomorficzna pod względem teorii prawdopodobieństwa, a zatem również teorii informacji .

Informacje o wynikach podano

Na podstawie tych przykładów możliwe jest obliczenie informacji o dowolnym zestawie niezależnych DRV o znanych rozkładach przez addytywność .

Związek z entropią

Entropia jest oczekiwana wartość zawartości informacyjnej zmiennej losowej dyskretnej , z oczekiwaniem przejętego dyskretnych wartości przez nią działań . Czasami sama entropia nazywana jest „self-informacyjny” zmiennej losowej, prawdopodobnie dlatego, że entropia spełnia , gdzie jest wzajemna informacja o sama ze sobą.

Dla ciągłych zmiennych losowych odpowiada pojęcie entropia różniczkowa .

Pochodzenie

Z definicji informacja jest przekazywana od podmiotu inicjującego posiadającego informacje do podmiotu odbierającego tylko wtedy, gdy odbiorca nie znał informacji a priori . Jeżeli podmiot odbierający znał wcześniej treść wiadomości z pewnością przed odebraniem wiadomości, ilość informacji otrzymanej wiadomości wynosi zero. Tylko wtedy, gdy wcześniejsza wiedza o treści wiadomości przez odbiorcę jest mniej niż 100% pewna, wiadomość faktycznie przekazuje informację.

Na przykład, cytując postać (Hippy Dippy Weatherman) komika George'a Carlina , „Prognoza pogody na dziś: ciemno. Ciągle ciemność w nocy, z szeroko rozproszonym światłem do rana. Zakładając, że nie mieszka się w pobliżu biegunów Ziemi lub kręgów podbiegunowych , ilość informacji przekazywanych w tej prognozie wynosi zero, ponieważ wiadomo przed otrzymaniem prognozy, że ciemność zawsze nadchodzi wraz z nocą.

W związku z tym ilość samodzielnego informacji zawartych w treści wiadomości przenoszenia informującą o wystąpieniu zdarzenia , zależy tylko od prawdopodobieństwa tego zdarzenia.

dla niektórych funkcji, które zostaną określone poniżej. Jeśli , to . Jeśli , to .

Ponadto, z definicji, miara samoinformacji jest nieujemna i addytywna. Jeżeli komunikat informujący o zdarzeniu jest przecięciem dwóch niezależnych zdarzeń i , wtedy informacja o wystąpieniu zdarzenia jest informacją złożonej wiadomości zarówno o zdarzeniach niezależnych, jak i występujących. Oczekuje się, że ilość informacji wiadomości złożonej będzie równa sumie ilości informacji poszczególnych wiadomości składowych i odpowiednio:

Ze względu na niezależność zdarzeń i prawdopodobieństwo zdarzenia wynosi

Jednak zastosowanie funkcji powoduje

Dzięki pracy nad równaniem funkcyjnym Cauchy'ego jedyne funkcje monotoniczne mają taką właściwość, że

są funkcjami logarytmu . Jedyna operacyjna różnica między logarytmami o różnych podstawach polega na tym, że różne stałe skalowania, więc możemy założyć

gdzie jest logarytm naturalny . Ponieważ prawdopodobieństwa zdarzeń są zawsze od 0 do 1, a informacje związane z tymi zdarzeniami muszą być nieujemne, wymaga to .

Biorąc pod uwagę te właściwości, samoinformację związaną z wynikiem z prawdopodobieństwem definiuje się jako:

Im mniejsze prawdopodobieństwo zdarzenia , tym większa ilość autoinformacji związanych z komunikatem, że zdarzenie rzeczywiście miało miejsce. Jeśli powyższy logarytm ma podstawę 2, jednostką są bity . To jest najczęstsza praktyka. Używając logarytmu naturalnego podstawy , jednostką będzie nat . Dla logarytmu o podstawie 10 jednostką informacji jest hartley .

Dla szybkiej ilustracji, zawartość informacyjna związana z wynikiem 4 orłów (lub dowolnym konkretnym wynikiem) w 4 kolejnych rzutach monetą to 4 bity (prawdopodobieństwo 1/16), a zawartość informacyjna związana z uzyskaniem wyniku innego niż określony będzie ~0,09 bita (prawdopodobieństwo 15/16). Zobacz powyżej szczegółowe przykłady.

Zobacz też

Bibliografia

Dalsza lektura

Linki zewnętrzne