Entropia różniczkowa - Differential entropy

Entropia różnica (nazywane także ciągłym entropii ) jest pojęciem w teorii informacji , która rozpoczęła się jako próbę przez Shannon rozszerzenia idei (Shannon) entropii , miara przeciętnego nieuwagę o zmiennej losowej , do ciągłych rozkładów prawdopodobieństwa . Niestety, Shannon nie wyprowadził tego wzoru, a raczej po prostu założył, że jest to poprawny ciągły analog dyskretnej entropii, ale tak nie jest. Rzeczywistą ciągłą wersją dyskretnej entropii jest graniczna gęstość punktów dyskretnych (LDDP). Entropia różniczkowa (opisana tutaj) jest powszechnie spotykana w literaturze, ale jest to przypadek ograniczający LDDP i taki, który traci swoje fundamentalne powiązanie z entropią dyskretną .

Definicja

Niech będzie zmienną losową z funkcją gęstości prawdopodobieństwa, której wsparcie jest zbiorem . Entropia różnica lub jest zdefiniowany jako

W przypadku rozkładów prawdopodobieństwa, które nie mają wyraźnego wyrażenia funkcji gęstości, ale mają wyraźne wyrażenie funkcji kwantylowej , można je zdefiniować za pomocą pochodnej np. Funkcji gęstości kwantylowej jako

.

Podobnie jak w przypadku jego dyskretnego analogu, jednostki entropii różniczkowej zależą od podstawy logarytmu , która zwykle wynosi 2 (tj. Jednostkami są bity ). Zobacz jednostki logarytmiczne dla logarytmów z różnych podstaw. Pojęcia pokrewne, takie jak łączenie , warunkowa entropia różniczkowa i względna entropia, są definiowane w podobny sposób. W przeciwieństwie do dyskretnego analogu, entropia różnicowa ma przesunięcie, które zależy od jednostek użytych do pomiaru . Na przykład, entropia różnicowa wielkości mierzonej w milimetrach będzie o log (1000) większa niż ta sama wielkość mierzona w metrach; wielkość bezwymiarowa będzie miała entropię różnicową log (1000) większą niż ta sama wielkość podzielona przez 1000.

Należy zachować ostrożność próbując zastosować właściwości entropii dyskretnej do entropii różniczkowej, ponieważ funkcje gęstości prawdopodobieństwa mogą być większe niż 1. Na przykład rozkład jednorodny ma ujemną entropię różniczkową

.

Zatem entropia różniczkowa nie ma wspólnych właściwości entropii dyskretnej.

Należy zauważyć, że ciągła wzajemna informacja ma rozróżnienie zachowując jego podstawowe znaczenie jako miara dyskretnej informacji, ponieważ jest rzeczywiście limit dyskretnego wzajemnej informacji o partycjach z i jak te partycje stają się cieńsze i delikatniejsze. Tak więc jest niezmienna w nieliniowych homeomorfizmach (ciągłe i wyjątkowo odwracalne mapy), w tym liniowe transformacje i , i nadal reprezentuje ilość dyskretnej informacji, która może być przesłana przez kanał, który dopuszcza ciągłą przestrzeń wartości.

Dla bezpośredniego analogu dyskretnej entropii rozciągniętej na ciągłą przestrzeń, zobacz ograniczanie gęstości dyskretnych punktów .

Własności entropii różniczkowej

  • Dla gęstości prawdopodobieństwa i , dywergencja Kullbacka-Leiblera jest większa lub równa 0 z równością tylko wtedy, gdy prawie wszędzie . Podobnie dla dwóch zmiennych losowych i , iz równością wtedy i tylko wtedy, gdy i są niezależne .
  • Reguła łańcuchowa dla entropii różniczkowej obowiązuje jak w przypadku dyskretnym
.
  • Entropia różniczkowa jest niezmiennikiem translacji, tj. Dla stałej .
  • Entropia różniczkowa na ogół nie jest niezmienna w przypadku dowolnych odwracalnych map.
W szczególności dla stałej
Dla zmiennej losowej o wartości wektorowej i macierzy odwracalnej (kwadratowej)
  • Ogólnie, w przypadku transformacji z losowego wektora do innego losowego wektora o tych samych wymiarach , odpowiednie entropie są powiązane przez
gdzie jest jakobianin przemiany . Powyższa nierówność staje się równością, jeśli transformacja jest bijekcją. Ponadto, gdy występuje sztywny obrót, translacja lub ich kombinacja, determinantą Jakobianu jest zawsze 1, i .
  • Jeśli wektor losowy ma średnie zero i macierz kowariancji , z równością wtedy i tylko wtedy, gdy jest łącznie gaussowska (patrz poniżej ).

Jednak entropia różnicowa nie ma innych pożądanych właściwości:

  • Nie jest niezmienna przy zmianie zmiennych i dlatego jest najbardziej przydatna w przypadku zmiennych bezwymiarowych.
  • To może być negatywne.

Modyfikacją entropii różniczkowej, która rozwiązuje te wady, jest względna entropia informacyjna , znana również jako dywergencja Kullbacka-Leiblera, która obejmuje niezmienny współczynnik miary (patrz ograniczanie gęstości punktów dyskretnych ).

Maksymalizacja w rozkładzie normalnym

Twierdzenie

Przy rozkładzie normalnym entropia różniczkowa jest zmaksymalizowana dla danej wariancji. Zmienna losowa Gaussa ma największą entropię spośród wszystkich zmiennych losowych o równej wariancji lub, alternatywnie, maksymalny rozkład entropii przy ograniczeniach średniej i wariancji jest Gaussa.

Dowód

Niech będzie Gaussowskim plikiem PDF ze średnią μ i wariancją oraz dowolnym plikiem PDF z tą samą wariancją. Ponieważ entropia różniczkowa jest niezmienna translacji, możemy założyć, że ma taką samą średnią as .

Rozważmy dywergencję Kullbacka-Leiblera między dwoma rozkładami

Teraz zauważ to

ponieważ wynik nie zależy od czegoś innego niż przez wariancję. Połączenie tych dwóch wyników daje

z równością, gdy wynika z właściwości dywergencji Kullbacka – Leiblera.

Alternatywny dowód

Wynik ten można również wykazać za pomocą rachunku wariacyjnego . Funkcję Lagrange'a z dwoma mnożnikami Lagrange'a można zdefiniować jako:

gdzie g (x) jest jakąś funkcją o średniej μ. Kiedy entropia g (x) jest maksymalna i równania ograniczające, które składają się z warunku normalizacji i wymogu stałej wariancji , są spełnione, wówczas niewielka zmiana δ g ( x ) około g (x) da zmienność δ L wokół L, która jest równa zeru:

Ponieważ musi to obowiązywać dla każdego małego δ g ( x ), termin w nawiasach musi wynosić zero, a rozwiązanie dla g (x) daje:

Użycie równań więzów do rozwiązania dla λ 0 i λ daje rozkład normalny:

Przykład: rozkład wykładniczy

Niech będzie zmienną losową o rozkładzie wykładniczym z parametrem , to znaczy z funkcją gęstości prawdopodobieństwa

Jego entropia różniczkowa jest wtedy

W tym przypadku użyto zamiast wyjaśnienia, że ​​logarytm został wzięty do podstawy e , aby uprościć obliczenia.

Związek z błędem estymatora

Entropia różniczkowa daje dolną granicę oczekiwanego kwadratu błędu estymatora . Dla każdej zmiennej losowej i estymatora obowiązują następujące zasady:

z równością wtedy i tylko wtedy, gdy jest zmienną losową Gaussa i jest średnią .

Entropie różniczkowe dla różnych rozkładów

W poniższej tabeli jest funkcja gamma , to digamma , to funkcja beta , a γ E to stała Eulera .

Tabela entropii różniczkowych
Nazwa dystrybucji Funkcja gęstości prawdopodobieństwa (pdf) Entropia w natsach Wsparcie
Mundur
Normalna
Wykładniczy
Rayleigh
Beta dla
Cauchy
Chi
Chi-kwadrat
Erlang
fa
Gamma
Laplace
Logistyka
Lognormal
Maxwell – Boltzmann
Uogólniona norma
Pareto
Student's t
Trójkątny
Weibull
Normalne na wielu odmianach

Wiele różnicowych entropii pochodzi z.

Warianty

Jak opisano powyżej, entropia różnicowa nie ma wspólnych właściwości entropii dyskretnej. Na przykład różnicowa entropia może być ujemna; również nie jest niezmienna w przypadku ciągłych przekształceń współrzędnych. Edwin Thompson Jaynes wykazał w rzeczywistości, że powyższe wyrażenie nie jest poprawną granicą wyrażenia dla skończonego zbioru prawdopodobieństw.

Modyfikacja entropii różniczkowej powoduje dodanie niezmiennego współczynnika miary , aby to skorygować (patrz ograniczanie gęstości punktów dyskretnych ). Jeśli dodatkowo ogranicza się gęstość prawdopodobieństwa, powstałe pojęcie nazywa się w teorii informacji względną entropią :

Definicję różnicowej entropii powyżej można uzyskać, dzieląc zakres na biny długości z powiązanymi punktami próbkowania w przedziałach, dla liczby całkowitej Riemanna. Daje to skwantyzowaną wersję , zdefiniowaną przez if . Wtedy entropia jest

Pierwszy człon po prawej stronie aproksymuje różnicową entropię, podczas gdy drugi człon jest w przybliżeniu . Zauważ, że ta procedura sugeruje, że entropia w dyskretnym sensie ciągłej zmiennej losowej powinna być .

Zobacz też

Bibliografia

Linki zewnętrzne