Teoria pola informacyjnego - Information field theory

Teoria pola informacyjnego (IFT) to bayesowska teoria pola statystycznego odnosząca się do rekonstrukcji sygnału , kosmografii i innych pokrewnych dziedzin. IFT podsumowuje dostępne informacje na temat pola fizycznego przy użyciu prawdopodobieństw Bayesa . Wykorzystuje techniki obliczeniowe opracowane dla kwantowej teorii pola i statystycznej teorii pola do obsługi nieskończonej liczby stopni swobody pola i do wyprowadzania algorytmów obliczania wartości oczekiwanych pola . Na przykład, późniejsza wartość oczekiwana pola generowanego przez znany proces Gaussa i mierzona przez urządzenie liniowe ze znanymi statystykami szumu Gaussa jest podawana przez uogólniony filtr Wienera zastosowany do zmierzonych danych. IFT rozciąga takiego znanego wzoru filtra do sytuacji z fizyki nieliniowych , urządzeń nieliniowych , nie Gaussa statystyk polowych lub hałasu, uzależnienie statystyk hałasu na wartości pól, a częściowo z nieznanych parametrów pomiarowych. W tym celu wykorzystuje diagramy Feynmana , równania przepływu renormalizacji i inne metody z fizyki matematycznej .

Motywacja

Dziedziny odgrywają ważną rolę w nauce, technologii i gospodarce. Opisują przestrzenne zmiany wielkości, na przykład temperatury powietrza, w funkcji położenia. Znajomość konfiguracji pola może mieć dużą wartość. Jednak pomiary pól nigdy nie mogą zapewnić dokładnej konfiguracji pola z pewnością. Pola fizyczne mają nieskończoną liczbę stopni swobody, ale dane generowane przez dowolne urządzenie pomiarowe są zawsze skończone, zapewniając tylko skończoną liczbę ograniczeń na polu. Zatem jednoznaczne wyprowadzenie takiego pola na podstawie samych danych pomiarowych jest niemożliwe i jedynie probabilistyczny wniosek pozostaje środkiem do stwierdzenia o polu. Na szczęście pola fizyczne wykazują korelacje i często podlegają znanym prawom fizycznym. Takie informacje najlepiej wtapiać w wnioskowanie o polu, aby przezwyciężyć niedopasowanie stopni swobody pola do punktów pomiarowych. Aby sobie z tym poradzić, potrzebna jest teoria informacji dla pól i tym właśnie jest teoria pola informacyjnego.

Koncepcje

Wnioskowanie bayesowskie

to wartość pola w miejscu w przestrzeni . W rozkładzie prawdopodobieństwa zakodowana jest wcześniejsza wiedza o nieznanym polu sygnału . Dane dostarczają dodatkowych informacji na temat prawdopodobieństwa, które jest uwzględniane w prawdopodobieństwie późniejszym

zgodnie z twierdzeniem Bayesa .

Informacje Hamiltonian

W IFT twierdzenie Bayesa jest zwykle przepisywane w języku statystycznej teorii pola,

z informacją Hamiltonian zdefiniowaną jako
ujemny logarytm wspólnego prawdopodobieństwa danych i sygnału i przy funkcji rozdziału istoty
To przeformułowanie twierdzenia Bayesa pozwala na użycie metod fizyki matematycznej opracowanych do traktowania statystycznych teorii pola i kwantowych teorii pola .

Pola

Ponieważ pola mają nieskończoną liczbę stopni swobody, definicja prawdopodobieństw w przestrzeniach konfiguracji pól ma pewne subtelności. Zidentyfikowanie pól fizycznych jako elementów przestrzeni funkcyjnych stwarza problem polegający na tym, że żadna miara Lebesgue'a nie jest zdefiniowana nad tym ostatnim, a zatem nie można tam zdefiniować gęstości prawdopodobieństwa. Jednak pola fizyczne mają znacznie większą regularność niż większość elementów przestrzeni funkcyjnych, ponieważ są one ciągłe i gładkie w większości swoich lokalizacji. Dlatego mniej ogólne, ale wystarczająco elastyczne konstrukcje mogą być używane do obsługi nieskończonej liczby stopni swobody pola.

Pragmatycznym podejściem jest traktowanie pola jako dyskretyzacyjnego pod względem pikseli. Każdy piksel ma jedną wartość pola, która przyjmuje się, że jest stała w ramach objętości piksela. Wszystkie stwierdzenia dotyczące pola ciągłego muszą następnie zostać wrzucone do jego reprezentacji pikselowej. W ten sposób mamy do czynienia z skończonymi wymiarami przestrzeniami pól, w których gęstości prawdopodobieństwa są dobrze definiowalne.

Aby opis ten był poprawną teorią pola, wymagane jest ponadto, aby rozdzielczość pikseli zawsze mogła zostać dopracowana, podczas gdy wartości oczekiwane pola dyskretyzowanego zbiegają się do wartości skończonych:

Całki po ścieżce

Jeśli ta granica istnieje, można mówić o całce przestrzeni konfiguracji pola lub całce po ścieżce

niezależnie od rozdzielczości można to ocenić numerycznie.

Przeor Gaussa

Najprostszym poprzednikiem dla pola jest zerowy średni rozkład prawdopodobieństwa Gaussa

Wyznacznik w mianowniku może być źle zdefiniowany w granicy kontinuum , jednak wszystko, co jest konieczne, aby IFT było spójne, to to, że wyznacznik ten można oszacować dla dowolnej reprezentacji pola o skończonej rozdzielczości z i to pozwala na obliczenie zbieżnych wartości oczekiwanych .

Rozkład prawdopodobieństwa Gaussa wymaga podania zmiennej dwupunktowej funkcji korelacji ze współczynnikami

i iloczyn skalarny dla pól ciągłych
w odniesieniu do którego konstruowana jest odwrotna kowariancja pola sygnału , tj

Odpowiednie wcześniejsze informacje czyta Hamiltonian

Równanie pomiaru

Dane pomiarowe zostały wygenerowane z prawdopodobieństwem . W przypadku, gdy przyrząd był liniowy, równanie pomiarowe w postaci

można podać, w którym jest odpowiedź instrumentu, która opisuje, jak dane średnio reagują na sygnał, i jest szumem, po prostu różnicą między danymi a odpowiedzią sygnału liniowego . Należy zauważyć, że odpowiedź przekłada nieskończenie wymiarowy wektor sygnałowy na skończoną wymiarową przestrzeń danych. W komponentach to brzmi

gdzie dla wektorów sygnałowych i danych wprowadzono również notację składową wektorową.

Jeśli szum jest zgodny z niezależną od sygnału zerową średnią statystyką Gaussa z kowariancją , to prawdopodobieństwo jest również Gaussowskie,

a informacja o prawdopodobieństwie to Hamiltonian
Liniowy pomiar sygnału Gaussa, podlegającego szumowi Gaussowskiemu i niezależnemu od sygnału, prowadzi do wolnego IFT.

Wolna teoria

Bezpłatny Hamiltonian

Wspólny hamiltonian informacyjny scenariusza Gaussa opisanego powyżej to

gdzie oznacza równość aż do nieistotnych stałych, co w tym przypadku oznacza wyrażenia niezależne od . Z tego jasno wynika, że ​​tylne musi być Gaussem ze średnią i wariancją ,
gdzie równość z prawej i lewej strony ręka trzyma jak obie dystrybucje są znormalizowane, .

Uogólniony filtr Wienera

Tylna średnia

jest również znany jako uogólnione rozwiązanie filtru Wienera i kowariancja niepewności
jako wariancja Wienera.

W IFT nazywane jest źródłem informacji, ponieważ działa jako termin źródłowy wzbudzający pole (wiedzę), a propagator informacji, ponieważ propaguje informacje z jednego miejsca do drugiego w

Teoria interakcji

Hamiltonian interakcji

Jeśli którekolwiek z założeń, które prowadzą do swobodnej teorii, zostanie naruszone, IFT staje się teorią oddziałującą, z terminami wyższymi niż kwadratowe w polu sygnału. Dzieje się tak, gdy sygnał lub szum nie podążają za statystyką Gaussa, gdy odpowiedź jest nieliniowa, gdy szum zależy od sygnału lub gdy odpowiedź lub kowariancje są niepewne.

W tym przypadku informacje Hamiltonian można rozszerzyć w serii Taylora - Frécheta ,

gdzie jest wolny hamiltonian, który sam prowadziłby do tylnej części Gaussa, i jest hamiltonianem oddziałującym, który koduje poprawki niegaussowskie. Współczynniki Taylora pierwszego i drugiego rzędu są często utożsamiane odpowiednio z (negatywnym) źródłem informacji i propagatorem informacji . Wyższe współczynniki są związane z nieliniowymi interakcjami własnymi.

Pole klasyczne

Pole klasyczne minimalizuje hamiltonian informacyjny,

i dlatego maksymalizuje tylne:
Pole klasyczne jest więc maksymalnym estymatorem a posteriori problemu wnioskowania pola.

Filtr krytyczny

Problem z filtrem Wienera wymaga znajomości dwupunktowej korelacji pola. Jeśli jest nieznany, należy go wywnioskować wraz z samym polem. Wymaga to określenia

hiperpriora . Często można założyć statystyczną jednorodność (niezmienność translacji), co oznacza, że jest to przekątna w przestrzeni Fouriera ( jako wymiarowa przestrzeń kartezjańska ). W tym przypadku wystarczy wywnioskować tylko widmo mocy w przestrzeni Fouriera . Przy dalszym założeniu izotropii statystycznej widmo to zależy tylko od długości wektora Fouriera i należy określić tylko widmo jednowymiarowe . Poprzednia kowariancja pola odczytuje się następnie we współrzędnych w przestrzeni Fouriera .

Jeśli poprzednia wartość jest płaska, wspólne prawdopodobieństwo danych i widma wynosi

gdzie ponownie zastosowano notację propagatora informacji i źródła problemu filtru Wienera. Odpowiednią informacją jest Hamiltonian
gdzie oznacza równość do nieistotnych stałych (tutaj: stała w odniesieniu do ). Minimalizowanie tego w odniesieniu do , w celu uzyskania maksymalnego estymatora widma mocy a posteriori, daje wyniki
gdzie wprowadzono średnią filtru Wienera i rzutnik pasma widmowego . Ten ostatni dojeżdża z , ponieważ jest przekątna w przestrzeni Fouriera. Zatem maksymalny estymator a posteriori dla widma mocy wynosi
Musi być obliczany iteracyjnie, jako i zależy od siebie. W
empirycznym podejściu Bayesa oszacowanie zostanie przyjęte jako dane. W konsekwencji późniejsza średnia estymata dla pola sygnału jest odpowiadająca, a jej niepewność odpowiadająca w empirycznej aproksymacji Bayesa.

Powstały filtr nieliniowy nazywany jest filtrem krytycznym . Uogólnienie wzoru na estymację widma mocy jako

wykazuje progi percepcji dla , co oznacza, że ​​wariancja danych w paśmie Fouriera musi przekroczyć oczekiwany poziom szumu o pewien próg, zanim rekonstrukcja sygnału stanie się różna od zera dla tego pasma. Ilekroć wariancja danych nieznacznie przekracza ten próg, rekonstrukcja sygnału przeskakuje do skończonego poziomu wzbudzenia, podobnego do
przejścia fazowego pierwszego rzędu w układach termodynamicznych. Filtr z percepcją sygnału rozpoczyna się w sposób ciągły, gdy tylko zmienność danych przekroczy poziom szumu. Zniknięcie nieciągłej percepcji w jest podobne do systemu termodynamicznego przechodzącego przez punkt krytyczny . Stąd nazwa filtra krytycznego.

Filtr krytyczny, jego rozszerzenie na pomiary nieliniowe oraz włączenie niepłaskich wyprzedzeń widmowych pozwoliło na zastosowanie IFT do problemów wnioskowania sygnałów w świecie rzeczywistym, dla których kowariancja sygnału jest zwykle nieznana a priori.

Przykłady aplikacji IFT

Interferometryczny obraz radiowy galaktyk radiowych w gromadzie galaktyk Abell 2219. Obrazy zostały skonstruowane za pomocą projekcji wstecznej danych (na górze), algorytmu CLEAN (na środku) i algorytmu RESOLVE (na dole). Strumienie ujemne, a zatem nie fizyczne, są wyświetlane na biało.

Uogólniony filtr Wienera, który pojawia się w wolnym IFT, jest szeroko stosowany w przetwarzaniu sygnałów. Algorytmy wyraźnie oparte na IFT zostały wyprowadzone dla wielu zastosowań. Wiele z nich jest implementowanych przy użyciu biblioteki Numerical Information Field Theory (NIFTy).

  • D³PO to kod do Denoising, Deconvolving i Decomposing Photon Observations . Odtwarza obrazy z poszczególnych zdarzeń zliczania fotonów, biorąc pod uwagę statystyki Poissona zliczeń i funkcję odpowiedzi instrumentu. Rozdziela emisję nieba na obraz emisji rozproszonej i jedno ze źródeł punktowych, wykorzystując różną strukturę korelacji i statystyki dwóch składników do ich rozdzielenia. D³PO został zastosowany do danych satelitów Fermi i RXTE .
  • RESOLVE to algorytm bayesowski służący do obrazowania syntezy apertury w radioastronomii. RESOLVE jest podobna do D³PO, ale zakłada prawdopodobieństwo Gaussa i funkcję odpowiedzi w przestrzeni Fouriera. Został zastosowany do danych bardzo dużej tablicy .
  • PySESA to framework Pythona do przestrzennej analizy widmowej jawnej przestrzennie analizy widmowej chmur punktów i danych geoprzestrzennych.

Zaawansowana teoria

Wiele technik z kwantowej teorii pola można wykorzystać do rozwiązywania problemów IFT, takich jak diagramy Feynmana, skuteczne działania i formalizm operatora pola.

Diagramy Feynmana

Pierwsze trzy diagramy Feynmana przyczyniające się do późniejszej średniej estymacji pola. Linia wyraża propagator informacji, kropkę na końcu linii prowadzącej do źródła informacji i wierzchołek terminu interakcji. Pierwszy wykres koduje filtr Wienera, drugi korektę nieliniową, a trzeci korektę niepewności filtr Wienera.

W przypadku współczynników interakcji w rozwinięciu

Taylora - Frécheta hamiltonianu informacyjnego
są małe, funkcja partycji dziennika lub darmowa energia Helmholtza ,
można rozwinąć asymptotycznie pod względem tych współczynników. Wolny hamiltonian określa średnią i wariancję rozkładu Gaussa, z którym zintegrowane jest rozszerzenie. Prowadzi to do sumy na zbiorze wszystkich połączonych
diagramów Feynmana . Z darmowej energii Helmholtza można obliczyć dowolny połączony moment pola
Sytuacje, w których istnieją małe parametry rozszerzania, które są potrzebne do osiągnięcia zbieżności takiego rozwinięcia diagramowego, są przedstawiane przez pola sygnałowe prawie Gaussa, w których nie-Gaussowska statystyka pola prowadzi do małych współczynników interakcji . Na przykład statystyki
kosmicznego mikrofalowego tła są prawie gaussowskie, z niewielkimi ilościami nie-gaussowskimi, jak się uważa, zaszczepionymi w epoce inflacji we wczesnym Wszechświecie .

Skuteczne działanie

Aby mieć stabilne wartości liczbowe dla problemów z IFT, potrzebny jest funkcjonał pola, który po zminimalizowaniu zapewnia tylne pole średnie. Daje to efektywne działanie lub energia swobodna pola

Gibbsa . Darmowa energia Gibbsa może być zbudowana z darmowej energii Helmholtza poprzez transformację Legendre'a . W IFT jest to różnica wewnętrznej energii informacyjnej
i entropia Shannona
dla temperatury , gdzie stosuje się późniejszą aproksymację Gaussa z przybliżonymi danymi zawierającymi średnią i dyspersję pola.

Jest więc energia swobodna Gibbsa

dywergencja Kullback-Leiblera między przybliżone i dokładnym posterior plus Energia swobodna Helmholtza. Ponieważ ta ostatnia nie zależy od przybliżonych danych , minimalizacja energii swobodnej Gibbsa jest równoważna zminimalizowaniu dywergencji Kullbacka-Leiblera między przybliżoną a dokładną tylną. Zatem metoda efektywnego działania IFT jest równoważna
wariacyjnym metodom bayesowskim , które również minimalizują rozbieżność Kullbacka-Leiblera między przybliżonymi i dokładnymi zębami tylnymi.

Minimalizacja swobodnej energii Gibbsa zapewnia w przybliżeniu tylne pole średnie

podczas gdy minimalizacja informacji Hamiltonian zapewnia maksymalne pole a posteriori. Ponieważ ten ostatni jest znany z nadmiernego dopasowania szumu, ten pierwszy jest zwykle lepszym estymatorem pola.

Formalizm operatora

Obliczenie energii swobodnej Gibbsa wymaga obliczenia całek Gaussa na hamiltonianie informacyjnym, ponieważ wewnętrzna energia informacyjna jest

Takie całki można obliczyć za pomocą formalizmu operatora pola, w którym
jest operatorem pola. To generuje wyrażenie pola w całce, jeśli zostanie zastosowane do funkcji rozkładu Gaussa,
i każdą większą moc pola, jeśli zostanie zastosowana kilka razy,
Jeśli informacja Hamiltonian jest analityczna, wszystkie jej warunki można wygenerować za pośrednictwem operatora pola
Ponieważ operator pola nie jest zależny od samego pola , można go wyciągnąć z całki toru wewnętrznej konstrukcji energii informacyjnej,
gdzie należy traktować jako funkcję, która zawsze zwraca wartość, niezależnie od wartości jej danych wejściowych . Wynikowe wyrażenie można obliczyć, zamieniając średni anihilator pola na prawo od wyrażenia, gdzie znikają od tego czasu . Średni anihilator pola przemieszcza się ze średnim polem jako

Za pomocą formalizmu operatora pola można obliczyć swobodną energię Gibbsa, co pozwala na (przybliżone) wnioskowanie o późniejszym polu średnim poprzez liczbową solidną minimalizację funkcjonalną.

Historia

Książkę Norberta Wienera można uznać za jedną z pierwszych prac poświęconych wnioskowaniu pola. Zastosowanie całek po trajektorii do wnioskowania o polu zaproponowało wielu autorów, np. Edmund Bertschinger czy William Bialek i A. Zee. Połączenie teorii pola i rozumowania bayesowskiego zostało wyraźnie przedstawione przez Jörga Lemma. Termin teoria pola informacyjnego został wymyślony przez Torstena Enßlina. Więcej informacji na temat historii IFT można znaleźć w drugiej publikacji.

Zobacz też

Bibliografia