Informacje o rybaku - Fisher information
W statystyce matematycznej , informacje Fisher (czasem nazywana po prostu informacja ) jest sposobem pomiaru ilości informacji , że obserwowalne zmienna losowa X niesie o nieznanym parametrze θ z rozkładu, że modele X . Formalnie, jest to odchylenie w średniej lub wartość oczekiwana w obserwowanym informacji . W statystyce Bayesa The asymptotycznej dystrybucja na tylnej trybie zależy od informacji Fishera, a nie na przed (zgodnie z twierdzeniem Bernstein-von Misesa , co było przewidywane przez Laplace'a dla wykładniczych rodzin ). Rolę informacji Fishera w asymptotycznej teorii estymacji maksymalnego prawdopodobieństwa podkreślił statystyk Ronald Fisher (po wstępnych wynikach Francisa Ysidro Edgewortha ). Informacje Fishera są również wykorzystywane do obliczania wcześniejszej wartości Jeffreysa , która jest używana w statystyce bayesowskiej.
Macierz informacyjna Fishera służy do obliczania macierzy kowariancji związanych z oszacowaniami maksymalnego prawdopodobieństwa . Może być również stosowany do formułowania statystyk testowych, takich jak test Walda .
Wykazano, że systemy statystyczne o charakterze naukowym (fizyczne, biologiczne itp.), których funkcje prawdopodobieństwa podlegają niezmienności zmian, są zgodne z maksymalną informacją Fishera. Poziom maksimum zależy od natury ograniczeń systemu.
Definicja
Informacja Fishera to sposób pomiaru ilości informacji, które obserwowalna zmienna losowa X niesie ze sobą nieznany parametr θ, od którego zależy prawdopodobieństwo X. Niech f ( X ; θ ) będzie funkcją gęstości prawdopodobieństwa (lub funkcją masy prawdopodobieństwa ) dla X uwarunkowaną wartością θ . Opisuje prawdopodobieństwo, że mamy do czynienia dany wynik X , podane znanym wartość θ . Jeśli f ma ostre maksimum w odniesieniu do zmian θ , łatwo jest wskazać „prawidłową” wartość θ na podstawie danych lub równoważnie, że dane X dostarczają wielu informacji o parametrze θ . Jeśli prawdopodobieństwo f jest płaskie i rozłożone, wtedy oszacowanie rzeczywistej „prawdziwej” wartości θ, która zostałaby uzyskana przy użyciu całej badanej populacji , wymagałoby wielu próbek X. Sugeruje to badanie pewnego rodzaju wariancji względem θ .
Formalnie, częściowe pochodne względem θ z naturalnego logarytmu funkcji prawdopodobieństwa nazywany jest wynik . W pewnych warunkach regularności, jeśli θ jest prawdziwym parametrem (tj. X jest faktycznie rozłożony jako f ( X ; θ ) ), można wykazać, że oczekiwana wartość (pierwszy moment ) wyniku, oszacowana przy prawdziwej wartości parametru , wynosi 0:
Odchylenie od średniej jest zdefiniowane jako informacje Fisher :
Zauważ, że . Zmienna losowa niosąca wysoką informację Fishera implikuje, że wartość bezwzględna wyniku jest często wysoka. Informacja Fishera nie jest funkcją konkretnej obserwacji, ponieważ zmienna losowa X została uśredniona.
Jeżeli log f ( x ; θ ) jest dwukrotnie różniczkowalny względem θ i pod pewnymi warunkami regularności, to informacja Fishera może być również zapisana jako
odkąd
oraz
Zatem informacja Fishera może być postrzegana jako krzywizna krzywej wsparcia (wykres logarytmicznego prawdopodobieństwa). W pobliżu oszacowania największego prawdopodobieństwa , niska informacja Fishera wskazuje zatem, że maksimum wydaje się „tępe”, to znaczy maksimum jest płytkie i istnieje wiele pobliskich wartości o podobnym logarytmicznym prawdopodobieństwie. I odwrotnie, wysoka informacja Fishera wskazuje, że maksimum jest ostre.
Warunki regularności
Warunki prawidłowości są następujące:
- Pochodna cząstkowa f ( X ; θ ) po θ istnieje prawie wszędzie . (Może nie istnieć w zestawie zerowym, o ile ten zestaw nie zależy od θ .)
- Całka z f ( X ; θ ) może być zróżnicowana pod znakiem całki względem θ .
- Wspornik z F ( x , θ ) nie zależy od θ .
Jeśli θ jest wektorem, to warunki regularności muszą być spełnione dla każdego składnika θ . Łatwo znaleźć przykład gęstości, która nie spełnia warunków regularności: Gęstość zmiennej Uniform(0, θ ) nie spełnia warunków 1 i 3. W tym przypadku, mimo że informację Fishera można obliczyć z definicji, nie będzie miał właściwości, które zwykle zakłada.
Pod względem prawdopodobieństwa
Ponieważ prawdopodobieństwo z θ podane X zawsze jest proporcjonalna do prawdopodobieństwa f ( X ; θ ), ich logarytmy konieczności różnią się stałą, która jest niezależna od θ i pochodne tych logarytmów względem θ muszą być równe. Tak więc można zastąpić logarytmem prawdopodobieństwa l ( θ ; X ) zamiast log f ( X ; θ ) w definicjach informacji Fishera.
Próbki o dowolnej wielkości
Wartość X może reprezentować pojedynczą próbkę pobraną z pojedynczego rozkładu lub może reprezentować zbiór próbek pobranych z kolekcji rozkładów. Jeżeli istnieje n próbek i odpowiadające N rozkłady są statystycznie niezależne , to informacje Fisher koniecznie być suma pojedynczych przykładowe wartości informacyjnych Fisher, po jednym dla każdej pojedynczej próbce od jej rozkładu. W szczególności, jeśli rozkłady n są niezależne i mają identyczny rozkład, wtedy informacja Fishera będzie z konieczności n razy większa niż informacja Fishera pojedynczej próbki ze wspólnego rozkładu.
Nieformalne wyprowadzenie granicy Cramér-Rao
Cramera-Rao stany że odwrotność informacji Fishera jest dolna granica na wariancji każdego nieobciążonego estymatora z θ . HL Van Trees (1968) i B. Roy Frieden (2004) dostarczają następującej metody wyprowadzania wiązania Craméra-Rao , wyniku opisującego wykorzystanie informacji Fishera.
Nieformalnie zaczynamy od rozważenia bezstronnego estymatora . Matematycznie „bezstronny” oznacza, że
To wyrażenie jest zerem niezależne od θ , więc jego pochodna cząstkowa po θ również musi wynosić zero. Zgodnie z regułą iloczynu ta pochodna cząstkowa jest również równa
Dla każdego θ funkcja prawdopodobieństwa jest funkcją gęstości prawdopodobieństwa, a zatem . Z podstawowych obliczeń wynika, że
Korzystając z tych dwóch faktów w powyższym, otrzymujemy
Faktoring daje całkę
Podnosząc do kwadratu wyrażenie w całce, nierówność Cauchy'ego-Schwarza daje
Drugi czynnik w nawiasach jest zdefiniowany jako informacja Fishera, podczas gdy pierwszy czynnik w nawiasach to oczekiwany błąd średniokwadratowy estymatora . Zmieniając układ, nierówność mówi nam, że
Innymi słowy, dokładność, z jaką możemy oszacować θ, jest zasadniczo ograniczona przez informację Fishera funkcji wiarygodności.
Jednoparametrowy eksperyment Bernoulliego
Próba Bernoulliego jest zmienną losową z dwoma możliwymi wynikami, „sukcesem” i „porażką”, przy czym prawdopodobieństwo sukcesu wynosi θ . Wynik można uznać za określony przez rzut monetą, przy czym prawdopodobieństwo, że orła wynosi θ, a prawdopodobieństwo reszki wynosi 1 − θ .
Niech X będzie procesem Bernoulliego. Informacje Fishera zawarte w X można obliczyć jako:
Ponieważ informacje Fishera są addytywne, informacje Fishera zawarte w n niezależnych próbach Bernoulliego są zatem:
Jest to odwrotność wariancji średniej liczby sukcesów w n próbach Bernoulliego , więc w tym przypadku granica Craméra-Rao jest równością.
Forma macierzowa
Gdy istnieje N parametrów, tak że θ jest wektorem N × 1, informacja Fishera przybiera postać macierzy N × N . Ta macierz nazywa się macierzą informacji Fishera (FIM) i ma typowy element
FIM jest macierzą N × N dodatnią półokreśloną . Jeżeli jest ona dodatnio określona, to definiuje metrykę Riemanna w N - wymiarowej przestrzeni parametrów . Geometria informacji tematu używa tego do połączenia informacji Fishera z geometrią różniczkową iw tym kontekście ta metryka jest znana jako metryka informacji Fishera .
W pewnych warunkach regularności macierz informacji Fishera może być również zapisana jako
Wynik jest interesujący na kilka sposobów:
- Można ją określić jako juty o względnej entropii .
- Może być używana jako metryka Riemanna do definiowania geometrii Fishera-Rao, gdy jest ona dodatnio określona.
- Można ją rozumieć jako metrykę indukowaną z metryki euklidesowej , po odpowiedniej zmianie zmiennej.
- W swojej postaci o wartościach zespolonych jest to metryka Fubini-Study .
- Jest to kluczowa część dowodu twierdzenia Wilksa , która umożliwia oszacowanie obszaru ufności dla oszacowania maksymalnego prawdopodobieństwa (dla tych warunków, do których ma zastosowanie) bez konieczności stosowania zasady prawdopodobieństwa .
- W przypadkach, w których obliczenia analityczne powyższego FIM są trudne, możliwe jest utworzenie średniej z łatwych oszacowań Monte Carlo hesjanu ujemnej logarytmicznej funkcji prawdopodobieństwa jako oszacowania FIM. Szacunki mogą być oparte na wartościach ujemnej logarytmicznej funkcji prawdopodobieństwa lub na gradiencie ujemnej logarytmicznej funkcji prawdopodobieństwa; nie jest potrzebne analityczne obliczenie hesjanu ujemnej logarytmicznej funkcji prawdopodobieństwa.
Parametry ortogonalne
Mówimy, że dwa parametry θ i oraz θ j są ortogonalne, jeśli element i- tego wiersza i j- tej kolumny macierzy informacyjnej Fishera wynosi zero. Parametry ortogonalne są łatwe do radzenia sobie w tym sensie, że ich oszacowania maksymalnego prawdopodobieństwa są niezależne i można je obliczyć oddzielnie. Podczas rozwiązywania problemów badawczych bardzo często badacz poświęca trochę czasu na poszukiwanie ortogonalnej parametryzacji gęstości związanych z problemem.
Pojedynczy model statystyczny
Jeżeli macierz informacji Fishera jest dodatnio określona dla wszystkich θ , to odpowiadający jej model statystyczny jest uważany za regularny ; w przeciwnym razie mówi się, że model statystyczny jest pojedynczy . Przykładami osobliwych modeli statystycznych są: mieszaniny normalne, mieszaniny dwumianowe, mieszaniny wielomianowe, sieci bayesowskie, sieci neuronowe, radialne funkcje bazowe, ukryte modele Markowa, stochastyczne gramatyki bezkontekstowe, regresje zredukowanych rang, maszyny Boltzmanna.
W uczeniu maszynowym , jeśli model statystyczny jest opracowany tak, aby wydobywał ukrytą strukturę ze zjawiska losowego, to w naturalny sposób staje się on pojedynczy.
Wielowymiarowy rozkład normalny
FIM dla A N -variate wielowymiarowej rozkładu normalnego , ma szczególny kształt. Niech K- wymiarowy wektor parametrów będzie i wektor losowych zmiennych normalnych będzie . Załóżmy, że średnie wartości tych zmiennych losowych to , i niech będzie macierzą kowariancji . Wtedy, dla , wpis ( m , n ) FIM to:
gdzie oznacza transpozycję w wektorze, oznacza ślad o kwadratowej macierzy , przy czym:
Zauważ, że szczególnym, ale bardzo powszechnym przypadkiem jest ten, w którym , stała. Następnie
W tym przypadku informacje matryca Fisher mogą być identyfikowane z matrycą współczynnik normalnych równań o najmniejszych kwadratów teorii estymacji.
Inny szczególny przypadek ma miejsce, gdy średnia i kowariancja zależą od dwóch różnych parametrów wektora, powiedzmy β i θ . Jest to szczególnie popularne w analizie danych przestrzennych, która często wykorzystuje model liniowy ze skorelowanymi resztami. W tym przypadku,
gdzie
Nieruchomości
Zasada łańcuchowa
Podobnie jak entropia lub wzajemna informacja , informacja Fishera posiada również rozkład reguł łańcucha . W szczególności, jeśli X i Y są wspólnie rozłożonymi zmiennymi losowymi, wynika z tego, że:
gdzie i jest informacją Fishera Y względem obliczoną w odniesieniu do warunkowej gęstości Y przy określonej wartości X = x .
W szczególnym przypadku, jeśli dwie zmienne losowe są niezależne , informacja uzyskana przez dwie zmienne losowe jest sumą informacji z każdej zmiennej losowej oddzielnie:
W konsekwencji informacja w losowej próbie n niezależnych i identycznie rozłożonych obserwacji jest n razy większa od informacji w próbie o rozmiarze 1.
Wystarczająca statystyka
Informacje dostarczone przez wystarczającą statystykę są takie same jak w próbie X . Można to zobaczyć za pomocą kryterium faktoryzacji Neymana dla wystarczającej statystyki. Jeśli T ( X ) jest wystarczające dla θ , to
dla niektórych funkcji g i h . Niezależność h ( X ) od θ implikuje
a równość informacji wynika z definicji informacji Fishera. Bardziej ogólnie, jeśli T = t ( X ) jest statystyką , to
z równością wtedy i tylko wtedy, gdy T jest wystarczającą statystyką .
Reparametryzacja
Informacja Fishera zależy od parametryzacji problemu. Jeśli θ i η są dwiema skalarnymi parametryzacjami problemu estymacji, a θ jest ciągle różniczkowalną funkcją η , to
gdzie i są miarami informacyjnymi Fishera odpowiednio η i θ .
W przypadku wektora załóżmy i są k -wektorami, które parametryzują problem estymacji i załóżmy, że jest to ciągle różniczkowalna funkcja , wtedy,
gdzie ( i , j )-ty element macierzy k × k jakobianu jest określony przez
i gdzie jest transpozycja macierzy
W geometrii informacyjnej jest to postrzegane jako zmiana współrzędnych na rozmaitości riemannowskiej , a wewnętrzne właściwości krzywizny pozostają niezmienione przy różnych parametryzacjach. Ogólnie rzecz biorąc, macierz informacji Fishera zapewnia metrykę Riemanna (dokładniej metrykę Fishera-Rao) dla różnorodności stanów termodynamicznych i może być używana jako miara złożoności informacji geometrycznej do klasyfikacji przejść fazowych , np. skalar Krzywizna termodynamicznego tensora metrycznego odbiega w (i tylko w) punkcie przejścia fazowego.
W kontekście termodynamicznym macierz informacji Fishera jest bezpośrednio powiązana z szybkością zmian odpowiednich parametrów porządku . W szczególności takie relacje identyfikują przejścia fazowe drugiego rzędu poprzez rozbieżności poszczególnych elementów macierzy informacyjnej Fishera.
Nierówność izoperymetryczna
Macierz informacji Fishera odgrywa rolę w nierówności, takiej jak nierówność izoperymetryczna . Ze wszystkich rozkładów prawdopodobieństwa o danej entropii ten, którego macierz informacyjna Fishera ma najmniejszy ślad, jest rozkładem Gaussa. To tak, jak ze wszystkich zbiorów ograniczonych o danej objętości kula ma najmniejszą powierzchnię.
Dowód polega na wzięciu wielowymiarowej zmiennej losowej z funkcją gęstości i dodaniu parametru lokalizacji w celu utworzenia rodziny gęstości . Następnie, przez analogię do wzoru Minkowskiego-Steinera , „pole powierzchni” definiuje się jako
gdzie jest zmienną Gaussa z macierzą kowariancji . Nazwa „powierzchnia” jest trafna, ponieważ siła entropii jest objętością „efektywnego zbioru podporowego”, podobnie jak „pochodna” objętości efektywnego zbioru podporowego, podobnie jak wzór Minkowskiego-Steinera. Pozostała część dowodu wykorzystuje nierówność potęgową entropii , która jest podobna do nierówności Brunna-Minkowskiego . Stwierdzono, że ślad macierzy informacyjnej Fishera jest czynnikiem .
Aplikacje
Optymalny projekt eksperymentów
Informacje Fishera są szeroko stosowane w optymalnym projektowaniu eksperymentów . Z powodu wzajemności estymatora-wariancji danych Fisher, minimalizując przez wariancji odpowiada maksymalizuje się informacje .
Gdy liniowy (lub linearyzowany ) statystycznego modelu ma kilka parametrów The średnią estymatora parametrów jest wektor i jego odchylenie jest matryca . Odwrotność macierzy wariancji nazywana jest „macierzą informacji”. Ponieważ wariancja estymatora wektora parametrów jest macierzą, problem „minimalizacji wariancji” jest skomplikowany. Stosując teorię statystyczną , statystycy kompresują macierz informacji za pomocą statystyk podsumowujących o wartościach rzeczywistych ; będąc funkcjami o wartościach rzeczywistych, te „kryteria informacyjne” można maksymalizować.
Tradycyjnie statystycy oceniali estymatory i projekty, biorąc pod uwagę pewną sumaryczną statystykę macierzy kowariancji (nieobciążonego estymatora), zwykle o dodatnich wartościach rzeczywistych (takich jak wyznacznik lub zapis macierzy ). Praca z dodatnimi liczbami rzeczywistymi ma kilka zalet: Jeśli estymator pojedynczego parametru ma dodatnią wariancję, to zarówno wariancja, jak i informacja Fishera są dodatnimi liczbami rzeczywistymi; stąd są one członkami wypukłego stożka nieujemnych liczb rzeczywistych (których niezerowe elementy mają odwrotności w tym samym stożku).
Dla kilku parametrów macierze kowariancji i macierze informacyjne są elementami wypukłego stożka nieujemnych-określonych macierzy symetrycznych w częściowo uporządkowanej przestrzeni wektorowej , pod rzędem Loewnera (Löwnera). Stożek ten jest domknięty przy dodawaniu i odwracaniu macierzy, a także przy mnożeniu dodatnich liczb rzeczywistych i macierzy. W Pukelsheim pojawia się wykład teorii macierzy i porządku Loewnera.
Tradycyjne kryteria optymalności to niezmienniki macierzy informacji , w sensie teorii niezmienników ; algebraicznie, tradycyjne kryteria optymalności są Funkcjonały tych wartości własnych macierzy (Fisher) informacje (patrz optymalnego projektu ).
Jeffreys wcześniej w statystykach bayesowskich
W statystyce bayesowskiej informacje Fishera są używane do obliczania przedrostka Jeffreysa , który jest standardową, nieinformacyjną przedstawioną wartością przedstawioną dla parametrów rozkładu ciągłego.
Neuronauka obliczeniowa
Informacje Fishera zostały wykorzystane do znalezienia granic dokładności kodów neuronowych. W takim przypadku X jest zazwyczaj wspólną odpowiedzią wielu neuronów reprezentujących zmienną niskowymiarową θ (taką jak parametr bodźca). W szczególności zbadano rolę korelacji w szumie odpowiedzi neuronalnych.
Wyprowadzenie praw fizycznych
Informacje Fishera odgrywają kluczową rolę w kontrowersyjnej zasadzie przedstawionej przez Friedena jako podstawa praw fizycznych, twierdzenie, które zostało zakwestionowane.
Nauczanie maszynowe
Informacje Fishera są wykorzystywane w technikach uczenia maszynowego, takich jak elastyczna konsolidacja wag , która ogranicza katastrofalne zapominanie w sztucznych sieciach neuronowych .
Związek z entropią względną
Informacje Fishera są powiązane z entropią względną . Względna entropia lub rozbieżność Kullbacka-Leiblera między dwoma rozkładami i może być zapisana jako
Rozważmy teraz rodzinę rozkładów prawdopodobieństwa sparametryzowaną przez . Następnie rozbieżność Kullbacka-Leiblera między dwoma rozkładami w rodzinie można zapisać jako
Jeśli jest ustalona, to względna entropia między dwoma rozkładami tej samej rodziny jest minimalizowana w . Dla close można rozszerzyć poprzednie wyrażenie w serii aż do drugiego rzędu:
Ale pochodną drugiego rzędu można zapisać jako
Zatem informacja Fishera reprezentuje krzywiznę względnej entropii.
Historia
Informacje Fishera zostały omówione przez kilku wczesnych statystyków, w szczególności FY Edgewortha . Na przykład Savage mówi: „W tym [informacje Fishera], on [Fisher] był do pewnego stopnia oczekiwany (Edgeworth 1908-9, zwłaszcza 502, 507-8, 662, 677-8, 82-5 i przywołuje on [Edgeworth ] cytuje m.in. Pearsona i Filona 1898 [...])." Istnieje wiele wczesnych źródeł historycznych i wiele recenzji tej wczesnej pracy.
Zobacz też
- Wydajność (statystyki)
- Zaobserwowane informacje
- Miernik informacji Fishera
- Macierz formacji
- Geometria informacji
- Jeffreys przeor
- Cramér-Rao związany
- Minimalna informacja Fishera
Inne środki stosowane w teorii informacji :
Uwagi
Bibliografia
- Cramér, Harald (1946). Matematyczne metody statystyki . Szeregi matematyczne Princeton. Princeton: Wydawnictwo Uniwersytetu Princeton. Numer ISBN 0691080046.
- Edgeworth, FY (czerwiec 1908). „O prawdopodobnych błędach stałych częstotliwości” . Dziennik Królewskiego Towarzystwa Statystycznego . 71 (2): 381–397. doi : 10.2307/2339461 . JSTOR 2339461 .
- Edgeworth, FY (wrzesień 1908). „O prawdopodobnych błędach stałych częstotliwości (cd.)” . Dziennik Królewskiego Towarzystwa Statystycznego . 71 (3): 499–512. doi : 10.2307/2339293 . JSTOR 2339293 .
- Edgeworth, FY (grudzień 1908). „O prawdopodobnych błędach stałych częstotliwości (cd.)” . Dziennik Królewskiego Towarzystwa Statystycznego . 71 (4): 651–678. doi : 10.2307/2339378 . JSTOR 2339378 .
- Fisher, RA (1922-01-01). „Na matematycznych podstawach statystyki teoretycznej” . Transakcje filozoficzne Royal Society of London, Seria A . 222 (594-604): 309-368. doi : 10.1098/rsta.1922.0009 .
- Frieden, BR (2004) Science from Fisher Information: A Uniification . Uniwersytet Cambridge Naciskać. ISBN 0-521-00911-1 .
- Frieden, B. Roy; Gatenby, Robert A. (2013). „Zasada maksymalnej informacji Fishera z aksjomatów Hardy'ego stosowanych do systemów statystycznych” . Przegląd fizyczny E . 88 (4): 042144. arXiv : 1405.0007 . Kod Bib : 2013PhRvE..88d2144F . doi : 10.1103/PhysRevE.88.042144 . PMC 4010149 . PMID 24229152 .
- Hald, A. (maj 1999). „O historii maksymalnego prawdopodobieństwa w odniesieniu do odwrotnego prawdopodobieństwa i najmniejszych kwadratów” . Nauka statystyczna . 14 (2): 214–222. doi : 10.1214/ss/1009212248 . JSTOR 2676741 .
- Hald, A. (1998). Historia statystyki matematycznej od 1750 do 1930 . Nowy Jork: Wiley. Numer ISBN 978-0-471-17912-2.
- Lehmann, EL ; Casella, G. (1998). Teoria estymacji punktowej (wyd. 2). Skoczek. Numer ISBN 978-0-387-98502-2.
- Le Cam, Lucien (1986). Metody asymptotyczne w statystycznej teorii decyzji . Springer-Verlag. Numer ISBN 978-0-387-96307-5.
- Pratt, John W. (maj 1976). „FY Edgeworth i RA Fisher na temat efektywności szacowania maksymalnego prawdopodobieństwa” . Roczniki Statystyczne . 4 (3): 501–514. doi : 10.1214/aos/1176343457 . JSTOR 2958222 .
- Rao, C. Radhakrishna (1945). „Informacje i dokładność osiągalna w szacowaniu parametrów statystycznych”. Biuletyn Towarzystwa Matematycznego Kalkuty . Seria Springera w statystyce. 37 : 81-91. doi : 10.1007/978-1-4612-0919-5_16 . Numer ISBN 978-0-387-94037-3.
- Savage, LJ (maj 1976). „O ponownym czytaniu RA Fishera” . Roczniki Statystyczne . 4 (3): 441-500. doi : 10.1214/aos/1176343456 . JSTOR 2958221 .
- Schervish, Mark J. (1995). Teoria statystyki . Nowy Jork: Springer. Numer ISBN 978-0-387-94546-0.
- Stigler SM (1986). Historia statystyki: pomiar niepewności przed 1900 . Wydawnictwo Uniwersytetu Harvarda. Numer ISBN 978-0-674-40340-6.
- Stigler SM (1978). „Francis Ysidro Edgeworth, statystyk” . Dziennik Królewskiego Towarzystwa Statystycznego, Seria A . 141 (3): 287–322. doi : 10.2307/2344804 . JSTOR 2344804 .
- Stigler SM (1999). Statystyki na stole: historia pojęć i metod statystycznych . Wydawnictwo Uniwersytetu Harvarda. Numer ISBN 978-0-674-83601-3.
- Van Drzewa, HL (1968). Teoria wykrywania, estymacji i modulacji, część I . Nowy Jork: Wiley. Numer ISBN 978-0-471-09517-0.