Teoria estymacji - Estimation theory

Teoria estymacji to dział statystyki zajmujący się szacowaniem wartości parametrów na podstawie zmierzonych danych empirycznych, które mają składnik losowy. Parametry opisują podstawowe ustawienie fizyczne w taki sposób, że ich wartość wpływa na rozkład danych pomiarowych. Estymator usiłuje zbliżyć nieznanych parametrów za pomocą pomiarów. Czytaj W teorii estymacji na ogół rozważane są dwa podejścia.

Podejście probabilistyczne (opisane w tym artykule) zakłada, że dane pomiarowe są losowe z rozkładem prawdopodobieństwa zależnym od interesujących nas parametrów
Podejście zbioru-członkostwa zakłada, że wektor danych pomiarowych należy do zbioru, który zależy od wektora parametrów.

Przykłady

Na przykład pożądane jest oszacowanie odsetka populacji wyborców, którzy zagłosują na konkretnego kandydata. Ta proporcja jest poszukiwanym parametrem; szacunek opiera się na małej losowej próbie wyborców. Alternatywnie, pożądane jest oszacowanie prawdopodobieństwa głosowania wyborcy na konkretnego kandydata na podstawie pewnych cech demograficznych, takich jak wiek.

Lub, na przykład, w radarze celem jest znalezienie zasięgu obiektów (samoloty, łodzie itp.) poprzez analizę dwukierunkowego czasu przejścia odebranych ech wysyłanych impulsów. Ponieważ odbite impulsy są nieuchronnie osadzane w szumie elektrycznym, ich zmierzone wartości są losowo rozłożone, tak że czas przejścia musi być oszacowany.

Inny przykład, w teorii komunikacji elektrycznej, pomiary, które zawierają informacje dotyczące interesujących parametrów, są często związane z zaszumionym sygnałem .

Podstawy

Dla danego modelu potrzeba kilku „składników” statystycznych, aby można było zaimplementować estymator. Pierwsza to próba statystyczna – zbiór punktów danych pobranych z losowego wektora (RV) o rozmiarze N . Wstaw do wektora ,

{\ Displaystyle \ mathbf {x} = {\ zacząć {bmatrix} x [0] \ \ x [1] \ \ \ vdots \ \ x [N-1] \ koniec {bmatrix}}}.}

Po drugie, są parametry M

\mathbf {\theta} ={\zacząć{bmatrix}\theta_{1}\\\theta_{2}\\\vdots \\\theta_{M}\koniec {bmatrix}}

których wartości mają być oszacowane. Po trzecie, ciągłą funkcję gęstości prawdopodobieństwa (pdf) lub jej dyskretny odpowiednik, funkcję masy prawdopodobieństwa (pmf) rozkładu bazowego, który wygenerował dane, należy określić w zależności od wartości parametrów:

p(\mathbf {x} |\mathbf {\theta}).\,

Możliwe jest również, że same parametry mają rozkład prawdopodobieństwa (np. statystyka bayesowska ). Następnie konieczne jest zdefiniowanie prawdopodobieństwa bayesowskiego

\pi (\mathbf {\theta}).\,

Po utworzeniu modelu, celem jest oszacowanie parametrów, z oszacowaniami powszechnie oznaczanymi , gdzie „czapka” oznacza oszacowanie. ${\kapelusz {\mathbf {\theta}}}$

Jednym wspólnym estymatorem jest estymator minimalnego błędu średniokwadratowego (MMSE), który wykorzystuje błąd między oszacowanymi parametrami a rzeczywistą wartością parametrów

\mathbf {e} ={\kapelusz {\mathbf {\theta}}}-\mathbf {\theta}

jako podstawa optymalności. Ten składnik błędu jest następnie podnoszony do kwadratu, a oczekiwana wartość tej kwadratowej wartości jest minimalizowana dla estymatora MMSE.

Estymatory

Powszechnie stosowane estymatory (metody estymacji) i tematy z nimi związane to:

Estymatory największej wiarygodności
Estymatory Bayesa
Metoda estymatorów momentów
Cramér-Rao związany
Najmniej kwadratów
Minimalny błąd średniokwadratowy (MMSE), znany również jako błąd najmniejszego kwadratu Bayesa (BLSE)
Maksymalnie a posteriori (MAP)
Nieobciążony estymator minimalnej wariancji (MVUE)
Nieliniowa identyfikacja systemu
Najlepszy liniowy nieobciążony estymator (NIEBIESKI)
Bezstronne estymatory — patrz błąd estymatora .
Filtr cząstek
Sieć Markowa Monte Carlo (MCMC)
Filtr Kalmana i jego różne pochodne
Filtr Wienera

Przykłady

Nieznana stała w addytywnym białym szumie Gaussa

Rozważmy otrzymany dyskretny sygnał , , niezależnych próbek, który składa się z nieznanej stałej z dodatkiem białego szumu Gaussa (AWGN) o zerowej średniej i znanej wariancji ( tj , ). Ponieważ wariancja jest znana, jedynym nieznanym parametrem jest . $x[n]$ ${\ Displaystyle N}$ ${\ Displaystyle A}$ $w[n]$ ${\ Displaystyle \ sigma ^ {2}}$ ${\ Displaystyle {\ mathcal {N}} (0, \ sigma ^ {2})}$ ${\ Displaystyle A}$

Modelem sygnału jest zatem

{\ Displaystyle x [n] = A + w [n] \ quad n = 0,1, \ kropki, N-1}

Dwa możliwe (z wielu) estymatory dla parametru to: ${\ Displaystyle A}$

${\kapelusz {A}}_{1}=x[0]$
${\ Displaystyle {\ kapelusz {A}} {2} = {\ Frac {1} {N}} \ suma _ {n = 0} ^ {N-1} x [n]}$ która jest średnią próbki

Oba te estymatorów mają średnią z , która może być pokazany przez poświęcenie oczekiwaną wartość każdego estymatora ${\ Displaystyle A}$

{\ Displaystyle \ operatorname {E} \ lewo [{\ kapelusz {A}} _ {1} \ prawej] = \ operatorname {E} \ lewo [x [0] \ prawo] = A}

oraz

{\ Displaystyle \ operatorname {E} \ lewo [{\ kapelusz {A}} _ {2} \ prawej] = \ operatorname {E} \ lewo [{\ Frac {1} {N}} \ suma _ {n = 0}^{N-1}x[n]\right]={\frac {1}{N}}\left[\sum _{n=0}^{N-1}\mathrm {E} \left [x[n]\right]\right]={\frac {1}{N}}\left[NA\right]=A}

W tym momencie wydaje się, że te dwa estymatory wykonują to samo. Jednak różnica między nimi staje się widoczna przy porównywaniu wariancji.

{\ Displaystyle \ operatorname {zmienna} \ lewo ({\ kapelusz {A}} _ {1} \ prawej) = \ operatorname {zmienna} \ lewo (x [0] \ po prawej) = \ sigma ^ {2}}

oraz

{\ Displaystyle \ operatorname {zmienna} \ lewo ({\ kapelusz {A}} _ {2} \ prawej) = \ operatorname {zmienna} \ lewo ({\ Frac {1} {N}} \ suma _ {n = 0}^{N-1}x[n]\right){\overset {\text{niezależność}}{=}}{\frac {1}{N^{2}}}\left[\sum _{ n=0}^{N-1}\mathrm {var} (x[n])\right]={\frac {1}{N^{2}}}\left[N\sigma ^{2}\ prawo]={\frac {\sigma ^{2}}{N}}}

Wydawałoby się, że średnia z próby jest lepszym estymatorem, ponieważ jej wariancja jest mniejsza dla każdego N > 1.

Maksymalne prawdopodobieństwo

Kontynuując przykład z wykorzystaniem estymatora największej wiarygodności , funkcja gęstości prawdopodobieństwa (pdf) szumu dla jednej próbki wynosi $w[n]$

{\ Displaystyle p (w [n]) = {\ Frac {1} {\ Sigma {\ sqrt {2 \ pi}}}} \ exp \ lewo (- {\ Frac {1} {2 \ sigma ^ {2 }}}w[n]^{2}\right)}

i prawdopodobieństwo staje się ( można pomyśleć o ) $x[n]$ $x[n]$ ${\ Displaystyle {\ mathcal {N}} (A \ sigma ^ {2})}$

{\ Displaystyle p (x [n]; A) = {\ Frac {1} {\ Sigma {\ sqrt {2 \ pi}}}} \ exp \ lewo (- {\ Frac {1} {2 \ sigma ^ {2}}}(x[n]-A)^{2}\right)}

Przez niezależność prawdopodobieństwo staje się $\mathbf {x}$

{\ Displaystyle p (\ mathbf {x} ; A) = \ prod _ {n = 0} ^ {N-1} p (x [n]; A) = {\ Frac {1} {\ lewo (\ Sigma {\sqrt {2\pi }}\right)^{N}}}\exp \left(-{\frac {1}{2\sigma ^{2}}}\sum _{n=0}^{ N-1}(x[n]-A)^{2}\prawo)}

Biorąc logarytmu naturalnego z PDF

{\ Displaystyle \ ln p (\ mathbf {x} ; A) = - N \ ln \ lewo (\ sigma {\ sqrt {2 \ pi}} \ prawej) - {\ Frac {1} {2 \ sigma ^ { 2}}}\sum _{n=0}^{N-1}(x[n]-A)^{2}}

a estymator największej wiarygodności to

{\ Displaystyle {\ kapelusz {A}} = \ arg \ max \ ln p (\ mathbf {x}; A)}

Biorąc pierwszą pochodną funkcji logarytmicznej wiarygodności

{\ Displaystyle {\ Frac {\ częściowy} {\ częściowy A}} \ ln p (\ mathbf {x}; A) = {\ Frac {1} {\ sigma ^ {2}}} \ lewo [\ suma _ {n=0}^{N-1}(x[n]-A)\right]={\frac {1}{\sigma ^{2}}}\left[\sum _{n=0}^ {N-1}x[n]-NA\prawo]}

i ustawiam na zero

{\ Displaystyle 0 = {\ Frac {1} {\ Sigma ^ {2}}} \ lewo [\ suma _ {n = 0} ^ {N-1} x [n] - NA \ prawej] = \ suma _ {n=0}^{N-1}x[n]-NA}

Daje to estymator największej wiarygodności

{\ Displaystyle {\ kapelusz {A}} = {\ Frac {1} {N}} \ suma _ {n = 0} ^ {N-1} x [n]}

co jest po prostu średnią z próby. Na podstawie tego przykładu stwierdzono, że średnia próbki jest estymatorem maksymalnego prawdopodobieństwa dla próbek o ustalonym, nieznanym parametrze uszkodzonym przez AWGN. ${\ Displaystyle N}$

Cramér-Rao dolna granica

Aby znaleźć dolną granicę Craméra-Rao (CRLB) estymatora średniej próbki, należy najpierw znaleźć numer informacyjny Fishera

{\ Displaystyle {\ mathcal {I}} (A) = \ operatorname {E} \ lewo (\ lewo [{\ Frac {\ częściowy} {\ częściowy A}} \ ln p (\ mathbf {x}; A) \right]^{2}\right)=-\mathrm {E} \left[{\frac {\partial ^{2}}{\partial A^{2}}}\ln p(\mathbf {x} ;Poprawnie]}

i kopiowanie z góry

{\ Displaystyle {\ Frac {\ częściowy} {\ częściowy A}} \ ln p (\ mathbf {x}; A) = {\ Frac {1} {\ sigma ^ {2}}} \ lewo [\ suma _ {n=0}^{N-1}x[n]-NA\prawo]}

Biorąc drugą pochodną

{\ Displaystyle {\ Frac {\ częściowy ^ {2}} \ częściowy A ^ {2}}} \ ln p (\ mathbf {x}; A) = {\ Frac {1} {\ Sigma ^ {2} }}(-N)={\frac {-N}{\sigma ^{2}}}}

a znalezienie ujemnej wartości oczekiwanej jest trywialne, ponieważ jest to teraz stała deterministyczna ${\ Displaystyle - \ operatorname {E} \ lewo [{\ Frac {\ częściowy ^ {2}} \ częściowy A ^ {2}}} \ ln p (\ mathbf {x}; A) \ prawej] = { \frac {N}{\sigma ^{2}}}}$

Na koniec, umieszczając informacje Fishera w:

{\ Displaystyle \ operatorname {var} \ lewo ({\ kapelusz {A}} \ prawo) \ geq {\ Frac {1} {\ mathcal {I}}}}

prowadzi do

{\ Displaystyle \ operatorname {var} \ lewo ({\ kapelusz {A}} \ prawo) \ geq {\ Frac {\ Sigma ^ {2}} {N}}}

Porównanie tego z wariancją średniej próbki (określonej wcześniej) pokazuje, że średnia próbki jest równa dolnej granicy Craméra-Rao dla wszystkich wartości i . Innymi słowy, średnia z próby jest (koniecznie unikalnym) efektywnym estymatorem , a zatem również nieobciążonym estymatorem minimalnej wariancji (MVUE), oprócz tego, że jest estymatorem największej wiarygodności . ${\ Displaystyle N}$ ${\ Displaystyle A}$

Maksimum równomiernego rozkładu

Jednym z najprostszych nietrywialnych przykładów estymacji jest estymacja maksimum rozkładu jednostajnego. Jest używany jako praktyczne ćwiczenie w klasie i do zilustrowania podstawowych zasad teorii estymacji. Ponadto, w przypadku estymacji na pojedynczej próbie, pokazuje problemy filozoficzne i możliwe nieporozumienia w stosowaniu estymatorów największej wiarogodności i funkcji wiarogodności .

Biorąc pod uwagę dyskretny rozkład jednostajny z nieznanym maksimum, estymator UMVU dla maksimum jest podany przez $1,2,\kropki,N$

{\ Displaystyle {\ Frac {k + 1} {k}} m-1 = m + {\ Frac {m} {k}} -1}

gdzie m to maksimum próbki, a k to wielkość próby , pobieranie próbek bez wymiany. Problem ten jest powszechnie znany jako problem niemieckich czołgów , ze względu na zastosowanie maksymalnych szacunków do oszacowań produkcji niemieckich czołgów podczas II wojny światowej .

Formuła może być intuicyjnie rozumiana jako;

"Maksimum próbki plus średnia luka między obserwacjami w próbie",

luka jest dodawana w celu skompensowania ujemnego obciążenia maksimum próbki jako estymatora maksimum populacji.

To ma wariancję

{\ Displaystyle {\ Frac {1} {k}}{\ Frac {(Nk) (N + 1)} {(k + 2)}} \ około {\ Frac {N ^ {2}} {k ^ { 2}}}{\text{ dla małych próbek }}k\ll N}

więc odchylenie standardowe w przybliżeniu , średnia (populacyjna) wielkość luki między próbkami; porównaj powyżej. Można to postrzegać jako bardzo prosty przypadek oszacowania maksymalnego odstępu . ${\ Displaystyle N/k}$ ${\ Displaystyle {\ Frac {m} {k}}}$

Maksimum próbki jest estymatorem największej wiarygodności dla maksimum populacji, ale, jak omówiono powyżej, jest obciążone.

Aplikacje

Wiele dziedzin wymaga zastosowania teorii estymacji. Niektóre z tych pól obejmują:

Interpretacja eksperymentów naukowych
Przetwarzanie sygnałów
Badania kliniczne
Ankiety
Kontrola jakości
Telekomunikacja
Zarządzanie projektami
Inżynieria oprogramowania
Teoria sterowania (w szczególności sterowanie adaptacyjne )
System wykrywania włamań do sieci
Określanie orbity

Dane pomiarowe mogą być przedmiotem hałasu lub niepewności, a to przez statystycznego prawdopodobieństwa , że optymalne rozwiązania są starał się ekstraktu jak najwięcej informacji z danych, jak to możliwe.

Zobacz też

Uwagi

Bibliografia

Cytaty

Źródła

Teoria estymacji punktowej autorstwa EL Lehmanna i G. Caselli. ( ISBN 0387985026 )
Inżynieria kosztów systemów autorstwa Dale'a Shermana. ( ISBN 978-0-566-08861-2 )
Statystyka matematyczna i analiza danych Johna Rice'a. ( ISBN 0-534-209343 )
Podstawy statystycznego przetwarzania sygnałów: teoria estymacji Stevena M. Kaya ( ISBN 0-13-345711-7 )
Wprowadzenie do wykrywania i szacowania sygnału autorstwa H. Vincenta Poora ( ISBN 0-387-94173-8 )
Teoria wykrywania, szacowania i modulacji, część 1 , Harry L. Van Trees ( ISBN 0-471-09517-6 ; strona internetowa )
Optymalnego stanu szacunek: Kalmana, H-nieskończoność, a nieliniowa Podejścia przez Dan Simon stronie
Ali H. Sayed , Filtry adaptacyjne , Wiley, NJ, 2008, ISBN 978-0-470-25388-5 .
Ali H. Sayed , Podstawy filtrowania adaptacyjnego, Wiley, NJ, 2003, ISBN 0-471-46126-1 .
Thomas Kailath , Ali H. Sayed , i Babak Hassibi , Oszacowanie liniowe , Prentice-Hall, NJ, 2000, ISBN 978-0-13-022464-4 .
Babak Hassibi , Ali H. Sayed i Thomas Kailath , Nieokreślone kwadratowe szacowanie i kontrola: ujednolicone podejście do teorii H ² i H , Towarzystwo Matematyki Przemysłowej i Stosowanej (SIAM), PA, 1999, ISBN 978-0-89871-411 -1 .^$\infty$
VGVoinov, MSNikulin, „Bezstronne estymatory i ich zastosowania. Vol.1: Przypadek jednowymiarowy”, Kluwer Academic Publishers, 1993, ISBN 0-7923-2382-3 .
VGVoinov, MSNikulin, „Bezstronne estymatory i ich zastosowania. Vol.2: Przypadek wielowymiarowy”, Kluwer Academic Publishers, 1996, ISBN 0-7923-3939-8 .

Zewnętrzne linki

Multimedia związane z teorią estymacji w Wikimedia Commons

Languages

In other projects

Teoria estymacji - Estimation theory

Zawartość

Przykłady

Podstawy

Estymatory

Przykłady

Nieznana stała w addytywnym białym szumie Gaussa

Maksymalne prawdopodobieństwo

Cramér-Rao dolna granica

Maksimum równomiernego rozkładu

Aplikacje

Zobacz też

Uwagi

Bibliografia

Cytaty

Źródła

Zewnętrzne linki