Ważona metoda najmniejszych kwadratów - Weighted least squares

Ważone najmniejsze kwadraty ( WLS ), znane również jako ważona regresja liniowa , jest uogólnieniem zwykłych najmniejszych kwadratów i regresji liniowej, w których wiedza o wariancji obserwacji jest włączona do regresji. WLS to także specjalizacja uogólnionych najmniejszych kwadratów .

Wprowadzenie

Specjalny przypadek uogólnionych najmniejszych kwadratów zwanych ważonymi najmniejszymi kwadratami występuje, gdy wszystkie niediagonalne wpisy Ω (macierz korelacji reszt) są zerowe; odchylenia od obserwacji (wzdłuż przekątnej macierzy kowariancji) wciąż może być różne ( Heteroskedastyczność ).

Dopasowanie modelu do punktu danych jest mierzone jego resztą , zdefiniowaną jako różnica między zmierzoną wartością zmiennej zależnej, a wartością przewidywaną przez model, :

Jeśli błędy są nieskorelowane i mają równą wariancję, to funkcja

,

jest zminimalizowany o , tak że .

Twierdzenie Gaussa-Markowa pokazuje, że jeśli tak jest, jest to najlepszy liniowy bezstronny estymator ( NIEBIESKI ). Jeżeli jednak pomiary nie są skorelowane, ale mają różne niepewności, można zastosować zmodyfikowane podejście. Aitken, wykazały, że przy ważonej sumy kwadratu reszt jest zminimalizowane, IS GREEN , jeżeli każdy waga jest równa odwrotności wariancją pomiaru

Równania gradientu dla tej sumy kwadratów to

które w liniowym układzie najmniejszych kwadratów dają zmodyfikowane równania normalne,

Gdy błędy obserwacji nie są skorelowane, a macierz wag W , jest diagonalna, można je zapisać jako

Jeśli błędy są skorelowane, otrzymany estymator jest NIEBIESKI, jeśli macierz wag jest równa odwrotności macierzy wariancji-kowariancji obserwacji.

Gdy błędy nie są skorelowane, wygodnie jest uprościć obliczenia, aby podzielić macierz wag jako . Równania normalne można następnie zapisać w tej samej postaci, co zwykłe najmniejszych kwadratów:

gdzie definiujemy następującą skalowaną macierz i wektor:

Jest to rodzaj transformacji wybielającej ; ostatnie wyrażenie obejmuje dzielenie według wpisu .

W przypadku nieliniowych systemów najmniejszych kwadratów podobny argument pokazuje, że równania normalne należy zmodyfikować w następujący sposób.

Należy zauważyć, że w przypadku testów empirycznych odpowiednie W nie jest na pewno znane i należy je oszacować. W tym celu można zastosować uogólnione techniki najmniejszych kwadratów (FGLS); w tym przypadku specjalizuje się w macierzy kowariancji diagonalnej, dając w ten sposób wykonalne rozwiązanie ważone metodą najmniejszych kwadratów.

Jeżeli niepewność obserwacji nie jest znana ze źródeł zewnętrznych, wówczas wagi można oszacować na podstawie danych obserwacji. Może to być przydatne na przykład do identyfikacji wartości odstających. Po usunięciu wartości odstających ze zbioru danych wagi powinny zostać zresetowane do jednego.

Motywacja

W niektórych przypadkach obserwacje mogą być ważone — na przykład mogą nie być równie wiarygodne. W tym przypadku można zminimalizować ważoną sumę kwadratów:

gdzie w i > 0 jest wagą i- tej obserwacji, a W jest macierzą diagonalną takich wag.

Masy, idealnym rozwiązaniem jest równa odwrotności o wariancji pomiaru. (To oznacza, że ​​obserwacje są nieskorelowane. Jeżeli obserwacje są skorelowane , wyrażenie ma zastosowanie. W takim przypadku macierz wag powinna idealnie być równa odwrotności macierzy wariancji-kowariancji obserwacji). Normalne równania są zatem:

Ta metoda jest używana w iteracyjnie ważonych najmniejszych kwadratach .

Błędy parametrów i korelacja

Szacowane wartości parametrów są liniowymi kombinacjami obserwowanych wartości

Dlatego wyrażenie na oszacowaną macierz wariancji-kowariancji oszacowań parametrów można uzyskać przez propagację błędu z błędów w obserwacjach. Niech macierz wariancji-kowariancji dla obserwacji będzie oznaczona przez M, a macierz oszacowanych parametrów przez M β . Następnie

Gdy W = M −1 , upraszcza się to do

Gdy stosuje się wagi jednostkowe ( W = I , macierz jednostkowa ), zakłada się, że błędy eksperymentalne są nieskorelowane i wszystkie są równe: M = σ 2 I , gdzie σ 2 jest a priori wariancją obserwacji. W każdym razie σ 2 jest aproksymowane przez zredukowane chi-kwadrat :

gdzie S jest minimalną wartością (ważonej) funkcji celu :

Mianownik , to liczba stopni swobody ; zobacz efektywne stopnie swobody dla uogólnień dla przypadku obserwacji skorelowanych.

We wszystkich przypadkach odchylenie od oszacowania parametrów jest podana przez i kowariancji pomiędzy parametrem szacuje, i jest przez . Odchylenie standardowe jest pierwiastek kwadratowy wariancji, i współczynnik korelacji jest przez . Te oszacowania błędów odzwierciedlają tylko przypadkowe błędy w pomiarach. Prawdziwa niepewność parametrów jest większa ze względu na występowanie błędów systematycznych , których z definicji nie można określić ilościowo. Należy zauważyć, że nawet jeśli obserwacje mogą być nieskorelowane, parametry są zwykle skorelowane .

Granice ufności parametru

Często zakłada się , z braku konkretnych dowodów, ale często odwołując się do centralnego twierdzenia granicznego — patrz Rozkład normalny#Występowanie i zastosowania — że błąd każdej obserwacji należy do rozkładu normalnego ze średnią zerową i odchyleniem standardowym . Przy tym założeniu można wyprowadzić następujące prawdopodobieństwa dla oszacowania pojedynczego parametru skalarnego w kategoriach jego oszacowanego błędu standardowego (podanego tutaj ):

68%, że przedział obejmuje rzeczywistą wartość współczynnika
95%, że przedział obejmuje rzeczywistą wartość współczynnika
99%, że przedział obejmuje rzeczywistą wartość współczynnika

Założenie nie jest nierozsądne, gdy m  >>  n . Jeśli błędy eksperymentalne mają rozkład normalny, parametry będą należeć do rozkładu t-Studenta z m  -  n stopniami swobody . Gdy m  ≫  n rozkład t-Studenta jest zbliżony do rozkładu normalnego. Należy jednak zauważyć, że te granice ufności nie mogą uwzględniać błędu systematycznego. Również błędy parametrów należy podawać tylko do jednej cyfry znaczącej, ponieważ podlegają one błędom próbkowania .

Gdy liczba obserwacji jest stosunkowo niewielka, nierówność Czebyczowa można wykorzystać jako górną granicę prawdopodobieństw, niezależnie od jakichkolwiek założeń dotyczących rozkładu błędów eksperymentalnych: maksymalne prawdopodobieństwo, że parametr będzie większy niż 1, 2 lub 3 odchylenia standardowe od wartości oczekiwanej wynoszą odpowiednio 100%, 25% i 11%.

Wartości resztowe i korelacja

Te pozostałości są związane z uwagami

gdzie H jest macierzą idempotentną znaną jako macierz kapelusza :

a ja jest macierzą tożsamości . Macierz wariancji-kowariancji reszt, M r jest dana przez

Zatem reszty są skorelowane, nawet jeśli obserwacje nie są.

Kiedy ,

Suma ważonych wartości rezydualnych jest równa zeru, gdy funkcja modelu zawiera wyraz stały. Pomnóż wyrażenie dla reszt przez X T W T :

Powiedzmy na przykład, że pierwszy wyraz modelu jest stałą, więc dla wszystkich i . W takim przypadku wynika, że

Zatem w powyższym przykładzie motywacyjnym fakt, że suma wartości rezydualnych jest równa zeru, nie jest przypadkowy, lecz jest konsekwencją obecności w modelu składnika stałego α.

Jeśli błąd eksperymentalny jest zgodny z rozkładem normalnym , to ze względu na liniową zależność między resztami a obserwacjami, tak samo powinny być reszty, ale ponieważ obserwacje są tylko próbką populacji wszystkich możliwych obserwacji, reszty powinny należeć do rozkładu t-Studenta . Studentyzowane reszty są przydatne do wykonania testu statystycznego dla wartości odstających, gdy dana reszta wydaje się być zbyt duża.

Zobacz też

Bibliografia