Liniowy najmniejszych kwadratów - Linear least squares

Metodą najmniejszych kwadratów ( LLS ) jest najmniejszych kwadratów przybliżenie od funkcji liniowej do danych. Jest to zestaw formuł do rozwiązywania problemów statystycznych związanych z regresją liniową , w tym warianty dla reszt zwykłych (nieważonych), ważonych i uogólnionych (skorelowanych) . Metody numeryczne dla liniowych najmniejszych kwadratów obejmują odwracanie macierzy równań normalnych i metody dekompozycji ortogonalnej .

Główne sformułowania

Trzy główne formuły liniowe najmniejszych kwadratów to:

  • Najczęstszym estymatorem są zwykłe najmniejsze kwadraty (OLS). Szacunki OLS są powszechnie używane do analizydanych eksperymentalnych i obserwacyjnych .
    Metoda OLS minimalizuje sumę kwadratów reszt i prowadzi do wyrażenia w formie zamkniętej dla oszacowanej wartości nieznanego wektora parametrów β :
    gdzie jest wektorem, którego
    i- ty element jest i- tą obserwacją zmiennej zależnej , a macierzą, której ij elementem jest i- ta obserwacja j- tej zmiennej niezależnej . (Uwaga: jest odwrotnością Moore'a-Penrose'a .) Estymator jest nieobciążony i spójny, jeśli błędy mają skończoną wariancję i nie są skorelowane z regresorami:
    gdzie jest transpozycją wiersza
    i macierzy Jest to również efektywne przy założeniu, że błędy mają skończoną wariancję i są homoscedastyczne , co oznacza, że ​​E[ ε i 2 | x i ] nie zależy od i . Warunek, że błędy nie są skorelowane z regresorami będzie generalnie spełniony w eksperymencie, ale w przypadku danych obserwacyjnych trudno wykluczyć możliwość pominięcia współzmiennej z, która jest związana zarówno z obserwowanymi współzmiennymi, jak i zmienną odpowiedzi . Istnienie takiej współzmiennej na ogół prowadzi do korelacji między regresorami a zmienną odpowiedzi, a zatem do niespójnego estymatora β . Stan homoskedastyczności może zawieść w przypadku danych eksperymentalnych lub obserwacyjnych. Jeśli celem jest albo wnioskowanie lub modelowanie predykcyjne, wydajność OLS szacunków może być biedny, jeśli Współliniowość jest obecny, chyba że próbka jest duży rozmiar.
  • Ważone najmniejszych kwadratów (WLS) stosuje się, gdy heteroskedastyczność występuje w warunkach błędu modelu.
  • Uogólnione najmniejszych kwadratów (GLS) jest rozszerzeniem metody MNK, które pozwala na efektywne oszacowanie β, gdywśród składników błędu modelu występuje heteroskedastyczność lub korelacje, lub obie występują, o ile znana jest forma heteroskedastyczności i korelacji niezależnie od danych. Aby poradzić sobie z heteroskedastycznością, gdy terminy błędu nie są ze sobą skorelowane, GLS minimalizuje ważony analog do sumy kwadratów reszt z regresji OLS, gdzie waga dla i- tego przypadku jest odwrotnie proporcjonalna do var( ε i ). Ten szczególny przypadek GLS nazywa się „ważonymi najmniejszymi kwadratami”. Rozwiązaniem GLS problemu szacowania jest
    gdzie Ω jest macierzą kowariancji błędów. GLS można postrzegać jako zastosowanie transformacji liniowej do danych, tak aby założenia OLS zostały spełnione dla przekształconych danych. Aby można było zastosować GLS, struktura kowariancji błędów musi być znana aż do stałej multiplikatywnej.

Alternatywne formuły

Inne preparaty obejmują:

  • Iteracyjnie przeważone najmniejszych kwadratów (IRLS) stosuje się, gdy heteroskedastyczność lub korelacje, lub jedno i drugie, są obecne wśród składników błędu modelu, ale gdy niewiele wiadomo na temat struktury kowariancji błędów niezależnie od danych. W pierwszej iteracji przeprowadza się OLS lub GLS z prowizoryczną strukturą kowariancji, a reszty uzyskuje się z dopasowania. Na podstawie reszt zwykle można uzyskać lepsze oszacowanie struktury kowariancji błędów. Następnie wykonywana jest kolejna iteracja GLS z wykorzystaniem tego oszacowania struktury błędu w celu zdefiniowania wag. Proces można iterować do zbieżności, ale w wielu przypadkach tylko jedna iteracja jest wystarczająca do uzyskania efektywnego oszacowania β .
  • Regresję zmiennych instrumentalnych (IV) można przeprowadzić, gdy regresory są skorelowane z błędami. W tym przypadku potrzebne jest istnienie pewnych pomocniczych zmiennych instrumentalnych z i takich, że E[ z i ε i ] = 0. Jeżeli Z jest macierzą instrumentów, to estymator można podać w postaci zamkniętej jako
    Regresja instrumentów optymalnych jest rozszerzeniem klasycznej regresji IV do sytuacji, w której E[ ε i | oo I ] = 0 .
  • Całkowite najmniejsze kwadraty (TLS) to podejście do estymacji metodą najmniejszych kwadratów modelu regresji liniowej, które traktuje współzmienne i zmienną odpowiedzi w bardziej geometrycznie symetryczny sposób niż OLS. Jest to jedno z podejść do rozwiązania problemu „błędów w zmiennych” i jest czasami używane nawet wtedy, gdy zakłada się, że współzmienne są wolne od błędów.

Dodatkowo metoda najmniejszych kwadratów procentowych skupia się na redukcji błędów procentowych, co jest przydatne w zakresie prognozowania czy analizy szeregów czasowych. Jest to również przydatne w sytuacjach, gdy zmienna zależna ma szeroki zakres bez stałej wariancji, ponieważ tutaj dominowałyby większe reszty z górnego końca zakresu, gdyby zastosowano OLS. Gdy procent lub błąd względny ma rozkład normalny, regresja procentowa metodą najmniejszych kwadratów zapewnia oszacowanie maksymalnego prawdopodobieństwa. Regresja procentowa jest powiązana z modelem błędu multiplikatywnego, podczas gdy OLS jest powiązany z modelami zawierającymi składnik błędu addytywnego.

W przypadku najmniejszych kwadratów z ograniczeniami interesuje nas rozwiązanie liniowego problemu najmniejszych kwadratów z dodatkowym ograniczeniem rozwiązania.

Funkcja celu

W OLS (to znaczy zakładając nieważonej uwagi), przy czym wartość optymalną z funkcji celu stwierdzenia przez zastąpienie optymalne dla ekspresji wektora współczynnika:

gdzie , ta ostatnia równość, ponieważ jest symetryczna i idempotentna. Można wykazać, z tym, że zgodnie z odpowiedniego przyporządkowania odważnikach wartość oczekiwana z S jest m  -  n . Jeśli zamiast tego przyjmuje się wagi jednostkowe, oczekiwaną wartością S jest , gdzie jest wariancją każdej obserwacji.

Jeżeli zakłada się, że reszty należą do rozkładu normalnego, funkcję celu, jako suma kwadratów reszt ważonych będzie należeć do chi-kwadrat ( ) rozkładu z m  -  N stopni swobody . W poniższej tabeli podano przykładowe wartości percentyla .

10 9.34 18,3 23,2
25 24,3 37,7 44,3
100 99,3 124 136

Wartości te mogą być wykorzystane jako kryterium statystyczne dotyczące dobroci dopasowania . Gdy stosuje się wagi jednostkowe, liczby należy podzielić przez wariancję obserwacji.

W przypadku WLS powyższa zwykła funkcja celu jest zastępowana średnią ważoną reszt.

Dyskusja

W statystykach i matematyki , liniowy najmniejszych kwadratów jest podejście do osadzania matematycznych lub statystycznych modelu do danych w przypadkach, gdy wartość podana przez wyidealizowany model dla każdego punktu danych jest wyrażanych liniowo pod względem nieznanych parametrów modelu. Otrzymany dopasowany model można wykorzystać do podsumowania danych, przewidywania nieobserwowanych wartości z tego samego systemu oraz do zrozumienia mechanizmów, które mogą leżeć u podstaw systemu.

Matematycznie liniowa metoda najmniejszych kwadratów jest problemem przybliżonego rozwiązania naddeterminowanego układu równań liniowych A x = b , gdzie b nie jest elementem przestrzeni kolumn macierzy A . Przybliżone rozwiązanie jest realizowane jako dokładne rozwiązanie A x = b' , gdzie b' jest rzutem b na przestrzeń kolumny A . Najlepszym przybliżeniem jest wtedy takie, które minimalizuje sumę kwadratów różnic między wartościami danych a odpowiadającymi im wartościami modelowanymi. Podejście to nosi nazwę najmniejszych kwadratów liniowych, ponieważ zakładana funkcja jest liniowa w szacowanych parametrach. Liniowe zadania najmniejszych kwadratów są wypukłe i mają rozwiązanie w formie zamkniętej, które jest unikalne, pod warunkiem, że liczba punktów danych używanych do dopasowania jest równa lub przekracza liczbę nieznanych parametrów, z wyjątkiem szczególnych sytuacji zdegenerowanych. W przeciwieństwie do tego, nieliniowe problemy

najmniejszych kwadratów zazwyczaj muszą być rozwiązywane za pomocą procedury iteracyjnej , a problemy mogą być niewypukłe z wielokrotnymi optymami dla funkcji celu. Jeśli dostępne są wcześniejsze rozkłady, nawet niedostatecznie określony system można rozwiązać za pomocą estymatora bayesowskiego MMSE .

W statystyce liniowe problemy najmniejszych kwadratów odpowiadają szczególnie ważnemu typowi modelu statystycznego zwanego regresją liniową, która powstaje jako szczególna forma analizy regresji . Jedną z podstawowych form takiego modelu jest zwykły model

najmniejszych kwadratów . Niniejszy artykuł koncentruje się na matematycznych aspektach liniowych problemów najmniejszych kwadratów, a omówienie formułowania i interpretacji statystycznych modeli regresji oraz związanych z nimi wnioskowań statystycznych omówiono we wspomnianych artykułach. Zobacz zarys analizy regresji dla zarysu tematu.

Nieruchomości

Jeżeli błędy eksperymentalne , , są nieskorelowane, mają średnią równą zero i stałą wariancję , ,

twierdzenie Gaussa-Markowa mówi, że estymator najmniejszych kwadratów , , ma minimalną wariancję ze wszystkich estymatorów, które są liniowymi kombinacjami obserwacji. W tym sensie jest najlepszym lub optymalnym estymatorem parametrów. Zwróć szczególną uwagę, że ta właściwość jest niezależna od funkcji rozkładu statystycznego błędów. Innymi słowy, funkcja rozkładu błędów nie musi być rozkładem normalnym . Jednak w przypadku niektórych rozkładów prawdopodobieństwa nie ma gwarancji, że rozwiązanie najmniejszych kwadratów jest nawet możliwe, biorąc pod uwagę obserwacje; jednak w takich przypadkach jest to najlepszy estymator, który jest zarówno liniowy, jak i bezstronny.

Na przykład łatwo wykazać, że średnia arytmetyczna zbioru pomiarów danej wielkości jest estymatorem najmniejszych kwadratów wartości tej wielkości. Jeśli mają zastosowanie warunki twierdzenia Gaussa-Markowa, średnia arytmetyczna jest optymalna, bez względu na rozkład błędów pomiarów.

Jednak w przypadku, gdy błędy eksperymentalne należą do rozkładu normalnego, estymator najmniejszych kwadratów jest również estymatorem największej wiarygodności .

Właściwości te leżą u podstaw zastosowania metody najmniejszych kwadratów dla wszystkich typów dopasowywania danych, nawet jeśli założenia nie są ściśle poprawne.

Ograniczenia

Założeniem leżącym u podstaw powyższego traktowania jest to, że zmienna niezależna x jest wolna od błędu. W praktyce błędy pomiaru zmiennej niezależnej są zwykle znacznie mniejsze niż błędy zmiennej zależnej i dlatego można je zignorować. Jeśli tak nie jest, należy zastosować metodę najmniejszych kwadratów lub bardziej ogólnie modele błędów w zmiennych lub rygorystyczne metody najmniejszych kwadratów . Można to zrobić, dostosowując schemat ważenia, aby uwzględnić błędy zarówno zmiennych zależnych, jak i niezależnych, a następnie postępując zgodnie ze standardową procedurą.

W niektórych przypadkach macierz (ważonych) równań normalnych X T X jest źle uwarunkowana . Przy dopasowywaniu wielomianów macierz równań normalnych jest macierzą Vandermonde'a . Macierze Vandermonde'a stają się coraz mniej uwarunkowane wraz ze wzrostem kolejności macierzy. W takich przypadkach oszacowanie metodą najmniejszych kwadratów wzmacnia szum pomiarowy i może być rażąco niedokładne. W takich przypadkach można zastosować różne techniki regularyzacji , z których najczęstszą nazywa się regresją grzbietową . Jeżeli znane są dalsze informacje o parametrach, na przykład zakres możliwych wartości , można zastosować różne techniki w celu zwiększenia stabilności rozwiązania. Na przykład zobacz

ograniczone najmniejsze kwadraty .

Inną wadą estymatora najmniejszych kwadratów jest to, że norma reszt jest minimalizowana, podczas gdy w niektórych przypadkach naprawdę interesuje uzyskanie małego błędu parametru , np. małej wartości . Jednakże, ponieważ prawdziwy parametr jest koniecznie nieznany, ta ilość nie może być bezpośrednio zminimalizowana. Jeśli

przed prawdopodobieństwo na jest znany, to estymator Bayesa może być używany, aby zminimalizować średni błąd kwadratowy , . Metoda najmniejszych kwadratów jest często stosowana, gdy nie jest znana wcześniejsza. Co zaskakujące, gdy kilka parametrów jest szacowanych łącznie, można skonstruować lepsze estymatory, efekt znany jako zjawisko Steina . Na przykład, jeśli błąd pomiaru jest gaussowski , znanych jest kilka estymatorów, które dominują lub przewyższają technikę najmniejszych kwadratów; najbardziej znanym z nich jest estymator Jamesa-Steina . Jest to przykład bardziej ogólnych estymatorów skurczu , które zostały zastosowane do problemów z regresją.

Aplikacje

Zastosowania w dopasowywaniu danych

Podstawowym zastosowaniem liniowych najmniejszych kwadratów jest dopasowanie danych . Biorąc pod uwagę zbiór m punktów danych składający się z eksperymentalnie zmierzonych wartości pobranych przy

m wartości zmiennej niezależnej ( mogą to być wielkości skalarne lub wektorowe) i mając dane funkcji modelu z tym pożądane jest znalezienie parametrów takich, że funkcja modelu jest „najlepsza” pasuje do danych. W liniowych najmniejszych kwadratach liniowość ma być w odniesieniu do parametrów tak

Tutaj funkcje mogą być

nieliniowe względem zmiennej x .

Idealnie funkcja modelu dokładnie pasuje do danych, więc

dla wszystkich Zwykle w praktyce nie jest to możliwe, ponieważ jest więcej punktów danych niż parametrów do ustalenia. Wybrane podejście polega na znalezieniu minimalnej możliwej wartości sumy kwadratów
reszt
tak, aby zminimalizować funkcję

Po podstawieniu za a następnie za , ten problem minimalizacji staje się kwadratowym problemem minimalizacji powyżej z

a najlepsze dopasowanie można znaleźć, rozwiązując równania normalne.

Przykład

Wykres punktów danych (na czerwono), linii najmniejszych kwadratów najlepszego dopasowania (na niebiesko) i reszt (na zielono)

W wyniku eksperymentu uzyskano cztery punkty danych i (pokazane na czerwono na schemacie po prawej). Mamy nadzieję znaleźć linię, która najlepiej pasuje do tych czterech punktów. Innymi słowy, chcielibyśmy znaleźć numery i że około rozwiązać nadokreślony system liniowy:

czterech równań w dwóch niewiadomych w jakimś „najlepszym” sensie.

reprezentuje resztę, w każdym punkcie, między dopasowaniem krzywej a danymi:

Metoda najmniejszych kwadratów do rozwiązania tego problemu polega na próbie jak najmniejszej sumy kwadratów tych reszt; czyli znaleźć minimum funkcji:

Minimalna jest określona przez obliczenie pochodnych cząstkowych o w stosunku do a i ustawiając je zeru:

Daje to układ dwóch równań w dwóch niewiadomych, zwanych równaniami normalnymi, które po rozwiązaniu dają:

a równanie to linia najlepszego dopasowania. Następnie okazuje się , że reszty , czyli różnice między wartościami z obserwacji a zmiennymi predykowanymi przy użyciu linii najlepszego dopasowania, są i (patrz wykres po prawej). Minimalna wartość sumy kwadratów reszt wynosi

Mówiąc bardziej ogólnie, można mieć regresory i model liniowy

Korzystanie z modelu kwadratowego

Wynik dopasowania funkcji kwadratowej (na niebiesko) przez zestaw punktów danych (na czerwono). W liniowych najmniejszych kwadratach funkcja nie musi być liniowa w argumencie, ale tylko w parametrach, które są określone w celu uzyskania najlepszego dopasowania.

Co ważne, w „liniowych najmniejszych kwadratach” nie jesteśmy ograniczeni do używania linii jako modelu, jak w powyższym przykładzie. Na przykład moglibyśmy wybrać ograniczony model kwadratowy . Ten model jest nadal liniowy w parametrze, więc nadal możemy przeprowadzić tę samą analizę, konstruując układ równań z punktów danych:

Pochodne cząstkowe po parametrach (tym razem jest tylko jedna) są ponownie obliczane i ustawiane na 0:

i rozwiązany
co prowadzi do uzyskania modelu najlepiej dopasowanego

Zobacz też

Bibliografia

Dalsza lektura

  • Bevington, Philip R.; Robinson, Keith D. (2003). Redukcja danych i analiza błędów dla nauk fizycznych . McGraw-Hill. Numer ISBN 978-0-07-247227-1.

Zewnętrzne linki