Najmniej kwadratów - Least squares

Wynik dopasowania zbioru punktów danych do funkcji kwadratowej
Stożkowe dopasowywanie zbioru punktów przy użyciu aproksymacji najmniejszych kwadratów

Metoda najmniejszych kwadratów jest standardowym podejściem w analizie regresji w celu przybliżenia rozwiązania układów naddeterminowanych (zestawów równań, w których jest więcej równań niż niewiadomych) poprzez zminimalizowanie sumy kwadratów reszt otrzymanych w wynikach każdego pojedynczego równania .

Najważniejszym zastosowaniem jest dopasowanie danych . Najlepsze dopasowanie w sensie najmniejszych kwadratów minimalizuje sumę kwadratów reszt (resztą jest różnica między wartością obserwowaną a dopasowaną wartością dostarczoną przez model). Gdy problem ma znaczne niepewności w zmiennej niezależnej ( zmiennej x ), to prosta regresja i metody najmniejszych kwadratów mają problemy; w takich przypadkach zamiast metody najmniejszych kwadratów można rozważyć metodologię wymaganą do dopasowania modeli błędów w zmiennych .

Problemy najmniejszych kwadratów dzielą się na dwie kategorie: liniowe lub zwykłe najmniejszych kwadratów i nieliniowe najmniejszych kwadratów , w zależności od tego, czy reszty są liniowe we wszystkich niewiadomych. Liniowy problem najmniejszych kwadratów występuje w statystycznej analizie regresji ; ma rozwiązanie w formie zamkniętej . Problem nieliniowy jest zwykle rozwiązywany przez udoskonalanie iteracyjne; w każdej iteracji system jest aproksymowany liniowo, a zatem obliczenia rdzenia są podobne w obu przypadkach.

Wielomianowa metoda najmniejszych kwadratów opisuje wariancję przewidywania zmiennej zależnej jako funkcję zmiennej niezależnej i odchyleń od dopasowanej krzywej.

Gdy obserwacje pochodzą z rodziny wykładniczej o identyczności, ponieważ jej naturalne wystarczające statystyki i łagodne warunki są spełnione (np. dla rozkładu normalnego, wykładniczego, Poissona i dwumianowego), standaryzowane szacunki najmniejszych kwadratów i szacunki maksymalnego prawdopodobieństwa są identyczne. Metodę najmniejszych kwadratów można również wyprowadzić jako metodę estymatora momentów .

Poniższe omówienie jest przedstawiane głównie w kategoriach funkcji liniowych, ale użycie najmniejszych kwadratów jest prawidłowe i praktyczne dla bardziej ogólnych rodzin funkcji. Ponadto, przez iteracyjne zastosowanie lokalnego przybliżenia kwadratowego do prawdopodobieństwa (poprzez informację Fishera ), metoda najmniejszych kwadratów może być użyta do dopasowania uogólnionego modelu liniowego .

Metoda najmniejszych kwadratów została oficjalnie odkryta i opublikowana przez Adriena-Marie Legendre'a (1805), choć zwykle przypisuje się ją również Carlowi Friedrichowi Gaussowi (1795), który wniósł znaczące postępy teoretyczne do metody i być może wcześniej używał jej w swoich Praca.

Historia

Założenie

Metoda najmniejszych kwadratów wyrosła z dziedzin astronomii i geodezji , ponieważ naukowcy i matematycy starali się znaleźć rozwiązania problemów związanych z nawigacją po oceanach Ziemi w epoce eksploracji . Dokładny opis zachowania ciał niebieskich był kluczem do umożliwienia statkom żeglowania po otwartych morzach, gdzie żeglarze nie mogli już polegać na obserwacji lądu podczas nawigacji.

Metoda była kulminacją kilku postępów, które miały miejsce w ciągu XVIII wieku:

  • Połączenie różnych obserwacji jako najlepsze oszacowanie prawdziwej wartości; błędy zmniejszają się wraz z agregacją, a nie rosną, być może po raz pierwszy wyrażony przez Rogera Cotesa w 1722 roku.
  • Połączenie różnych obserwacji wykonanych w tych samych warunkach, w przeciwieństwie do po prostu starania się jak najlepiej obserwować i dokładnie rejestrować pojedynczą obserwację. Podejście to było znane jako metoda średnich. To podejście zostało w szczególności zastosowane przez Tobiasa Mayera podczas badania libracji księżyca w 1750 roku oraz przez Pierre-Simon Laplace w jego pracy wyjaśniającej różnice w ruchu Jowisza i Saturna w 1788 roku.
  • Połączenie różnych obserwacji wykonanych w różnych warunkach. Metoda stała się znana jako metoda najmniejszego odchylenia absolutnego. Został on wykonany w szczególności przez Rogera Josepha Boscovicha w swojej pracy na temat kształtu ziemi w 1757 roku i przez Pierre-Simon Laplace dla tego samego problemu w 1799 roku.
  • Opracowanie kryterium, które można ocenić w celu określenia, kiedy osiągnięto rozwiązanie z minimalnym błędem. Laplace próbował określić matematyczną postać gęstości prawdopodobieństwa błędów i zdefiniować metodę estymacji, która minimalizuje błąd estymacji. W tym celu Laplace użył symetrycznego dwustronnego rozkładu wykładniczego, który teraz nazywamy rozkładem Laplace'a do modelowania rozkładu błędu, i użył sumy odchyleń bezwzględnych jako błędu estymacji. Uważał, że są to najprostsze założenia, jakie mógł poczynić, i miał nadzieję, że otrzyma średnią arytmetyczną jako najlepsze oszacowanie. Zamiast tego jego estymatorem była tylna mediana.

Metoda

Pierwsze jasne i zwięzłe przedstawienie metody najmniejszych kwadratów zostało opublikowane przez Legendre'a w 1805 roku. Technika jest opisana jako procedura algebraiczna dopasowywania równań liniowych do danych, a Legendre demonstruje nową metodę, analizując te same dane co Laplace'a dla kształtu Ziemia. W ciągu dziesięciu lat po publikacji Legendre'a metoda najmniejszych kwadratów została przyjęta jako standardowe narzędzie w astronomii i geodezji we Francji, Włoszech i Prusach, co stanowi niezwykle szybką akceptację techniki naukowej.

W 1809 Carl Friedrich Gauss opublikował swoją metodę obliczania orbit ciał niebieskich. W tej pracy twierdził, że posiadał metodę najmniejszych kwadratów od 1795 roku. To naturalnie doprowadziło do sporu o pierwszeństwo z Legendre. Jednak, co trzeba przyznać Gaussowi, wyszedł poza Legendre'a i udało mu się połączyć metodę najmniejszych kwadratów z zasadami prawdopodobieństwa i rozkładem normalnym . Udało mu się ukończyć program Laplace'a określający matematyczną postać gęstości prawdopodobieństwa obserwacji w zależności od skończonej liczby nieznanych parametrów i zdefiniować metodę estymacji, która minimalizuje błąd estymacji. Gauss wykazał, że średnia arytmetyczna jest rzeczywiście najlepszym oszacowaniem parametru lokalizacji, zmieniając zarówno gęstość prawdopodobieństwa, jak i metodę estymacji. Następnie odwrócił problem, pytając, jaką postać powinna mieć gęstość i jaką metodę estymacji należy zastosować, aby otrzymać średnią arytmetyczną jako oszacowanie parametru lokalizacji. W tej próbie wynalazł rozkład normalny.

Wczesne zademonstrowanie siły metody Gaussa pojawiło się, gdy użyto jej do przewidzenia przyszłej lokalizacji nowo odkrytej asteroidy Ceres . 1 stycznia 1801 r. włoski astronom Giuseppe Piazzi odkrył Ceres i był w stanie śledzić jej drogę przez 40 dni, zanim zaginęła w blasku słońca. Na podstawie tych danych astronomowie chcieli określić położenie Ceres po jej wynurzeniu się zza Słońca bez rozwiązywania skomplikowanych nieliniowych równań ruchu planet Keplera. Jedynymi przewidywaniami, które z powodzeniem pozwoliły węgierskiemu astronomowi Franzowi Xaverowi von Zachowi przenieść Ceres, były te wykonane przez 24-letniego Gaussa przy użyciu analizy najmniejszych kwadratów.

W 1810 roku, po przeczytaniu pracy Gaussa, Laplace, po udowodnieniu centralnego twierdzenia granicznego , użył go do uzasadnienia na dużej próbie metody najmniejszych kwadratów i rozkładu normalnego. W 1822 r. Gauss był w stanie stwierdzić, że podejście najmniejszych kwadratów do analizy regresji jest optymalne w tym sensie, że w modelu liniowym, w którym błędy mają średnią zero, są nieskorelowane i mają równe wariancje, najlepszy liniowy nieobciążony estymator współczynniki są estymatorem najmniejszych kwadratów. Ten wynik jest znany jako twierdzenie Gaussa-Markowa .

Idea analizy najmniejszych kwadratów została również niezależnie sformułowana przez Amerykanina Roberta Adraina w 1808 roku. W ciągu następnych dwóch stuleci pracownicy teorii błędów i statystyki znaleźli wiele różnych sposobów implementacji najmniejszych kwadratów.

Stwierdzenie problemu

Celem jest dostosowanie parametrów funkcji modelu do najlepszego dopasowania do zbioru danych. Prosty zbiór danych składa się z n punktów (par danych) , i = 1, …, n , gdzie jest zmienną niezależną i jest zmienną zależną, której wartość jest ustalana przez obserwację. Funkcja modelu ma postać , w której w wektorze utrzymywane są m regulowanych parametrów . Celem jest znalezienie wartości parametrów dla modelu, które „najlepiej” pasują do danych. Dopasowanie modelu do punktu danych jest mierzone jego resztą , definiowaną jako różnica między obserwowaną wartością zmiennej zależnej a wartością przewidywaną przez model:

Reszty wykreślono względem odpowiednich wartości. Losowe fluktuacje około wskazują, że model liniowy jest odpowiedni.

Metoda najmniejszych kwadratów znajduje optymalne wartości parametrów, minimalizując sumę kwadratów reszt , :

Przykładem modelu w dwóch wymiarach jest linia prosta. Oznaczając punkt przecięcia z osią y jako i nachylenie jako , funkcja modelu jest dana przez . Zobacz liniowy najmniejszych kwadratów dla w pełni opracowanego przykładu tego modelu.

Punkt danych może składać się z więcej niż jednej zmiennej niezależnej. Na przykład, dopasowując płaszczyznę do zestawu pomiarów wysokości, płaszczyzna jest funkcją dwóch niezależnych zmiennych , powiedzmy x i z . W najbardziej ogólnym przypadku może istnieć jedna lub więcej zmiennych niezależnych i jedna lub więcej zmiennych zależnych w każdym punkcie danych.

Po prawej stronie znajduje się wykres rezydualny ilustrujący losowe fluktuacje wokół , wskazujący, że model liniowy jest odpowiedni. jest zmienną niezależną, losową.  

Reszty są wykreślane względem odpowiednich wartości. Paraboliczny kształt wahań około wskazuje, że model paraboliczny jest odpowiedni.

Gdyby punkty resztowe miały jakiś kształt i nie podlegały losowym fluktuacjom, model liniowy nie byłby odpowiedni. Na przykład, jeśli wykres resztowy miał kształt paraboliczny, jak widać po prawej, model paraboliczny byłby odpowiedni dla danych. Reszty dla modelu parabolicznego można obliczyć za pomocą .

Ograniczenia

To sformułowanie regresji uwzględnia tylko błędy obserwacji w zmiennej zależnej (ale alternatywna regresja metodą najmniejszych kwadratów może uwzględniać błędy w obu zmiennych). Istnieją dwa dość różne konteksty o różnych implikacjach:

  • Regresja do przewidywania. Tutaj dopasowywany jest model, aby zapewnić regułę predykcji do zastosowania w podobnej sytuacji, do której odnoszą się dane użyte do dopasowania. Tutaj zmienne zależne odpowiadające takiemu przyszłemu zastosowaniu podlegałyby tym samym typom błędu obserwacji, jak te w danych użytych do dopasowania. Dlatego logicznie spójne jest stosowanie reguły przewidywania najmniejszych kwadratów dla takich danych.
  • Regresja dla dopasowania „prawdziwego związku”. W standardowej analizie regresji, która prowadzi do dopasowania metodą najmniejszych kwadratów, istnieje domniemane założenie, że błędy zmiennej niezależnej są zerowe lub ściśle kontrolowane tak, aby były pomijalne. Gdy błędy w zmiennej niezależnej są nie do pominięcia, można zastosować modele błędu pomiaru ; takie metody mogą prowadzić do oszacowań parametrów , testowania hipotez i przedziałów ufności, które uwzględniają występowanie błędów obserwacji w zmiennych niezależnych. Alternatywnym podejściem jest dopasowanie modelu przez sumę najmniejszych kwadratów ; można to postrzegać jako przyjęcie pragmatycznego podejścia do równoważenia skutków różnych źródeł błędów przy formułowaniu funkcji celu do wykorzystania przy dopasowywaniu modelu.

Rozwiązywanie problemu najmniejszych kwadratów

Minimalna sumy kwadratów znajduje przez ustawienie gradientu do zera. Ponieważ model zawiera m parametrów, istnieje m równań gradientu:

a ponieważ równania gradientu stają się

Równania gradientowe mają zastosowanie do wszystkich zadań najmniejszych kwadratów. Każdy konkretny problem wymaga określonych wyrażeń dla modelu i jego pochodnych cząstkowych.

Liniowy najmniejszych kwadratów

Model regresji jest modelem liniowym, gdy model zawiera liniową kombinację parametrów, tj.

gdzie funkcja jest funkcją .

Wpuszczając i umieszczając zmienne niezależne i zależne odpowiednio w macierzach i , możemy obliczyć najmniejsze kwadraty w następujący sposób. Zauważ, że jest to zbiór wszystkich danych.

Znalezienie minimum można osiągnąć poprzez ustawienie gradientu straty na zero i rozwiązanie dla

Na koniec ustawiając gradient straty na zero i rozwiązując dla otrzymujemy:

Nieliniowe najmniejszych kwadratów

W niektórych przypadkach istnieje rozwiązanie nieliniowego problemu najmniejszych kwadratów w formie zamkniętej – ale generalnie nie ma. W przypadku braku rozwiązania w postaci zamkniętej, algorytmy numeryczne są wykorzystywane do znalezienia wartości parametrów, które minimalizują cel. Większość algorytmów polega na doborze wartości początkowych parametrów. Następnie parametry są dopracowywane iteracyjnie, czyli wartości uzyskuje się przez kolejne przybliżenie:

gdzie indeks górny k jest liczbą iteracji, a wektor przyrostów nazywany jest wektorem przesunięcia. W niektórych powszechnie stosowanych algorytmach, w każdej iteracji model może być linearyzowany przez aproksymację do rozwinięcia szeregu Taylora pierwszego rzędu o :

Jakobian J jest funkcją stałych zmienna niezależna i parametrów, tak że zmienia się od jednej do następnej iteracji. Reszty są podane przez

Aby zminimalizować sumę kwadratów , równanie gradientu jest ustawione na zero i rozwiązywane dla :

które po przekształceniu stają się m równoczesnymi równaniami liniowymi, równaniami normalnymi :

Równania normalne są zapisane w notacji macierzowej jako

Są to równania definiujące algorytmu Gaussa-Newtona .

Różnice między liniowymi i nieliniowymi najmniejszymi kwadratami

  • Funkcja modelu, f , w LLSQ (liniowe najmniejszych kwadratów) jest liniową kombinacją parametrów postaci . Model może reprezentować linię prostą, parabolę lub dowolną inną liniową kombinację funkcji. W NLLSQ (nieliniowe najmniejszych kwadratów) parametry pojawiają się jako funkcje, takie jak i tak dalej. Jeżeli pochodne są albo stałe, albo zależą tylko od wartości zmiennej niezależnej, model jest liniowy w parametrach. W przeciwnym razie model jest nieliniowy.
  • Potrzebujesz początkowych wartości parametrów, aby znaleźć rozwiązanie problemu NLLSQ; LLSQ ich nie wymaga.
  • Algorytmy rozwiązań dla NLLSQ często wymagają, aby jakobian można było obliczyć podobnie do LLSQ. Wyrażenia analityczne dla pochodnych cząstkowych mogą być skomplikowane. Jeśli wyrażenia analityczne są niemożliwe do uzyskania, albo pochodne cząstkowe muszą być obliczone przez przybliżenie liczbowe, albo należy dokonać oszacowania jakobianu, często poprzez różnice skończone .
  • Niezbieżność (niezdolność algorytmu do znalezienia minimum) jest powszechnym zjawiskiem w NLLSQ.
  • LLSQ jest globalnie wklęsły, więc brak zbieżności nie stanowi problemu.
  • Rozwiązywanie NLLSQ jest zwykle procesem iteracyjnym, który musi zostać zakończony, gdy spełnione jest kryterium zbieżności. Rozwiązania LLSQ można obliczyć za pomocą metod bezpośrednich, chociaż problemy z dużą liczbą parametrów są zwykle rozwiązywane metodami iteracyjnymi, takimi jak metoda Gaussa-Seidela .
  • W LLSQ rozwiązanie jest unikalne, ale w NLLSQ może być wiele minimów w sumie kwadratów.
  • Pod warunkiem, że błędy nie są skorelowane ze zmiennymi predykcyjnymi, LLSQ daje nieobciążone oszacowania, ale nawet pod tym warunkiem oszacowania NLLSQ są na ogół stronnicze.

Różnice te należy brać pod uwagę zawsze, gdy poszukuje się rozwiązania nieliniowego problemu najmniejszych kwadratów.

Przykład

Rozważ prosty przykład zaczerpnięty z fizyki. Sprężyna powinna być zgodna z prawem Hooke'a, które mówi, że rozciągnięcie sprężyny y jest proporcjonalne do przyłożonej do niej siły F .

stanowi model, gdzie F jest zmienną niezależną. W celu oszacowania stałej siły , k przeprowadzamy serię n pomiarów z różnymi siłami w celu uzyskania zbioru danych , w którym Y i jest mierzone rozszerzenie sprężyny. Każda obserwacja eksperymentalna będzie zawierała pewien błąd, więc możemy określić model empiryczny dla naszych obserwacji,

Istnieje wiele metod, których możemy użyć do oszacowania nieznanego parametru k . Ponieważ n równań w m zmiennych w naszych danych zawiera układ naddeterminowany z jedną niewiadomą i n równań, szacujemy k za pomocą najmniejszych kwadratów. Suma kwadratów do zminimalizowania to

Oszacowanie metodą najmniejszych kwadratów stałej siły k jest podane przez

Zakładamy, że przyłożenie siły powoduje rozszerzenie sprężyny. Po wyprowadzeniu stałej siły przez dopasowanie najmniejszych kwadratów przewidujemy rozszerzenie z prawa Hooke'a.

Kwantyfikacja niepewności

W obliczeniach metodą najmniejszych kwadratów z wagami jednostkowymi lub w regresji liniowej wariancję parametru j , oznaczonego jako , szacuje się zwykle za pomocą

gdzie prawdziwa wariancja błędu σ 2 jest zastąpiona oszacowaniem, zredukowaną statystyką chi-kwadrat , opartą na zminimalizowanej wartości resztowej sumy kwadratów (funkcja celu), S . Mianownik, n  −  m , to statystyczne stopnie swobody ; zobacz efektywne stopnie swobody dla uogólnień. C to macierz kowariancji .

Testy statystyczne

Jeśli znany jest rozkład prawdopodobieństwa parametrów lub dokonano przybliżenia asymptotycznego, można znaleźć granice ufności . Podobnie, testy statystyczne reszt można przeprowadzić, jeśli znany lub założony jest rozkład prawdopodobieństwa reszt. Możemy wyprowadzić rozkład prawdopodobieństwa dowolnej kombinacji liniowej zmiennych zależnych, jeśli znany lub założony jest rozkład prawdopodobieństwa błędów eksperymentalnych. Wnioskowanie jest łatwe przy założeniu, że błędy są zgodne z rozkładem normalnym, co w konsekwencji sugeruje, że oszacowania parametrów i reszty będą również miały rozkład normalny w zależności od wartości zmiennych niezależnych.

Aby statystycznie przetestować wyniki, konieczne jest przyjęcie założeń dotyczących charakteru błędów eksperymentalnych. Powszechnym założeniem jest to, że błędy należą do rozkładu normalnego. Centralne twierdzenie graniczne popiera ideę, że to jest dobrym przybliżeniem w wielu przypadkach.

  • Twierdzenie Gaussa–Markowa . W modelu liniowym, w którym błędy mają oczekiwanie zerowe zależne od zmiennych niezależnych, są nieskorelowane i mają równe wariancje , najlepszym liniowym nieobciążonym estymatorem dowolnej liniowej kombinacji obserwacji jest jej estymator najmniejszych kwadratów. „Najlepszy” oznacza, że ​​estymatory najmniejszych kwadratów parametrów mają minimalną wariancję. Założenie równej wariancji jest ważne, gdy wszystkie błędy należą do tego samego rozkładu.
  • Jeśli błędy należą do rozkładu normalnego, estymatory najmniejszych kwadratów są również estymatorami największej wiarygodności w modelu liniowym.

Załóżmy jednak, że błędy nie są normalnie dystrybuowane. W takim przypadku centralne twierdzenie graniczne często jednak implikuje, że oszacowania parametrów będą miały w przybliżeniu rozkład normalny, o ile próba jest dość duża. Z tego powodu, biorąc pod uwagę ważną właściwość, że średnia błędu jest niezależna od zmiennych niezależnych, rozkład składnika błędu nie jest ważnym zagadnieniem w analizie regresji. W szczególności nie jest zazwyczaj ważne, czy składnik błędu ma rozkład normalny.

Ważone najmniejsze kwadraty

Efekt „rozkładania” heteroskedastyczności

Specjalny przypadek uogólnionych najmniejszych kwadratów zwanych ważonymi najmniejszymi kwadratami występuje, gdy wszystkie niediagonalne wpisy Ω (macierz korelacji reszt) są zerowe; odchylenia od obserwacji (wzdłuż przekątnej macierzy kowariancji) wciąż może być różne ( Heteroskedastyczność ). Mówiąc prościej, heteroskedastyczność ma miejsce, gdy wariancja zależy od wartości, która powoduje, że wykres rezydualny tworzy efekt „rozkładania” w kierunku większych wartości, jak widać na wykresie rezydualnym po prawej stronie. Z drugiej strony homoskedastyczność zakłada, że ​​wariancja i jest równa.   

Związek z głównymi składnikami

Pierwszy główny składnik dotyczący średniej zbioru punktów może być reprezentowany przez tę linię, która najbardziej zbliża się do punktów danych (mierzona jako kwadrat odległości najbliższego zbliżenia, tj. prostopadła do linii). Natomiast liniowa metoda najmniejszych kwadratów stara się minimalizować odległość tylko w kierunku. W związku z tym, mimo że obie używają podobnej metryki błędu, metoda najmniejszych kwadratów jest metodą preferencyjną, podczas gdy PCA traktuje wszystkie wymiary jednakowo.

Związek z teorią miary

Znana statystyk Sara van de Geer wykorzystała teorię procesu empirycznego i wymiar Vapnika-Chervonenkisa, aby udowodnić, że estymator najmniejszych kwadratów może być interpretowany jako miara w przestrzeni funkcji całkowalnych do kwadratu .

Regularyzacja

Regularyzacja Tichonowa

W niektórych kontekstach może być preferowana uregulowana wersja rozwiązania najmniejszych kwadratów. Regularyzacja Tichonowa (lub regresja grzbietowa ) dodaje ograniczenie , że norma L 2 wektora parametrów nie jest większa niż podana wartość. Równoważnie, może to rozwiązać nieograniczoną minimalizację kary najmniejszych kwadratów z dodaną, gdzie jest stałą (jest to forma Lagrange'a problemu z ograniczeniami). W kontekście bayesowskim jest to równoważne umieszczeniu zerowej średniej o normalnym rozkładzie przed wektorem parametrów.

Metoda lasso

Alternatywną regularyzowaną wersją najmniejszych kwadratów jest Lasso (operator najmniejszego bezwzględnego skurczu i selekcji), który wykorzystuje ograniczenie , że norma L 1 wektora parametrów nie jest większa niż podana wartość. (Jak wyżej, jest to równoważne nieograniczonej minimalizacji kary metodą najmniejszych kwadratów z dodawaniem). W kontekście bayesowskim jest to równoważne umieszczeniu wcześniejszego rozkładu Laplace'a o średniej zerowej na wektorze parametrów. Problem optymalizacji można rozwiązać za pomocą programowania kwadratowego lub ogólniejszych metod optymalizacji wypukłej , a także za pomocą określonych algorytmów, takich jak algorytm regresji najmniejszego kąta .

Jedną z głównych różnic między Lasso a regresją grzbietu jest to, że w regresji grzbietu, wraz ze wzrostem kary, wszystkie parametry są zmniejszane, ale nadal pozostają niezerowe, podczas gdy w Lasso zwiększenie kary spowoduje, że coraz więcej parametrów będzie doprowadzony do zera. Jest to przewaga metody Lasso nad regresją grzbietową, ponieważ ustawienie parametrów do zera usuwa zaznaczenie cech z regresji. W ten sposób Lasso automatycznie wybiera bardziej odpowiednie cechy i odrzuca inne, podczas gdy regresja Ridge nigdy w pełni nie odrzuca żadnych cech. Niektóre techniki wyboru cech są opracowywane w oparciu o LASSO, w tym Bolasso, który pobiera próbki i FeaLect, który analizuje współczynniki regresji odpowiadające różnym wartościom, aby ocenić wszystkie cechy.

L 1 Preparat -regularized jest użyteczne w pewnych sytuacjach ze względu na jego skłonność do preferowanego rozwiązania w innych parametrów są zerami, co zapewnia rozwiązanie, które zależą od mniejszej liczby czynników. Z tego powodu Lasso i jego warianty mają fundamentalne znaczenie w dziedzinie skompresowanych czujników . Rozszerzeniem tego podejścia jest elastyczna regularyzacja sieci .

Zobacz też

Bibliografia

Dalsza lektura

Zewnętrzne linki