Uregulowane najmniejsze kwadraty — Regularized least squares

Regularyzowane metody najmniejszych kwadratów ( RLS ) to rodzina metod rozwiązywania problemu najmniejszych kwadratów przy użyciu regularyzacji do dalszego ograniczania otrzymanego rozwiązania.

RLS jest używany z dwóch głównych powodów. Pierwszy pojawia się, gdy liczba zmiennych w układzie liniowym przekracza liczbę obserwacji. W takich warunkach zwykły problem najmniejszych kwadratów jest źle postawiony i dlatego jest niemożliwy do dopasowania, ponieważ związany z nim problem optymalizacji ma nieskończenie wiele rozwiązań. RLS umożliwia wprowadzenie dalszych ograniczeń, które jednoznacznie determinują rozwiązanie.

Drugi powód, dla którego stosuje się RLS, występuje, gdy liczba zmiennych nie przekracza liczby obserwacji, ale wyuczony model cierpi na słabą generalizację . W takich przypadkach RLS może być używany do poprawy uogólniania modelu poprzez ograniczenie go w czasie uczenia. Ograniczenie to może w jakiś sposób zmusić rozwiązanie do „rzadkiego” lub odzwierciedlać inną wcześniejszą wiedzę na temat problemu, taką jak informacje o korelacjach między cechami. Bayesa zrozumienia to może być osiągnięte, pokazując, że metody RLS są często równoważne priors na rozwiązanie problemu najmniejszych kwadratów.

Ogólna formuła

Rozważmy ustawienie nauki podane przez przestrzeń probabilistyczną , . Pozwolić oznaczają zestaw szkoleniowy par IID względem . Niech będzie funkcją straty. Zdefiniuj jako przestrzeń funkcji taką, że oczekiwane ryzyko:

jest dobrze zdefiniowany. Głównym celem jest minimalizacja oczekiwanego ryzyka:

Ponieważ problemu nie da się dokładnie rozwiązać, istnieje potrzeba określenia, w jaki sposób mierzyć jakość rozwiązania. Dobry algorytm uczenia powinien zapewnić estymatorowi niewielkie ryzyko.

Ponieważ wspólny rozkład jest zwykle nieznany, podejmowane jest ryzyko empiryczne. Dla regularyzowanych najmniejszych kwadratów wprowadzono kwadratową funkcję straty:

Jednakże, jeśli funkcje pochodzą ze stosunkowo nieograniczonej przestrzeni, takiej jak zbiór funkcji całkowalnych do kwadratu na , to podejście może nadmiernie dopasować dane uczące i prowadzić do słabego uogólnienia. Powinno to więc w jakiś sposób ograniczać lub karać złożoność funkcji . W RLS osiąga się to poprzez wybranie funkcji z odtwarzającej jądra przestrzeni Hilberta (RKHS) i dodanie do funkcji celu terminu regularyzacji, proporcjonalnego do normy funkcji w :

Formuła jądra

Definicja RKHS

RKHS może być zdefiniowany przez symetryczną dodatnio określoną funkcję jądra z właściwością odtwarzania:

gdzie . RKHS dla jądra składa się z uzupełnienia przestrzeni funkcji rozpiętych przez : , gdzie wszystkie są liczbami rzeczywistymi. Niektóre powszechnie używane jądra obejmują jądro liniowe, indukujące przestrzeń funkcji liniowych:

jądro wielomianowe, indukujące przestrzeń wielomianowych funkcji porządku :

i jądro Gaussa:

Zauważ, że dla dowolnej funkcji straty , to podejście definiuje ogólną klasę algorytmów o nazwie regularyzacja Tichonowa. Na przykład użycie utraty zawiasów prowadzi do algorytmu maszyny wektora nośnego , a użycie utraty niewrażliwej na epsilon prowadzi do regresji wektora nośnego .

Jądro arbitralne

W representer twierdzenie gwarantuje, że rozwiązanie można zapisać jako:

dla niektórych .

Problem minimalizacji można wyrazić jako:

gdzie, z pewnym nadużyciem notacji, wpis macierzy jądra (w przeciwieństwie do funkcji jądra ) to .

Dla takiej funkcji,

Można uzyskać następujący problem minimalizacji:

.

Ponieważ suma funkcji wypukłych jest wypukła, rozwiązanie jest unikalne, a jego minimum można znaleźć ustawiając gradient wrt na :

gdzie

Złożoność

Złożoność uczenia to w zasadzie koszt obliczenia macierzy jądra plus koszt rozwiązania systemu liniowego, który jest w przybliżeniu . Obliczenie macierzy jądra dla jądra liniowego lub Gaussa to . Złożoność testowania to .

Prognoza

Przewidywanie w nowym punkcie testowym to:

Jądro liniowe

Dla wygody wprowadzono notację wektorową. Pozwolić Be matrycę, w której rzędy są wejściowe wektory i do wektora, w którym pozycje są odpowiednimi wyjściami. Jeśli chodzi o wektory, macierz jądra można zapisać jako . Funkcja uczenia się może być zapisana jako:

Tutaj definiujemy . Funkcję celu można przepisać jako:

Pierwszym wyrazem jest funkcja celu ze zwykłej regresji najmniejszych kwadratów (OLS), odpowiadająca resztowej sumie kwadratów . Drugi termin to termin regularyzacyjny, nieobecny w OLS, który karze duże wartości. Rozważany jest gładki problem skończenie wymiarowy i możliwe jest zastosowanie standardowych narzędzi rachunku różniczkowego. W celu zminimalizowania funkcji celu obliczany jest gradient względem i ustawiany na zero:

To rozwiązanie bardzo przypomina standardową regresję liniową, z dodatkowym wyrazem . Jeśli założenia regresji MNK są spełnione, rozwiązanie , z , jest nieobciążonym estymatorem i jest liniowym nieobciążonym estymatorem o minimalnej wariancji, zgodnie z twierdzeniem Gaussa-Markowa . Termin ten prowadzi zatem do tendencyjnego rozwiązania; jednak ma również tendencję do zmniejszania wariancji. Łatwo to zauważyć, ponieważ macierz kowariancji wartości - jest proporcjonalna do , a zatem duże wartości będą prowadzić do mniejszej wariancji. Dlatego manipulowanie odpowiada stronniczości i wariancji wyprzedaży. W przypadku problemów z oszacowaniami o wysokiej wariancji , takich jak przypadki ze stosunkowo małymi lub skorelowanymi regresorami, optymalną dokładność predykcji można uzyskać, stosując wartość niezerową , a tym samym wprowadzając pewne obciążenie w celu zmniejszenia wariancji. Co więcej, w uczeniu maszynowym nierzadko zdarzają się przypadki , w których , w którym to przypadku jest niedostateczna ranga , a do obliczenia konieczne jest niezerowe .

Złożoność

Parametr kontroluje odwracalność matrycy . Do rozwiązania powyższego układu liniowego można zastosować kilka metod, przy czym rozkład Choleskiego jest prawdopodobnie metodą z wyboru, ponieważ macierz jest symetryczna i dodatnio określona . Złożoność tej metody dotyczy szkolenia i testowania. Koszt jest zasadniczo kosztem obliczeń , podczas gdy obliczenia odwrotne (a raczej rozwiązanie systemu liniowego) są z grubsza .

Mapy cech i twierdzenie Mercera

W tej sekcji zostanie pokazane, jak rozszerzyć RLS na dowolny rodzaj jądra odtwarzającego K. Zamiast jądra liniowego rozważana jest mapa cech dla pewnej przestrzeni Hilberta , zwanej przestrzenią cech. W tym przypadku jądro jest zdefiniowane jako: Macierz jest teraz zastąpiona przez nową macierz danych , gdzie , lub -ty składnik .

Oznacza to, że dla danego zestawu treningowego . Zatem funkcję celu można zapisać jako

Takie podejście jest znane jako sztuczka z jądrem . Ta technika może znacznie uprościć operacje obliczeniowe. Jeśli jest wielowymiarowy, obliczenia mogą być dość intensywne. Jeśli znana jest jawna forma funkcji jądra, wystarczy obliczyć i zapisać macierz jądra .

W rzeczywistości przestrzeń Hilberta nie musi być izomorficzna i może być nieskończenie wymiarowa. Wynika to z twierdzenia Mercera , które stwierdza, że ​​ciągłą, symetryczną, dodatnio określoną funkcję jądra można wyrazić jako

gdzie tworzą ortonormalną podstawę dla , i . Jeśli mapy elementów są zdefiniowane z komponentami , wynika z tego . Pokazuje to, że dowolne jądro może być powiązane z mapą cech i że RLS generalnie składa się z liniowego RLS wykonywanego w jakiejś przestrzeni cech, być może o wyższym wymiarze. Podczas gdy twierdzenie Mercera pokazuje, w jaki sposób jedna mapa cech może być powiązana z jądrem, w rzeczywistości wiele map cech może być powiązanych z danym odtwarzającym jądrem. Na przykład mapa spełnia właściwość dowolnego jądra odtwarzającego.

Interpretacja bayesowska

Metoda najmniejszych kwadratów może być postrzegana jako maksymalizacja wiarygodności przy założeniu reszt o rozkładzie normalnym. Dzieje się tak, ponieważ wykładnik rozkładu Gaussa jest w danych kwadratowy, podobnie jak funkcja celu najmniejszych kwadratów. W tych ramach, warunki regularyzacji RLS mogą być rozumiane jako kodowanie a priori na . Na przykład regularyzacja Tichonowa odpowiada wcześniej o rozkładzie normalnym, które jest wyśrodkowane na 0. Aby to zobaczyć, najpierw zauważ, że cel OLS jest proporcjonalny do funkcji logarytmu wiarygodności, gdy każda próbka ma rozkład normalny wokół . Następnie zaobserwuj, że normalny a priori wyśrodkowany na 0 ma logarytmiczne prawdopodobieństwo postaci

gdzie i są stałymi, które zależą od wariancji wcześniejszego i są niezależne od . Zatem minimalizacja logarytmu prawdopodobieństwa razy a priori jest równoważna minimalizacji sumy funkcji straty OLS i członu regularyzacji regresji grzbietowej.

Daje to bardziej intuicyjną interpretację, dlaczego regularyzacja Tichonowa prowadzi do unikalnego rozwiązania problemu najmniejszych kwadratów: istnieje nieskończenie wiele wektorów spełniających ograniczenia uzyskane z danych, ale ponieważ dochodzimy do problemu z wcześniejszym przekonaniem, które ma rozkład normalny wokół początku, ostatecznie wybierzemy rozwiązanie z myślą o tym ograniczeniu.

Inne metody regularyzacji odpowiadają różnym a priori. Zobacz poniższą listę, aby uzyskać więcej informacji.

Konkretne przykłady

Regresja grzbietowa (lub regularyzacja Tichonowa)

Jednym ze szczególnie powszechnych wyborów dla funkcji kary jest norma kwadratowa , tj.

Najbardziej popularne nazwy to regularyzacja Tichonowa i regresja grzbietowa . Dopuszcza rozwiązanie w formie zamkniętej dla :

Nazwa regresja grzbietowa odnosi się do faktu, że termin dodaje dodatnie wpisy wzdłuż ukośnego „grzbieta” przykładowej macierzy kowariancji .

Kiedy , tj. w przypadku zwykłych najmniejszych kwadratów , warunek, który powoduje, że próbka macierz kowariancji nie ma pełnego rzędu, a więc nie może być odwrócona w celu uzyskania jednoznacznego rozwiązania. Dlatego może istnieć nieskończona liczba rozwiązań zwykłego problemu najmniejszych kwadratów, gdy . Jednak gdy , tj. gdy używana jest regresja grzbietowa, dodanie do próbki macierzy kowariancji zapewnia, że ​​wszystkie jej wartości własne będą ściśle większe od 0. Innymi słowy, staje się ona odwracalna, a rozwiązanie staje się unikalne.

W porównaniu ze zwykłymi najmniejszymi kwadratami regresja grzbietowa nie jest bezstronna. Akceptuje niewielkie obciążenie w celu zmniejszenia wariancji i błędu średniokwadratowego oraz pomaga poprawić dokładność przewidywania. Zatem estymator grzbietu daje bardziej stabilne rozwiązania poprzez zmniejszanie współczynników, ale cierpi na brak wrażliwości na dane.

Regresja lasso

Innym popularnym wyborem jest metoda najmniejszej selekcji i skurczu (LASSO). W regresji lasso , funkcja kary lasso jest normą , tj.

Zauważ, że funkcja kary lassa jest wypukła, ale nie ściśle wypukła. W przeciwieństwie do regularyzacji Tichonowa , ten schemat nie ma wygodnego rozwiązania formy zamkniętej: zamiast tego rozwiązanie jest zwykle znajdowane za pomocą programowania kwadratowego lub bardziej ogólnych metod optymalizacji wypukłej , a także za pomocą określonych algorytmów, takich jak algorytm regresji najmniejszego kąta .

Ważną różnicą między regresją lasso a regularyzacją Tichonowa jest to, że regresja lasso wymusza więcej wpisów do faktycznie równych 0 niż w innym przypadku. W przeciwieństwie do tego, podczas gdy regularyzacja Tichonowa wymusza, aby wejścia były małe, nie wymusza jednak większej liczby z nich, aby były równe 0, niż byłoby inaczej. Tak więc regularyzacja LASSO jest bardziej odpowiednia niż regularyzacja Tichonowa w przypadkach, w których spodziewamy się, że liczba niezerowych wpisów o będzie mała, a regularyzacja Tichonowa jest bardziej odpowiednia, gdy spodziewamy się, że wpisy o będą generalnie małe, ale niekoniecznie zero. Który z tych systemów jest bardziej odpowiedni, zależy od konkretnego zestawu danych.

Oprócz wyboru funkcji opisanych powyżej, LASSO ma pewne ograniczenia. Regresja grzbietowa zapewnia lepszą dokładność w przypadku wysoce skorelowanych zmiennych. W innym przypadku, LASSO wybiera co najwyżej zmienne. Co więcej, LASSO ma tendencję do wybierania arbitralnych zmiennych z grupy silnie skorelowanych próbek, więc nie ma efektu grupowania.

0 Kara

Najbardziej ekstremalnym sposobem wymuszenia rzadkości jest stwierdzenie, że rzeczywista wielkość współczynników nie ma znaczenia; raczej jedyną rzeczą, która decyduje o złożoności, jest liczba wpisów niezerowych. Odpowiada to ustawienie się być normą od . Ta funkcja regularyzacji, choć atrakcyjna ze względu na rzadkość, jaką gwarantuje, jest bardzo trudna do rozwiązania, ponieważ wymaga optymalizacji funkcji, która nie jest nawet słabo wypukła . Regresja lassowa jest minimalną możliwą relaksacją penalizacji, która daje słabo wypukły problem optymalizacji.

Elastyczna siatka

Dla każdego nieujemnego, a cel ma następującą postać:

Niech , to rozwiązanie problemu minimalizacji jest opisane jako:

dla niektórych .

Rozważ jako funkcję kary elastycznej netto.

Kiedy , elastyczna siatka staje się regresją grzbietu, podczas gdy staje się Lasso. Elastyczna funkcja kary netto nie ma pierwszej pochodnej na 0 i jest ściśle wypukła, przyjmując właściwości zarówno regresji lassa, jak i regresji grzbietowej .

Jedną z głównych właściwości sieci elastycznej jest to, że może ona wybierać grupy skorelowanych zmiennych. Różnica między wektorami mas próbek i jest wyrażona wzorem:

, gdzie .

Jeśli i są silnie skorelowane ( ), wektory wag są bardzo zbliżone. W przypadku próbek skorelowanych ujemnie ( ) można pobrać próbki . Podsumowując, dla zmiennych silnie skorelowanych wektory wag są zwykle równe do znaku w przypadku zmiennych ujemnie skorelowanych.

Częściowa lista metod RLS

Poniżej znajduje się lista możliwych wyborów funkcji regularyzacji , wraz z nazwą każdej z nich, odpowiednim przed, jeśli jest prosty, oraz sposobami obliczania rozwiązania powstałego problemu optymalizacji.

Nazwa Funkcja regularyzacji Odpowiadający przed Metody rozwiązywania
Regularyzacja Tichonowa Normalna Formularz zamknięty
Regresja lasso Laplace Proksymalny spadek gradientu , regresja najmniejszego kąta
kara Wybór w przód , eliminacja wsteczna , użycie a priori, takich jak kolec i płyta
Siatki elastyczne Mieszanka normalna i Laplacea Proksymalny spadek gradientu
Całkowita regulacja zmienności m.in. metoda Split–Bregman

Zobacz też

Bibliografia

Linki zewnętrzne