Regularyzacja (matematyka) - Regularization (mathematics)

Funkcje zielony i niebieski powodują zerową stratę w podanych punktach danych. Wyuczony model można skłonić do preferowania funkcji zielonej, która może lepiej uogólniać więcej punktów wyciągniętych z podstawowego nieznanego rozkładu, dostosowując wagę składnika regularyzacji.

W matematyce , statystyce , finansach , informatyce , zwłaszcza w uczeniu maszynowym i problemach odwrotnych , regularyzacja jest procesem dodawania informacji w celu rozwiązania źle postawionego problemu lub zapobieżenia nadmiernemu dopasowaniu .

Regularyzację można zastosować do funkcji celu w źle postawionych problemach optymalizacyjnych. Okres regularyzacji lub kara nakłada koszt na funkcję optymalizacji, aby optymalne rozwiązanie było unikalne.

Niezależnie od problemu lub modelu zawsze istnieje termin danych, który odpowiada prawdopodobieństwu pomiaru, oraz składnik regularyzacyjny, który odpowiada wcześniejszemu. Łącząc oba przy użyciu statystyki bayesowskiej, można obliczyć późniejszy, który obejmuje oba źródła informacji, a tym samym stabilizuje proces estymacji. Odkupując oba cele, decyduje się na większe uzależnienie od danych lub wymuszenie uogólnienia (aby zapobiec nadmiernemu dopasowaniu). Istnieje cała gałąź badań zajmująca się wszystkimi możliwymi regularyzacjami. Przebieg pracy zwykle polega na tym, że próbuje się określonej regularyzacji, a następnie oblicza gęstość prawdopodobieństwa, która odpowiada tej regularyzacji, aby uzasadnić wybór. Może też być motywowane fizycznie przez zdrowy rozsądek lub intuicję, co jest trudniejsze.

W uczeniu maszynowym termin danych odnosi się do danych szkoleniowych, a regularyzacja to wybór modelu lub modyfikacje algorytmu. Ma to zawsze na celu zmniejszenie błędu uogólnienia, tj. Wyniku błędu z wytrenowanym modelem w zbiorze ewaluacyjnym, a nie danych uczących.

Jednym z najwcześniejszych zastosowań regularyzacji jest metoda najmniejszych kwadratów. Obliczona gęstość prawdopodobieństwa to rozkład Gaussa, znany obecnie pod nazwą „regularyzacja Tichonowa”.


Klasyfikacja

Empiryczne uczenie się klasyfikatorów (ze skończonego zbioru danych) jest zawsze niedookreślonym problemem, ponieważ próbuje wywnioskować funkcję dowolnych podanych tylko przykładów .

Do funkcji straty dodawany jest termin regularyzacji (lub regularyzator) :

gdzie jest podstawowa funkcja straty, która opisuje koszt przewidywania, kiedy etykieta jest , taka jak strata kwadratowa lub strata zawiasowa ; i jest parametrem, który kontroluje ważność terminu regularyzacji. jest zwykle wybierany w celu nałożenia kary na złożoność . Konkretne pojęcia złożoności obejmują ograniczenia gładkości i ograniczenia normy przestrzeni wektorowej .

Teoretycznym uzasadnieniem dla regularyzacji jest to, że próbuje narzucić brzytwę Ockhama na rozwiązanie (jak pokazano na powyższym rysunku, gdzie zielona funkcja, prostsza, może być preferowana). Z punktu widzenia bayesowskiego wiele technik regularyzacji odpowiada narzucaniu pewnych wcześniejszych rozkładów na parametry modelu.

Regularyzacja może służyć wielu celom, w tym uczeniu się prostszych modeli, skłanianiu modeli i wprowadzaniu struktury grupowej do problemu uczenia się.

Ta sama idea zrodziła się w wielu dziedzinach nauki . Prosta forma regularyzacji zastosowana do równań całkowych ( regularyzacja Tichonowa ) jest zasadniczo kompromisem między dopasowaniem danych a redukcją normy rozwiązania. Niedawno popularne stały się metody regularyzacji nieliniowej, w tym regularyzacji całkowitej zmienności .

Uogólnienie

Regularyzację można motywować jako technikę poprawy możliwości uogólniania wyuczonego modelu.

Celem tego problemu uczenia się jest znalezienie funkcji, która pasuje lub przewiduje wynik (etykieta), która minimalizuje oczekiwany błąd we wszystkich możliwych wejściach i etykietach. Oczekiwany błąd funkcji to:

gdzie i są odpowiednio domenami danych wejściowych i ich etykietami .

Zazwyczaj w przypadku problemów z nauką dostępny jest tylko podzbiór danych wejściowych i etykiet, mierzonych z pewnym szumem. Dlatego oczekiwany błąd jest niemierzalny, a najlepszym dostępnym zastępnikiem jest błąd empiryczny w dostępnych próbkach:

Bez ograniczeń złożoności dostępnej przestrzeni funkcji (formalnie odtwarzanej przestrzeni jądra Hilberta ), zostanie poznany model, który powoduje zerową stratę na zastępczym błędzie empirycznym. Jeśli pomiary (np. ) Zostały wykonane z szumem, model ten może cierpieć z powodu nadmiernego dopasowania i wyświetlać słaby oczekiwany błąd. Regularyzacja wprowadza karę za badanie pewnych obszarów przestrzeni funkcji wykorzystywanej do budowy modelu, co może poprawić generalizację.

Regularyzacja Tichonowa

Techniki te zostały nazwane na cześć Andrieja Nikołajewicza Tichonowa , który zastosował regularyzację do równań całkowych i wniósł ważny wkład w wielu innych dziedzinach.

Ucząc się funkcji liniowej , charakteryzującej się nieznanym wektorem, takim, że można dodać -normy wektora do wyrażenia straty, aby preferować rozwiązania o mniejszych normach. Regularyzacja Tichonowa jest jedną z najpowszechniejszych form. Jest również znany jako regresja grzbietu. Wyraża się jako:

,

gdzie reprezentowałby próbki używane do szkolenia.

W przypadku funkcji ogólnej normą funkcji w jej odtwarzającym jądrze przestrzeni Hilberta jest:

Ponieważ norma jest różniczkowalna , uczenie się można przyspieszyć poprzez zejście gradientowe .

Tichonow uregulowane metodą najmniejszych kwadratów

Problem uczenia się z funkcją straty najmniejszych kwadratów i regularyzacją Tichonowa można rozwiązać analitycznie. Zapisany w postaci macierzowej optymalny to taki, dla którego gradient funkcji straty względem wynosi 0.

   ( warunek pierwszego rzędu )

Konstruując problem optymalizacji, inne wartości dają większe wartości funkcji straty. Można to zweryfikować, badając drugą pochodną .

Podczas treningu ten algorytm wymaga czasu . Terminy odpowiadają odpowiednio inwersji macierzy i obliczeniom . Testowanie wymaga czasu.

Wczesne zatrzymanie

Wczesne zatrzymanie można postrzegać jako regularyzację w czasie. Intuicyjnie, procedura treningowa, taka jak zejście gradientowe, ma tendencję do uczenia się coraz bardziej złożonych funkcji wraz ze wzrostem liczby iteracji. Poprzez regulację czasu można kontrolować złożoność modelu, poprawiając uogólnienie.

Wczesne zatrzymywanie jest realizowane przy użyciu jednego zestawu danych do uczenia, jednego statystycznie niezależnego zestawu danych do walidacji i innego do testowania. Model jest szkolony do momentu, gdy wydajność w zestawie walidacyjnym nie będzie się poprawiać, a następnie zostanie zastosowany do zestawu testowego.

Motywacja teoretyczna metodą najmniejszych kwadratów

Rozważmy skończone przybliżenie szeregu Neumanna dla odwracalnej macierzy A, gdzie :

Można to wykorzystać do przybliżenia analitycznego rozwiązania nieregularnych najmniejszych kwadratów, jeśli wprowadzono γ, aby zapewnić, że norma jest mniejsza niż jeden.

Dokładne rozwiązanie nieregularnego problemu uczenia się metodą najmniejszych kwadratów minimalizuje błąd empiryczny, ale może się nie powieść. Ograniczając T , jedyny wolny parametr w powyższym algorytmie, problem jest regulowany w czasie, co może poprawić jego uogólnienie.

Powyższy algorytm jest równoważny ograniczeniu liczby iteracji gradientu spadku dla ryzyka empirycznego

z aktualizacją zejścia gradientu:

Podstawowy przypadek jest trywialny. Przypadek indukcyjny jest udowodniony w następujący sposób:

Regulatory dla rzadkości

Załóżmy, że słownik z wymiarem jest podany w taki sposób, że funkcja w przestrzeni funkcyjnej może być wyrażona jako:

Porównanie między kulką L1 i kulką L2 w dwóch wymiarach daje intuicję, w jaki sposób regularyzacja L1 prowadzi do rzadkości.

Wymuszenie ograniczenia rzadkości może prowadzić do prostszych i bardziej interpretowalnych modeli. Jest to przydatne w wielu rzeczywistych zastosowaniach, takich jak biologia obliczeniowa . Przykładem jest opracowanie prostego testu predykcyjnego dla choroby w celu zminimalizowania kosztów przeprowadzania testów medycznych przy jednoczesnej maksymalizacji mocy predykcyjnej.

Rozsądnym ograniczeniem rzadkości jest norma , definiowana jako liczba niezerowych elementów w . Okazało się jednak, że rozwiązanie uregulowanego problemu uczenia się jest NP-trudne .

Normy (patrz także Norm ) może być stosowany do w przybliżeniu optymalnego normy poprzez wypukłą odprężenia. Można wykazać, że norma prowadzi do rzadkości. W przypadku najmniejszych kwadratów, problem ten jest znany jako lasso w statystykach i podstawa pogoni w przetwarzaniu sygnału.

Elastyczna regularyzacja sieci

Regularyzacja może czasami dawać nieunikalne rozwiązania. Prosty przykład przedstawiono na rysunku, gdzie przestrzeń możliwych rozwiązań leży na linii pod kątem 45 stopni. Może to być problematyczne w przypadku niektórych zastosowań i jest przezwyciężane poprzez połączenie z regularyzacją w regularyzacji elastycznej sieci , która przyjmuje następującą postać:

Elastyczna regularyzacja sieci ma zwykle efekt grupowania, w którym skorelowanym cechom wejściowym przypisuje się równe wagi.

Elastyczna regularyzacja sieci jest powszechnie stosowana w praktyce i jest implementowana w wielu bibliotekach uczenia maszynowego.

Metody proksymalne

Chociaż norma nie prowadzi do problemu NP-trudnego, norma jest wypukła, ale nie jest ściśle różniczkowalna ze względu na załamanie przy x = 0. Metody subgradientowe, które opierają się na pochodnej cząstkowej, mogą być używane do rozwiązywania uregulowanych problemów uczenia się. Jednak szybszą konwergencję można osiągnąć metodami proksymalnymi.

W przypadku błędu , tak że jest wypukła, ciągłe różniczkowalną z Lipschitz ciągłe frakcjonowanie (na przykład jako funkcję co najmniej strat kwadraty) i wypukła, ciągłe i prawidłowe, to wówczas sposób proksymalnie do rozwiązania tego problemu jest następujący. Najpierw zdefiniuj operator proksymalny

a następnie wykonaj iterację

Metoda proksymalna iteracyjnie wykonuje zejście gradientowe, a następnie rzutuje wynik z powrotem do przestrzeni dozwolonej przez .

Kiedy jest regulatorem, operator proksymalny jest odpowiednikiem operatora miękkiego progowania,

Pozwala to na wydajne obliczenia.

Nieliczność grup bez nakładania się

Grupy cech można regulować ograniczeniem rzadkości, co może być przydatne do wyrażania pewnej wcześniejszej wiedzy w problemie optymalizacji.

W przypadku modelu liniowego z nienakładającymi się znanymi grupami można zdefiniować regularyzator:

gdzie

Można to postrzegać jako wprowadzenie regularyzatora ponad normę dotyczącą członków każdej grupy, po której następuje norma dotycząca grup.

Można to rozwiązać za pomocą metody proksymalnej, w której operator proksymalny jest funkcją miękkiego progowania blokowego:

Rzadkość grupowa z nakładaniem się

Algorytm opisany dla rzadkości grup bez nakładania się można zastosować w przypadku, gdy grupy nakładają się, w określonych sytuacjach. Prawdopodobnie spowoduje to, że niektóre grupy będą zawierały wszystkie elementy zerowe, a inne grupy będą zawierały elementy niezerowe i elementy zerowe.

Jeśli zachodzi potrzeba zachowania struktury grupy, można zdefiniować nowy regularyzator:

Dla każdego , jest zdefiniowany jako wektora tak, że ograniczenie dla grupy równych i wszystkie inne pozycje z mają wartość zero. Regularyzator znajduje optymalny rozkład na części. Można to postrzegać jako powielanie wszystkich elementów, które istnieją w wielu grupach. Problemy z nauką tego regulatora można również rozwiązać metodą proksymalną z komplikacją. Operator proksymalny nie może być obliczany w postaci zamkniętej, ale można go skutecznie rozwiązać iteracyjnie, wywołując wewnętrzną iterację w ramach bliższej iteracji metody.

Regulatory do uczenia się częściowo nadzorowanego

Gdy zebranie etykiet jest droższe niż przykłady wejściowe, przydatne może być częściowo nadzorowane uczenie się. Regulatory zostały zaprojektowane w celu kierowania algorytmami uczenia się, aby uczyć się modeli, które uwzględniają strukturę nienadzorowanych próbek szkoleniowych. Jeśli podano symetryczną macierz wag , można zdefiniować regularyzator:

Jeśli koduje wynik pewnej miary odległości dla punktów i jest to pożądane . Ten regulator oddaje tę intuicję i jest równoważny z:

gdzie jest macierz Laplaciana wykresu wywołanego przez .

Problem optymalizacji można rozwiązać analitycznie, jeśli ograniczenie zostanie zastosowane do wszystkich nadzorowanych próbek. Oznaczona część wektora jest zatem oczywista. Nieoznaczona część jest rozwiązana przez:

Zauważ, że można przyjąć pseudoodwrotność, ponieważ ma taki sam zakres jak .

Regulatory do nauki wielozadaniowej

W przypadku uczenia się wielozadaniowego problemy są rozpatrywane jednocześnie, każdy w jakiś sposób powiązany. Celem jest nauczenie się funkcji, najlepiej zapożyczonych ze związku zadań, które mają moc predykcyjną. Jest to równoważne uczeniu się macierzy .

Rzadki regulator w kolumnach

Ten regulator definiuje normę L2 dla każdej kolumny i normę L1 dla wszystkich kolumn. Można to rozwiązać metodami proksymalnymi.

Regularyzacja norm jądrowych

gdzie jest wartości własne w liczbie pojedynczej wartości rozkładu dnia .

Regularyzacja z ograniczeniami średnimi

Ten regulator ogranicza funkcje wyuczone dla każdego zadania, aby były podobne do ogólnej średniej funkcji we wszystkich zadaniach. Jest to przydatne do wyrażania wcześniejszych informacji, które każde zadanie ma udostępniać sobie nawzajem. Przykładem jest przewidywanie poziomów żelaza we krwi mierzonych w różnych porach dnia, gdzie każde zadanie dotyczy osobnej osoby.

Klastrowana regularyzacja z ograniczeniem średniej

gdzie jest grupa zadań.

Ten regulator jest podobny do regulatora z ograniczeniami średniej, ale zamiast tego wymusza podobieństwo między zadaniami w tym samym klastrze. Może to uchwycić bardziej złożone informacje wstępne. Ta technika została wykorzystana do przewidywania zaleceń Netflix . Klaster odpowiadałby grupie osób o podobnych preferencjach.

Podobieństwo oparte na wykresach

Bardziej ogólnie niż powyżej, podobieństwo między zadaniami można zdefiniować za pomocą funkcji. Regulator zachęca model do uczenia się podobnych funkcji dla podobnych zadań.

dla danej symetrycznej macierzy podobieństwa .

Inne zastosowania regularyzacji w statystykach i uczeniu maszynowym

Metody uczenia bayesowskiego wykorzystują wcześniejsze prawdopodobieństwo, które (zwykle) daje mniejsze prawdopodobieństwo bardziej złożonym modelom. Dobrze znane techniki wyboru modeli obejmują kryterium informacyjne Akaike'a (AIC), minimalną długość opisu (MDL) i kryterium informacyjne Bayesa (BIC). Alternatywne metody kontrolowania nadmiernego dopasowania, które nie obejmują regularyzacji, obejmują walidację krzyżową .

Przykładowe zastosowania różnych metod regularyzacji do modelu liniowego to:

Model Dopasuj miarę Miara entropii
AIC / BIC
Regresja grzbietu
Lasso
Podstawa odszumiania pościgu
Model Rudin – Osher – Fatemi (TV)
Model Pottsa
RLAD
Dantzig Selector
NACHYLENIE

Zobacz też

Uwagi

Bibliografia