Minimalizacja ryzyka empirycznego - Empirical risk minimization

Empiryczna minimalizacja ryzyka (ERM) jest zasadą statystycznej teorii uczenia się, która definiuje rodzinę algorytmów uczenia się i służy do określenia teoretycznych granic ich wydajności. Podstawową ideą jest to, że nie możemy dokładnie wiedzieć, jak dobrze algorytm będzie działał w praktyce (prawdziwe „ryzyko”), ponieważ nie znamy prawdziwego rozkładu danych, na którym algorytm będzie działał, ale zamiast tego możemy mierzyć jego wydajność na podstawie znany zestaw danych uczących (ryzyko „empiryczne”).

Tło

Rozważ następującą sytuację, która jest ogólnym ustawieniem wielu nadzorowanych problemów w uczeniu się . Mamy dwie przestrzenie obiektów i chcielibyśmy nauczyć się funkcji (często nazywanej hipotezą ), która wyprowadza obiekt , dany . Aby to zrobić, mamy do dyspozycji zestaw treningowy z przykładów , gdzie jest wejście i jest odpowiedź, że chcemy dostać od .

Mówiąc bardziej formalnie, zakładamy, że istnieje łączny rozkład prawdopodobieństwa nad i , a zbiór uczący składa się z instancji wylosowanych z iid . Należy zauważyć, że założenie łącznego rozkładu prawdopodobieństwa pozwala nam modelować niepewność w przewidywaniach (np. z szumu w danych), ponieważ nie jest to funkcja deterministyczna , ale raczej zmienna losowa z rozkładem warunkowym dla ustalonego .

Zakładamy również, że otrzymujemy nieujemną funkcję straty o wartościach rzeczywistych, która mierzy, jak różni się przewidywanie hipotezy od rzeczywistego wyniku . Ryzyko związane z hipotezą jest następnie definiowane jako oczekiwanie funkcji straty:

Funkcja straty powszechnie stosowana w teorii to funkcja straty 0-1 : .

Ostatecznym celem algorytmu uczącego jest znalezienie hipotezy wśród ustalonej klasy funkcji, dla której ryzyko jest minimalne:

Minimalizacja ryzyka empirycznego

Ogólnie ryzyko nie może być obliczone, ponieważ rozkład jest nieznany algorytmowi uczącemu (sytuacja ta jest określana jako uczenie agnostyczne ). Możemy jednak obliczyć przybliżenie, zwane ryzykiem empirycznym , uśredniając funkcję straty na zbiorze uczącym:

Zasada minimalizacji ryzyka empirycznego mówi, że algorytm uczący powinien wybrać hipotezę, która minimalizuje ryzyko empiryczne:

Zatem algorytm uczenia określony zasadą ERM polega na rozwiązaniu powyższego problemu optymalizacyjnego .

Nieruchomości

Złożoność obliczeniowa

Wiadomo, że minimalizacja ryzyka empirycznego dla problemu klasyfikacji z funkcją straty 0-1 jest problemem NP-trudnym, nawet dla tak stosunkowo prostej klasy funkcji, jak klasyfikatory liniowe . Można to jednak skutecznie rozwiązać, gdy minimalne ryzyko empiryczne wynosi zero, tj. dane są liniowo separowalne .

W praktyce algorytmy uczenia maszynowego radzą sobie z tym albo przez zastosowanie wypukłego przybliżenia do funkcji straty 0-1 (jak strata zawiasowa dla SVM ), która jest łatwiejsza do optymalizacji, albo przez narzucanie założeń na rozkład (i tym samym przestają być uczeniem agnostycznym algorytmy, których dotyczy powyższy wynik).

Zobacz też

Bibliografia

Dalsza lektura

  • Vapnik, V. (2000). Istota statystycznej teorii uczenia się . Informatyka i statystyka. Springer-Verlag . Numer ISBN 978-0-387-98780-4.