Statystyczna teoria uczenia się - Statistical learning theory

Statystyczna teoria uczenia się to ramy uczenia maszynowego czerpiące z dziedzin statystyki i analizy funkcjonalnej . Statystyczna teoria uczenia się zajmuje się problemem znajdowania funkcji predykcyjnej na podstawie danych. Statystyczna teoria uczenia się doprowadziła do pomyślnych zastosowań w dziedzinach takich jak widzenie komputerowe , rozpoznawanie mowy i bioinformatyka .

Wprowadzenie

Cele uczenia się to zrozumienie i przewidywanie. Nauka wpada w wielu kategoriach, w tym uczenia nadzorowanego , bez nadzoru nauki , nauki online oraz nauki zbrojenia . Z perspektywy statystycznej teorii uczenia się najlepiej rozumie się uczenie nadzorowane. Uczenie nadzorowane obejmuje uczenie się na podstawie uczącego zestawu danych. Każdy punkt w szkoleniu jest parą wejścia-wyjścia, w której dane wejściowe są mapowane na dane wyjściowe. Problem uczenia się polega na wywnioskowaniu funkcji, która odwzorowuje dane wejściowe i wyjściowe w taki sposób, że wyuczona funkcja może być użyta do przewidywania danych wyjściowych z przyszłych danych wejściowych.

W zależności od rodzaju wyników, nadzorowane problemy uczenia się są albo problemami regresji, albo problemami klasyfikacji . Jeśli wyjście przyjmuje ciągły zakres wartości, jest to problem regresji. Na przykładzie prawa Ohma można przeprowadzić regresję z napięciem jako wejściem i prądem jako wyjściem. Regresja wykazała, że ​​zależność funkcjonalna między napięciem i prądem będzie taka, że

Problemy z klasyfikacją to te, dla których wyjściem będzie element z dyskretnego zestawu etykiet. Klasyfikacja jest bardzo powszechna w przypadku aplikacji uczenia maszynowego. Na przykład w rozpoznawaniu twarzy zdjęcie twarzy osoby będzie danymi wejściowymi, a etykietą wyjściową będzie imię i nazwisko tej osoby. Wejście będzie reprezentowane przez duży wielowymiarowy wektor, którego elementy reprezentują piksele na obrazie.

Po nauczeniu funkcji na podstawie danych ze zbioru uczącego, funkcja ta jest walidowana na zbiorze testowym danych, które nie pojawiły się w zbiorze uczącym.

Opis formalny

Weźmy za przestrzeń wektorową wszystkich możliwych wejść i za przestrzeń wektorową wszystkich możliwych wyjść. Teoria statystycznego uczenia się przyjmuje perspektywę, że istnieje pewien nieznany rozkład prawdopodobieństwa w przestrzeni produktu , tj. istnieje pewna niewiadoma . Zbiór uczący składa się z próbek z tego rozkładu prawdopodobieństwa i jest zapisany

Każdy jest wektorem wejściowym z danych treningowych i odpowiada mu wyjściem.

W tym formalizmie problem wnioskowania polega na znalezieniu funkcji takiej, że . Niech będzie przestrzenią funkcji zwaną przestrzenią hipotez. Przestrzeń hipotez to przestrzeń funkcji, przez które algorytm będzie przeszukiwał. Niech będzie funkcją straty , miernikiem różnicy między wartością przewidywaną a wartością rzeczywistą . Oczekiwany poziom ryzyka określa się

Funkcja celu, najlepsza możliwa funkcja, jaką można wybrać, jest dana przez spełnianie

Ponieważ rozkład prawdopodobieństwa jest nieznany, należy użyć miary zastępczej dla oczekiwanego ryzyka. Ta miara jest oparta na zbiorze uczącym, próbce z tego nieznanego rozkładu prawdopodobieństwa. Nazywa się to ryzykiem empirycznym

Algorytm uczący się, który wybiera funkcję minimalizującą ryzyko empiryczne, nazywa się minimalizacją ryzyka empirycznego .

Funkcje strat

Wybór funkcji straty jest czynnikiem decydującym o funkcji, która zostanie wybrana przez algorytm uczący. Funkcja straty wpływa również na współczynnik zbieżności algorytmu. Ważne jest, aby funkcja straty była wypukła.

W zależności od tego, czy problem dotyczy regresji, czy klasyfikacji, stosuje się różne funkcje straty.

Regresja

Najczęstszą funkcją straty dla regresji jest kwadratowa funkcja straty (znana również jako norma L2 ). Ta znana funkcja straty jest używana w regresji zwykłych najmniejszych kwadratów . Formularz to:

Utrata wartości bezwzględnej (znana również jako norma L1 ) jest również czasami używana:

Klasyfikacja

W pewnym sensie funkcja wskaźnika 0-1 jest najbardziej naturalną funkcją straty do klasyfikacji. Przyjmuje wartość 0, jeśli przewidywane wyjście jest takie samo jak rzeczywiste wyjście, i przyjmuje wartość 1, jeśli przewidywane wyjście różni się od rzeczywistego wyjścia. W przypadku klasyfikacji binarnej z , jest to:

gdzie jest funkcja kroku Heaviside'a .

Regularyzacja

Ten obraz przedstawia przykład nadmiernego dopasowania w uczeniu maszynowym. Czerwone kropki reprezentują dane zestawu treningowego. Zielona linia reprezentuje prawdziwą zależność funkcjonalną, podczas gdy niebieska linia pokazuje wyuczoną funkcję, która została przesadnie dopasowana do danych zestawu treningowego.

W problemach z uczeniem maszynowym głównym problemem, który się pojawia, jest nadmierne dopasowanie . Ponieważ uczenie się jest problemem przewidywania, celem nie jest znalezienie funkcji, która najlepiej pasuje do (wcześniej zaobserwowanych) danych, ale znalezienie takiej, która będzie najdokładniej przewidywać dane wyjściowe z przyszłych danych wejściowych. Minimalizacja ryzyka empirycznego wiąże się z ryzykiem przepełnienia: znalezienie funkcji, która dokładnie pasuje do danych, ale nie przewiduje dobrze przyszłych wyników.

Overfitting jest objawem niestabilnych rozwiązań; mała perturbacja w danych zbioru uczącego spowodowałaby duże zróżnicowanie wyuczonej funkcji. Można wykazać, że jeśli można zagwarantować stabilność rozwiązania, zapewnione są również uogólnienia i spójność. Regularyzacja może rozwiązać problem nadmiernego dopasowania i zapewnić stabilność problemu.

Regularyzacja może być osiągnięta poprzez ograniczenie przestrzeni hipotez . Typowym przykładem byłoby ograniczenie do funkcji liniowych: można to postrzegać jako redukcję do standardowego problemu regresji liniowej . może być również ograniczony do wielomianu stopnia , wykładniczego lub funkcji ograniczonych na L1 . Ograniczenie przestrzeni hipotez pozwala uniknąć overfittingu, ponieważ postać funkcji potencjalnych jest ograniczona, a więc nie pozwala na wybór funkcji, która daje ryzyko empiryczne arbitralnie bliskie zeru.

Jednym z przykładów regularyzacji jest regularyzacja Tichonowa . Polega to na minimalizowaniu

gdzie jest stałym i dodatnim parametrem, parametrem regularyzacji. Regularyzacja Tichonowa zapewnia istnienie, wyjątkowość i stabilność rozwiązania.

Zobacz też

Bibliografia