Kompromis – wariancja – Bias–variance tradeoff
Część serii na |
Uczenie maszynowe i eksploracja danych |
---|
W statystykach i uczenia maszynowego , kompromis bias-wariancja jest właściwość modelu, że wariancja parametru szacunkowej całej próbek można zmniejszyć poprzez zwiększenie stronniczości w szacowanych parametrów . Dylemat bias-wariancji lub problemem bias-wariancja jest konflikt próbując jednocześnie zminimalizować te dwa źródła błędów , które uniemożliwiają nadzorowanego uczenia algorytmów z uogólniając poza ich zestawu treningowego :
- Bias błąd jest błędem z błędnych założeń w uczenia algorytmu . Wysokie obciążenie może spowodować, że algorytm przeoczy odpowiednie relacje między cechami a docelowymi wynikami (niedopasowanie).
- Wariancja jest błąd z wrażliwością na małe wahania w zbiorze treningowym. Duża wariancja może wynikać z algorytmu modelującego losowy szum w danych uczących ( overfitting ).
Rozkładu bias-wariancja jest sposobem analizowania algorytm uczenia się w oczekiwany błąd generalizacji w odniesieniu do konkretnego problemu w postaci sumy trzech kategoriach, ukos, wariancji i ilości zwanej irreducible błędów , wynikających z hałasu samego problemu.
Motywacja
Kompromis między nastawieniem a wariancją jest głównym problemem w nadzorowanym uczeniu się. Najlepiej byłoby wybrać model, który zarówno dokładnie wychwytuje prawidłowości w swoich danych treningowych, jak i dobrze uogólnia dane niewidoczne. Niestety, zazwyczaj niemożliwe jest wykonanie obu jednocześnie. Metody uczenia się o wysokiej wariancji mogą być w stanie dobrze reprezentować swój zestaw treningowy, ale istnieje ryzyko nadmiernego dopasowania do zaszumionych lub niereprezentatywnych danych treningowych. W przeciwieństwie do tego, algorytmy o wysokim obciążeniu zazwyczaj tworzą prostsze modele, które mogą nie wychwytywać ważnych prawidłowości (tj. niedopasowania) w danych.
Często popełnianym błędem jest założenie, że złożone modele muszą mieć dużą wariancję; Modele o wysokiej wariancji są w pewnym sensie „złożone”, ale odwrotna sytuacja nie musi być prawdziwa. Ponadto należy być ostrożnym przy definiowaniu złożoności: w szczególności liczba parametrów używanych do opisu modelu jest słabą miarą złożoności. Ilustruje to przykład zaczerpnięty z: Model ma tylko dwa parametry ( ), ale może interpolować dowolną liczbę punktów, oscylując z wystarczająco wysoką częstotliwością, co skutkuje zarówno wysokim odchyleniem, jak i dużą wariancją.
Intuicyjnie, błąd jest redukowany przy użyciu tylko lokalnych informacji, podczas gdy wariancję można zmniejszyć tylko przez uśrednienie wielu obserwacji, co z natury oznacza wykorzystanie informacji z większego regionu. Pouczający przykład można znaleźć w sekcji o najbliższych sąsiadach lub na rysunku po prawej stronie. Aby zrównoważyć ilość informacji z sąsiednich obserwacji, model można wygładzić poprzez jawną regularyzację , taką jak kurczenie .
Rozkład bias–wariancja błędu średniokwadratowego
Załóżmy, że mamy zbiór uczący składający się ze zbioru punktów i wartości rzeczywistych związanych z każdym punktem . Zakładamy, że istnieje funkcja z szumem , gdzie szum , ma zerową średnią i wariancję .
Chcemy znaleźć funkcję , która aproksymuje prawdziwą funkcję jak najlepiej, za pomocą jakiegoś algorytmu uczącego opartego na uczącym zbiorze danych (próbka) . Dokładamy wszelkich starań, aby „jak najlepiej” mierzyć błąd średniokwadratowy między a : chcemy być minimalni, zarówno dla punktów poza naszą próbką , jak i dla nich . Oczywiście nie możemy mieć nadziei, że zrobimy to doskonale, ponieważ zawierają one noise ; oznacza to, że musimy być przygotowani na zaakceptowanie nieredukowalnego błędu w każdej funkcji, którą wymyślimy.
Znalezienie uogólniającego na punkty spoza zestawu szkoleniowego można wykonać za pomocą dowolnego z niezliczonych algorytmów używanych do nadzorowanego uczenia się. Okazuje się, że niezależnie od wybranej funkcji , możemy rozłożyć jej oczekiwany błąd na niewidocznej próbce w następujący sposób:
gdzie
oraz
Oczekiwania różnią się w zależności od wyboru zestawu uczącego, z których wszystkie są próbkowane z tego samego wspólnego rozkładu . Te trzy terminy oznaczają:
- kwadrat błędu metody uczenia się, które mogą być traktowane jako błąd spowodowany przez upraszczających założeń wbudowanych w metodzie. Np. podczas aproksymacji funkcji nieliniowej przy użyciu metody uczenia modeli liniowych , w wyniku tego założenia wystąpi błąd w szacunkach ;
- wariancji metody uczenia się lub intuicyjnie, ile metoda uczenia się poruszania się jej średnia;
- błąd nieredukowalny .
Ponieważ wszystkie trzy terminy są nieujemne, nieredukowalny błąd tworzy dolną granicę błędu oczekiwanego na niewidocznych próbkach.
Im bardziej złożony jest model , tym więcej punktów danych przechwyci i tym mniejsze będzie obciążenie. Jednak złożoność spowoduje, że model „przeniesie się” bardziej, aby uchwycić punkty danych, a zatem jego wariancja będzie większa.
Pochodzenie
Wyprowadzenie rozkładu bias-wariancja dla błędu kwadratowego przebiega w następujący sposób. Dla wygody notacji używamy skrótu , a indeks dolny opuszczamy na nasze operatory oczekiwania. Po pierwsze, przypomnijmy, że z definicji dla dowolnej zmiennej losowej mamy
Przekładając, otrzymujemy:
Ponieważ jest deterministyczny , tj. niezależny od ,
Zatem dane i (ponieważ jest szumem) implikuje
Również, ponieważ
Tak więc, skoro i jesteśmy niezależni, możemy pisać
Wreszcie funkcję straty MSE (lub ujemny logarytm prawdopodobieństwa) uzyskuje się, przyjmując wartość oczekiwaną ponad :
Podejścia
Redukcja wymiarowości i wybór funkcji mogą zmniejszyć wariancję poprzez uproszczenie modeli. Podobnie, większy zestaw treningowy ma tendencję do zmniejszania wariancji. Dodawanie cech (predyktorów) ma tendencję do zmniejszania błędu systematycznego kosztem wprowadzenia dodatkowej wariancji. Algorytmy uczenia się zazwyczaj mają pewne dostrajalne parametry, które kontrolują stronniczość i wariancję; na przykład,
- liniowe i uogólnione modele liniowe można uregulować w celu zmniejszenia ich wariancji kosztem zwiększenia ich obciążenia.
- W sztucznych sieciach neuronowych wariancja wzrasta, a obciążenie maleje wraz ze wzrostem liczby ukrytych jednostek, chociaż to klasyczne założenie było przedmiotem niedawnej debaty. Podobnie jak w przypadku GLM, zazwyczaj stosuje się regularyzację.
- W k -najbliższych modelach sąsiednich , wysoka wartość k prowadzi do wysokiego odchylenia i małej wariancji (patrz poniżej).
- W uczeniu opartym na instancjach można osiągnąć regularyzację, zmieniając mieszankę prototypów i wzorców.
- W drzewach decyzyjnych głębokość drzewa określa wariancję. Drzewa decyzyjne są powszechnie przycinane w celu kontrolowania wariancji.
Jednym ze sposobów rozwiązania kompromisu jest użycie modeli mieszanych i uczenia zespołowego . Na przykład, wzmacnianie łączy wiele „słabych” (wysokich odchyleń) modeli w zespół, który ma niższe odchylenia niż poszczególne modele, podczas gdy bagging łączy „silnych” uczniów w sposób, który zmniejsza ich wariancję.
Metody walidacji modeli , takie jak walidacja krzyżowa (statystyka), mogą być wykorzystywane do dostrajania modeli w celu optymalizacji kompromisu.
k -najbliżsi sąsiedzi
W przypadku regresji k -najbliższych sąsiadów , gdy oczekiwanie jest przejmowane przez możliwe etykietowanie ustalonego zbioru uczącego , istnieje wyrażenie w formie zamkniętej , które wiąże rozkład odchylenia-wariancji z parametrem k :
gdzie jest k najbliższych sąsiadów x w zbiorze uczącym. Błąd systematyczny (pierwszy składnik) jest jednostajną funkcją wzrostu k , podczas gdy wariancja (drugi składnik) maleje wraz ze wzrostem k . W rzeczywistości, przy „rozsądnych założeniach” błąd estymatora pierwszego najbliższego sąsiada (1-NN) znika całkowicie, gdy rozmiar zbioru uczącego zbliża się do nieskończoności.
Aplikacje
W regresji
Rozkład bias-wariancja stanowi koncepcyjną podstawę dla metod regularyzacji regresji , takich jak regresja Lasso i grzbietowa . Metody regularyzacji wprowadzają błąd systematyczny do rozwiązania regresji, który może znacznie zmniejszyć wariancję w stosunku do zwykłego rozwiązania najmniejszych kwadratów (OLS) . Chociaż rozwiązanie OLS zapewnia nieobciążone szacunki regresji, rozwiązania o niższej wariancji wytwarzane przez techniki regularyzacji zapewniają doskonałą wydajność MSE.
W klasyfikacji
Rozkład bias-wariancja został pierwotnie sformułowany dla regresji najmniejszych kwadratów. W przypadku klasyfikacji do straty 0-1 (wskaźnik błędnej klasyfikacji) można znaleźć podobny rozkład. Alternatywnie, jeśli problem klasyfikacji można sformułować jako klasyfikację probabilistyczną , wówczas oczekiwany kwadrat błędu przewidywanych prawdopodobieństw w odniesieniu do prawdopodobieństw prawdziwych można rozłożyć jak poprzednio.
W uczeniu się przez wzmacnianie
Mimo że dekompozycja nastawienia i wariancji nie ma bezpośredniego zastosowania w uczeniu się ze wzmocnieniem , podobny kompromis może również charakteryzować uogólnienie. Gdy agent ma ograniczone informacje o swoim środowisku, suboptymalność algorytmu RL można rozłożyć na sumę dwóch terminów: terminu związanego z asymptotycznym odchyleniem i terminu związanego z nadmiernym dopasowaniem. Asymptotyczne obciążenie jest bezpośrednio związane z algorytmem uczącym (niezależnie od ilości danych), natomiast termin overfitting wynika z faktu, że ilość danych jest ograniczona.
W ludzkim uczeniu się
Choć szeroko omawiany w kontekście uczenia maszynowego, dylemat odchylenia-wariancji został zbadany w kontekście ludzkiego poznania , w szczególności przez Gerda Gigerenzera i współpracowników w kontekście wyuczonych heurystyk. Argumentowali (patrz odnośniki poniżej), że ludzki mózg rozwiązuje dylemat w przypadku typowo rzadkich, słabo scharakteryzowanych zestawów treningowych dostarczanych przez doświadczenie, przyjmując heurystyki o wysokim odchyleniu/niskiej wariancji. Odzwierciedla to fakt, że podejście zero-bias ma słabą możliwość uogólnienia na nowe sytuacje, a także bezzasadnie zakłada dokładną wiedzę o prawdziwym stanie świata. Wynikowe heurystyki są stosunkowo proste, ale dają lepsze wnioskowania w większej różnorodności sytuacji.
Geman i in. twierdzą, że dylemat bias-wariancja implikuje, że umiejętności, takich jak ogólne rozpoznawanie obiektów, nie można nauczyć się od zera, ale wymagają pewnego stopnia „twardego okablowania”, które jest później dostrajane przez doświadczenie. Dzieje się tak, ponieważ podejścia do wnioskowania bez modelu wymagają niepraktycznie dużych zbiorów uczących, jeśli mają uniknąć dużej wariancji.