Kompromis – wariancja – Bias–variance tradeoff

Funkcjonowanie i zaszumione dane.

spread=5

rozprzestrzenianie = 1

spread=0,1

Funkcja (kolor czerwony) jest aproksymowana za pomocą radialnych funkcji bazowych (kolor niebieski). Na każdym wykresie przedstawiono kilka prób. Dla każdej próby kilka zaszumionych punktów danych jest dostarczanych jako zestaw treningowy (u góry). Dla szerokiego spreadu (rysunek 2) błąd systematyczny jest wysoki: RBF nie mogą w pełni aproksymować funkcji (zwłaszcza centralnego dołka), ale wariancja między różnymi próbami jest niska. Wraz ze spadkiem spreadu (zdjęcie 3 i 4), odchylenie maleje: niebieskie krzywe są bardziej zbliżone do czerwieni. Jednak w zależności od szumu w różnych próbach wariancja między próbami wzrasta. Na najniższym obrazie przybliżone wartości dla x=0 różnią się znacznie w zależności od lokalizacji punktów danych.

Błąd systematyczny i wariancja jako funkcja złożoności modelu

W statystykach i uczenia maszynowego , kompromis bias-wariancja jest właściwość modelu, że wariancja parametru szacunkowej całej próbek można zmniejszyć poprzez zwiększenie stronniczości w szacowanych parametrów . Dylemat bias-wariancji lub problemem bias-wariancja jest konflikt próbując jednocześnie zminimalizować te dwa źródła błędów , które uniemożliwiają nadzorowanego uczenia algorytmów z uogólniając poza ich zestawu treningowego :

Bias błąd jest błędem z błędnych założeń w uczenia algorytmu . Wysokie obciążenie może spowodować, że algorytm przeoczy odpowiednie relacje między cechami a docelowymi wynikami (niedopasowanie).
Wariancja jest błąd z wrażliwością na małe wahania w zbiorze treningowym. Duża wariancja może wynikać z algorytmu modelującego losowy szum w danych uczących ( overfitting ).

Rozkładu bias-wariancja jest sposobem analizowania algorytm uczenia się w oczekiwany błąd generalizacji w odniesieniu do konkretnego problemu w postaci sumy trzech kategoriach, ukos, wariancji i ilości zwanej irreducible błędów , wynikających z hałasu samego problemu.

Motywacja

odchylenie niskie, wariancja niska
odchylenie wysokie,
wariancja niska:
odchylenie niskie,
wariancja wysoka:
odchylenie wysokie,
wariancja wysoka:

Kompromis między nastawieniem a wariancją jest głównym problemem w nadzorowanym uczeniu się. Najlepiej byłoby wybrać model, który zarówno dokładnie wychwytuje prawidłowości w swoich danych treningowych, jak i dobrze uogólnia dane niewidoczne. Niestety, zazwyczaj niemożliwe jest wykonanie obu jednocześnie. Metody uczenia się o wysokiej wariancji mogą być w stanie dobrze reprezentować swój zestaw treningowy, ale istnieje ryzyko nadmiernego dopasowania do zaszumionych lub niereprezentatywnych danych treningowych. W przeciwieństwie do tego, algorytmy o wysokim obciążeniu zazwyczaj tworzą prostsze modele, które mogą nie wychwytywać ważnych prawidłowości (tj. niedopasowania) w danych.

Często popełnianym błędem jest założenie, że złożone modele muszą mieć dużą wariancję; Modele o wysokiej wariancji są w pewnym sensie „złożone”, ale odwrotna sytuacja nie musi być prawdziwa. Ponadto należy być ostrożnym przy definiowaniu złożoności: w szczególności liczba parametrów używanych do opisu modelu jest słabą miarą złożoności. Ilustruje to przykład zaczerpnięty z: Model ma tylko dwa parametry ( ), ale może interpolować dowolną liczbę punktów, oscylując z wystarczająco wysoką częstotliwością, co skutkuje zarówno wysokim odchyleniem, jak i dużą wariancją. ${\ Displaystyle f_ {a, b} (x) = a \ grzech (bx)}$ $a,b$

Intuicyjnie, błąd jest redukowany przy użyciu tylko lokalnych informacji, podczas gdy wariancję można zmniejszyć tylko przez uśrednienie wielu obserwacji, co z natury oznacza wykorzystanie informacji z większego regionu. Pouczający przykład można znaleźć w sekcji o najbliższych sąsiadach lub na rysunku po prawej stronie. Aby zrównoważyć ilość informacji z sąsiednich obserwacji, model można wygładzić poprzez jawną regularyzację , taką jak kurczenie .

Rozkład bias–wariancja błędu średniokwadratowego

Załóżmy, że mamy zbiór uczący składający się ze zbioru punktów i wartości rzeczywistych związanych z każdym punktem . Zakładamy, że istnieje funkcja z szumem , gdzie szum , ma zerową średnią i wariancję . $x_{1},\kropki,x_{n}$ $y_{i}$ $x_{i}$ ${\ Displaystyle y = f (x) + \ varepsilon }$ $\varepsilon$ ${\ Displaystyle \ sigma ^ {2}}$

Chcemy znaleźć funkcję , która aproksymuje prawdziwą funkcję jak najlepiej, za pomocą jakiegoś algorytmu uczącego opartego na uczącym zbiorze danych (próbka) . Dokładamy wszelkich starań, aby „jak najlepiej” mierzyć błąd średniokwadratowy między a : chcemy być minimalni, zarówno dla punktów poza naszą próbką , jak i dla nich . Oczywiście nie możemy mieć nadziei, że zrobimy to doskonale, ponieważ zawierają one noise ; oznacza to, że musimy być przygotowani na zaakceptowanie nieredukowalnego błędu w każdej funkcji, którą wymyślimy. ${\ Displaystyle {\ kapelusz {f}} (x; D)}$ $f(x)$ ${\ Displaystyle D = \ {(x_ {1}, y_ {1}) \ kropki, (x_ {n}, y_ {n}) \}}$ $y$ ${\ Displaystyle {\ kapelusz {f}} (x; D)}$ ${\ Displaystyle (y-{\ kapelusz {f}} (x; D)) ^ {2}}$ $x_{1},\kropki,x_{n}$ $y_{i}$ $\varepsilon$

Znalezienie uogólniającego na punkty spoza zestawu szkoleniowego można wykonać za pomocą dowolnego z niezliczonych algorytmów używanych do nadzorowanego uczenia się. Okazuje się, że niezależnie od wybranej funkcji , możemy rozłożyć jej oczekiwany błąd na niewidocznej próbce w następujący sposób: ${\kapelusz {f}}$ ${\kapelusz {f}}$ $x$

{\ Displaystyle \ Operatorname {E} _ {D, \ varepsilon} {\ Duży [}{\ duży (} Y-{\ kapelusz {f}} (x; D) {\ duży)} ^ {2} {\ Big ]}={\Big (}\operatorname {Bias} _{D}{\big [}{\hat {f}}(x;D){\big ]}{\Big )}^{2}+ \operatorname {Var} _{D}{\big [}{\hat {f}}(x;D){\big ]}+\sigma ^{2}}

gdzie

{\ Displaystyle \ operatorname {Bias} _ {D} {\ duży [}{\ kapelusz {f}} (x; D) {\ duży ]} = \ operatorname {E} _ {D} {\ duży [} \hat {f}}(x;D){\big ]}-f(x)}

oraz

{\ Displaystyle \ operatorname {Var} _ {D} {\ duży [}{\ kapelusz {f}} (x; D) {\ duży]} = \ operatorname {E} _ {D} [{\ duży (} \operatorname {E} _{D}[{\hat {f}}(x;D)]-{\hat {f}}(x;D){\big )}^{2}].}

Oczekiwania różnią się w zależności od wyboru zestawu uczącego, z których wszystkie są próbkowane z tego samego wspólnego rozkładu . Te trzy terminy oznaczają: ${\ Displaystyle D = \ {(x_ {1}, y_ {1}) \ kropki, (x_ {n}, y_ {n}) \}}$ $P(x,y)$

kwadrat błędu metody uczenia się, które mogą być traktowane jako błąd spowodowany przez upraszczających założeń wbudowanych w metodzie. Np. podczas aproksymacji funkcji nieliniowej przy użyciu metody uczenia modeli liniowych , w wyniku tego założenia wystąpi błąd w szacunkach ; $f(x)$ ${\ Displaystyle {\ kapelusz {f}} (x)}$
wariancji metody uczenia się lub intuicyjnie, ile metoda uczenia się poruszania się jej średnia; ${\ Displaystyle {\ kapelusz {f}} (x)}$
błąd nieredukowalny . ${\ Displaystyle \ sigma ^ {2}}$

Ponieważ wszystkie trzy terminy są nieujemne, nieredukowalny błąd tworzy dolną granicę błędu oczekiwanego na niewidocznych próbkach.

Im bardziej złożony jest model , tym więcej punktów danych przechwyci i tym mniejsze będzie obciążenie. Jednak złożoność spowoduje, że model „przeniesie się” bardziej, aby uchwycić punkty danych, a zatem jego wariancja będzie większa. ${\ Displaystyle {\ kapelusz {f}} (x)}$

Pochodzenie

Wyprowadzenie rozkładu bias-wariancja dla błędu kwadratowego przebiega w następujący sposób. Dla wygody notacji używamy skrótu , a indeks dolny opuszczamy na nasze operatory oczekiwania. Po pierwsze, przypomnijmy, że z definicji dla dowolnej zmiennej losowej mamy $f=f(x)$ ${\ Displaystyle {\ kapelusz {f}} = {\ kapelusz {f}} (x; D)}$ ${\ Displaystyle D}$ ${\ Displaystyle X}$

{\ Displaystyle \ Operatorname {Var} [X] = \ Operatorname {E} [X ^ {2}] - \ Operatorname {E} [X] ^ {2}.}

Przekładając, otrzymujemy:

{\ Displaystyle \ Operatorname {E} [X ^ {2}] = \ Operatorname {Var} [X] + \ Operatorname {E} [X] ^ {2}.}

Ponieważ jest deterministyczny , tj. niezależny od , $f$ ${\ Displaystyle D}$

{\ Displaystyle \ Operatorname {E} [f] = f.}

Zatem dane i (ponieważ jest szumem) implikuje $y=f+\varepsilon$ ${\ Displaystyle \ Operatorname {E} [\ varepsilon] = 0}$ $\varepsilon$ ${\ Displaystyle \ nazwa operatora {E} [y] = \ nazwa operatora {E} [f + \ varepsilon] = \ nazwa operatora {E} [f] = f.}$

Również, ponieważ ${\ Displaystyle \ operatorname {Var} [\ varepsilon] = \ sigma ^ {2},}$

{\ Displaystyle \ operatorname {Var} [y] = \ operatorname {E} [(y-\operatorname {E} [y]) ^ {2}] = \ operatorname {E} [(yf) ^ {2}] =\operatorname {E} [(f+\varepsilon -f)^{2}]=\operatorname {E} [\varepsilon ^{2}]=\operatorname {Var} [\varepsilon ]+\operatorname {E} [ \varepsilon ]^{2}=\sigma ^{2}+0^{2}=\sigma ^{2}.}

Tak więc, skoro i jesteśmy niezależni, możemy pisać $\varepsilon$ ${\kapelusz {f}}$

{\ Displaystyle {\ zacząć {wyrównany} \ operatorname {e} {\ duży [} (y-{\ kapelusz {f}}) ^ {2} {\ duży]} i = \ operatorname {e} {\ duży [ }(f+\varepsilon -{\hat {f}})^{2}{\big ]}\\[5pt]&=\operatorname {E} {\big [}(f+\varepsilon -{\hat {f }}+\nazwa operatora {E} [{\hat {f}}]-\nazwa operatora {E} [{\hat {f}}])^{2}{\big ]}\\[5pt]&=\ operatorname {E} {\big [}(f-\operatorname {E} [{\hat {f}}])^{2}{\big ]}+\operatorname {E} [\varepsilon ^{2}] +\nazwa operatora {E} {\big [}(\nazwa operatora {E} [{\hat {f}}]-{\hat {f}})^{2}{\big ]}+2\nazwa operatora {E } {\big [}(f-\nazwa operatora {E} [{\hat {f}}])\varepsilon {\big ]}+2\nazwa operatora {E} {\big [}\varepsilon (\nazwa operatora {E } [{\hat {f}}]-{\hat {f}}){\big ]}+2\nazwa operatora {E} {\big [}(\nazwa operatora {E} [{\hat {f}} ]-{\hat {f}})(f-\nazwa operatora {E} [{\hat {f}}]){\big ]}\\[5pt]&=(f-\nazwa operatora {E} [{ \hat {f}}])^{2}+\nazwa operatora {E} [\varepsilon ^{2}]+\nazwa operatora {E} {\big [}(\nazwa operatora {E} [{\hat {f} }]-{\hat {f}})^{2}{\big ]}+2(f-\nazwa operatora {E} [{\hat {f}}])\nazwa operatora {E} [\vareps ilon ]+2\nazwa operatora {E} [\varepsilon ]\nazwa operatora {E} {\big [}\nazwa operatora {E} [{\hat {f}}]-{\hat {f}}{\big ]} +2\nazwa operatora {E} {\big [}\nazwa operatora {E} [{\hat {f}}]-{\hat {f}}{\big ]}(f-\nazwa operatora {E} [{\ kapelusz {f}}])\\[5pt]&=(f-\nazwa operatora {E} [{\hat {f}}])^{2}+\nazwa operatora {E} [\varepsilon ^{2}] +\operatorname {E} {\big [}(\operatorname {E} [{\hat {f}}]-{\hat {f}})^{2}{\big ]}\\[5pt]& =(f-\nazwa operatora {E} [{\hat {f}}])^{2}+\nazwa operatora {Var} [\varepsilon ]+\nazwa operatora {Var} {\big [}{\hat {f} }{\big ]}\\[5pt]&=\nazwa operatora {Bias} [{\hat {f}}]^{2}+\nazwa operatora {Var} [\varepsilon ]+\nazwa operatora {Var} {\big [}{\hat {f}}{\big ]}\\[5pt]&=\nazwa operatora {Bias} [{\hat {f}}]^{2}+\sigma ^{2}+\nazwa operatora { War} {\duży [}{\kapelusz {f}}{\duży ]}.\end{wyrównany}}}

Wreszcie funkcję straty MSE (lub ujemny logarytm prawdopodobieństwa) uzyskuje się, przyjmując wartość oczekiwaną ponad : $x\simP$

{\ Displaystyle {\ tekst {MSE}} = \ operatorname {E} _ {x} {\ bigg \ {} \ operatorname {Bias} _ {D} [{\ kapelusz {f}} (x; D)] ^ {2}+\nazwa operatora {Var} _{D}{\big [}{\hat {f}}(x;D){\big ]}{\bigg \}}+\sigma ^{2}.}

Podejścia

Redukcja wymiarowości i wybór funkcji mogą zmniejszyć wariancję poprzez uproszczenie modeli. Podobnie, większy zestaw treningowy ma tendencję do zmniejszania wariancji. Dodawanie cech (predyktorów) ma tendencję do zmniejszania błędu systematycznego kosztem wprowadzenia dodatkowej wariancji. Algorytmy uczenia się zazwyczaj mają pewne dostrajalne parametry, które kontrolują stronniczość i wariancję; na przykład,

liniowe i uogólnione modele liniowe można uregulować w celu zmniejszenia ich wariancji kosztem zwiększenia ich obciążenia.
W sztucznych sieciach neuronowych wariancja wzrasta, a obciążenie maleje wraz ze wzrostem liczby ukrytych jednostek, chociaż to klasyczne założenie było przedmiotem niedawnej debaty. Podobnie jak w przypadku GLM, zazwyczaj stosuje się regularyzację.
W k -najbliższych modelach sąsiednich , wysoka wartość $k$ prowadzi do wysokiego odchylenia i małej wariancji (patrz poniżej).
W uczeniu opartym na instancjach można osiągnąć regularyzację, zmieniając mieszankę prototypów i wzorców.
W drzewach decyzyjnych głębokość drzewa określa wariancję. Drzewa decyzyjne są powszechnie przycinane w celu kontrolowania wariancji.

Jednym ze sposobów rozwiązania kompromisu jest użycie modeli mieszanych i uczenia zespołowego . Na przykład, wzmacnianie łączy wiele „słabych” (wysokich odchyleń) modeli w zespół, który ma niższe odchylenia niż poszczególne modele, podczas gdy bagging łączy „silnych” uczniów w sposób, który zmniejsza ich wariancję.

Metody walidacji modeli , takie jak walidacja krzyżowa (statystyka), mogą być wykorzystywane do dostrajania modeli w celu optymalizacji kompromisu.

k -najbliżsi sąsiedzi

W przypadku regresji $k$ -najbliższych sąsiadów , gdy oczekiwanie jest przejmowane przez możliwe etykietowanie ustalonego zbioru uczącego , istnieje wyrażenie w formie zamkniętej , które wiąże rozkład odchylenia-wariancji z parametrem $k$ :

{\ Displaystyle \ Operatorname {E} [(y-{\ kapelusz {f}} (x)) ^ {2} \ mid X = x] = \ lewo (f (x) - {\ Frac {1} {k }}\sum _{i=1}^{k}f(N_{i}(x))\right)^{2}+{\frac {\sigma ^{2}}{k}}+\sigma ^{2}}

gdzie jest $k$ najbliższych sąsiadów $x$ w zbiorze uczącym. Błąd systematyczny (pierwszy składnik) jest jednostajną funkcją wzrostu $k$ , podczas gdy wariancja (drugi składnik) maleje wraz ze wzrostem $k$ . W rzeczywistości, przy „rozsądnych założeniach” błąd estymatora pierwszego najbliższego sąsiada (1-NN) znika całkowicie, gdy rozmiar zbioru uczącego zbliża się do nieskończoności. ${\ Displaystyle N_ {1} (x), \ kropki, N_ {k} (x)}$

Aplikacje

W regresji

Rozkład bias-wariancja stanowi koncepcyjną podstawę dla metod regularyzacji regresji , takich jak regresja Lasso i grzbietowa . Metody regularyzacji wprowadzają błąd systematyczny do rozwiązania regresji, który może znacznie zmniejszyć wariancję w stosunku do zwykłego rozwiązania najmniejszych kwadratów (OLS) . Chociaż rozwiązanie OLS zapewnia nieobciążone szacunki regresji, rozwiązania o niższej wariancji wytwarzane przez techniki regularyzacji zapewniają doskonałą wydajność MSE.

W klasyfikacji

Rozkład bias-wariancja został pierwotnie sformułowany dla regresji najmniejszych kwadratów. W przypadku klasyfikacji do straty 0-1 (wskaźnik błędnej klasyfikacji) można znaleźć podobny rozkład. Alternatywnie, jeśli problem klasyfikacji można sformułować jako klasyfikację probabilistyczną , wówczas oczekiwany kwadrat błędu przewidywanych prawdopodobieństw w odniesieniu do prawdopodobieństw prawdziwych można rozłożyć jak poprzednio.

W uczeniu się przez wzmacnianie

Mimo że dekompozycja nastawienia i wariancji nie ma bezpośredniego zastosowania w uczeniu się ze wzmocnieniem , podobny kompromis może również charakteryzować uogólnienie. Gdy agent ma ograniczone informacje o swoim środowisku, suboptymalność algorytmu RL można rozłożyć na sumę dwóch terminów: terminu związanego z asymptotycznym odchyleniem i terminu związanego z nadmiernym dopasowaniem. Asymptotyczne obciążenie jest bezpośrednio związane z algorytmem uczącym (niezależnie od ilości danych), natomiast termin overfitting wynika z faktu, że ilość danych jest ograniczona.

W ludzkim uczeniu się

Choć szeroko omawiany w kontekście uczenia maszynowego, dylemat odchylenia-wariancji został zbadany w kontekście ludzkiego poznania , w szczególności przez Gerda Gigerenzera i współpracowników w kontekście wyuczonych heurystyk. Argumentowali (patrz odnośniki poniżej), że ludzki mózg rozwiązuje dylemat w przypadku typowo rzadkich, słabo scharakteryzowanych zestawów treningowych dostarczanych przez doświadczenie, przyjmując heurystyki o wysokim odchyleniu/niskiej wariancji. Odzwierciedla to fakt, że podejście zero-bias ma słabą możliwość uogólnienia na nowe sytuacje, a także bezzasadnie zakłada dokładną wiedzę o prawdziwym stanie świata. Wynikowe heurystyki są stosunkowo proste, ale dają lepsze wnioskowania w większej różnorodności sytuacji.

Geman i in. twierdzą, że dylemat bias-wariancja implikuje, że umiejętności, takich jak ogólne rozpoznawanie obiektów, nie można nauczyć się od zera, ale wymagają pewnego stopnia „twardego okablowania”, które jest później dostrajane przez doświadczenie. Dzieje się tak, ponieważ podejścia do wnioskowania bez modelu wymagają niepraktycznie dużych zbiorów uczących, jeśli mają uniknąć dużej wariancji.

Languages

In other projects