Nauka częściowo nadzorowana — Semi-supervised learning

Przykład wpływu danych nieoznakowanych na częściowo nadzorowane uczenie się. Górny panel pokazuje granicę decyzji, którą możemy przyjąć po obejrzeniu tylko jednego pozytywnego (białe kółko) i jednego negatywnego (czarne kółko) przykładu. Dolny panel pokazuje granicę decyzji, którą moglibyśmy przyjąć, gdyby oprócz dwóch oznaczonych przykładów otrzymaliśmy zbiór danych nieoznaczonych (szare kółka). Można to postrzegać jako przeprowadzanie grupowania, a następnie oznaczanie klastrów oznaczonymi danymi, przesuwanie granic decyzyjnych z regionów o dużej gęstości lub poznawanie podstawowej jednowymiarowej rozmaitości, w której znajdują się dane.

Uczenie częściowo nadzorowane to podejście do uczenia maszynowego, które podczas uczenia łączy niewielką ilość danych oznaczonych etykietami z dużą ilością danych nieoznaczonych. Częściowo nadzorowane uczenie się obejmuje uczenie nienadzorowane (bez oznaczonych danych treningowych) i uczenie nadzorowane (z tylko oznaczonymi danymi treningowymi). Jest to szczególny przypadek słabego nadzoru .

Dane nieoznakowane, użyte w połączeniu z niewielką ilością danych oznaczonych, mogą znacznie poprawić dokładność uczenia się. Uzyskanie znakowanych danych dla problemu uczenia się często wymaga wykwalifikowanego człowieka (np. do transkrypcji segmentu audio) lub fizycznego eksperymentu (np. określenie struktury 3D białka lub określenie, czy w określonym miejscu znajduje się olej). Koszt związany z procesem znakowania może zatem spowodować, że duże, w pełni oznakowane zestawy treningowe staną się niewykonalne, podczas gdy pozyskiwanie nieoznakowanych danych jest stosunkowo niedrogie. W takich sytuacjach nauka częściowo nadzorowana może mieć wielką wartość praktyczną. Częściowo nadzorowane uczenie się ma również teoretyczne zainteresowanie uczeniem maszynowym i jako model uczenia się przez ludzi.

Przetwarzany jest zestaw niezależnie identycznie rozmieszczonych przykładów z odpowiednimi etykietami i nieoznakowanych przykładów . Częściowo nadzorowane uczenie łączy te informacje, aby przewyższyć wydajność klasyfikacji, którą można uzyskać, odrzucając dane nieoznakowane i przeprowadzając uczenie nadzorowane lub odrzucając etykiety i przeprowadzając uczenie nienadzorowane.

Częściowo nadzorowane uczenie się może odnosić się do uczenia transdukcyjnego lub uczenia się indukcyjnego . Celem uczenia transdukcyjnego jest wywnioskowanie poprawnych etykiet tylko dla danych nieoznaczonych . Celem uczenia indukcyjnego jest wywnioskowanie prawidłowego odwzorowania z do .

Intuicyjnie problem uczenia się może być postrzegany jako egzamin, a dane oznaczone jako przykładowe problemy, które nauczyciel rozwiązuje dla klasy, jako pomoc w rozwiązaniu innego zestawu problemów. W środowisku transdukcyjnym te nierozwiązane problemy działają jak pytania egzaminacyjne. W środowisku indukcyjnym stają się one problemami praktycznymi, które składają się na egzamin.

Nie jest konieczne (i, zgodnie z zasadą Vapnika , nierozważne) przeprowadzanie uczenia transdukcyjnego poprzez wywnioskowanie reguły klasyfikacji w całej przestrzeni wejściowej; jednak w praktyce algorytmy formalnie zaprojektowane do transdukcji lub indukcji są często używane zamiennie.

Założenia

Aby móc w jakikolwiek sposób korzystać z danych nieoznaczonych, musi istnieć pewien związek z podstawową dystrybucją danych. Częściowo nadzorowane algorytmy uczenia wykorzystują co najmniej jedno z następujących założeń:

Założenie ciągłości

Punkty znajdujące się blisko siebie częściej mają wspólną etykietę. Jest to również ogólnie zakładane w nadzorowanym uczeniu się i daje preferencje dla geometrycznie prostych granic decyzyjnych . W przypadku częściowo nadzorowanego uczenia się, założenie gładkości dodatkowo daje preferencję dla granic decyzyjnych w regionach o niskiej gęstości, więc niewiele punktów jest blisko siebie, ale w różnych klasach.

Założenie klastra

Dane mają tendencję do tworzenia oddzielnych klastrów, a punkty w tym samym klastrze z większym prawdopodobieństwem mają wspólną etykietę (chociaż dane, które mają tę samą etykietę, mogą rozprzestrzenić się na wiele klastrów). Jest to szczególny przypadek założenia gładkości i daje początek uczeniu cech za pomocą algorytmów klastrowania.

Założenie wielorakie

Dane leżą w przybliżeniu na rozmaitości o znacznie mniejszym wymiarze niż przestrzeń wejściowa. W takim przypadku uczenie się rozmaitości przy użyciu zarówno oznaczonych, jak i nieoznakowanych danych może uniknąć przekleństwa wymiarowości . Następnie uczenie może przebiegać z wykorzystaniem odległości i gęstości zdefiniowanych na rozmaitości.

Różnorodne założenie jest praktyczne, gdy dane wielowymiarowe są generowane przez jakiś proces, który może być trudny do bezpośredniego modelowania, ale który ma tylko kilka stopni swobody. Na przykład głos ludzki jest kontrolowany przez kilka fałdów głosowych, a obrazy różnych wyrazów twarzy są kontrolowane przez kilka mięśni. W tych przypadkach odległości i gładkość w naturalnej przestrzeni generującego problemu są lepsze niż uwzględnianie przestrzeni odpowiednio wszystkich możliwych fal akustycznych lub obrazów.

Historia

Heurystyczne podejście do samokształcenia (znane również jako samokształcenie lub samoopisywanie ) jest historycznie najstarszym podejściem do częściowo nadzorowanego uczenia się, z przykładami zastosowań, które rozpoczęły się w latach 60. XX wieku.

Transdukcyjne ramy uczenia się zostały formalnie wprowadzone przez Vladimira Vapnika w latach siedemdziesiątych. Zainteresowanie indukcyjnym uczeniem się z wykorzystaniem modeli generatywnych również rozpoczęło się w latach 70. XX wieku. Prawdopodobnie w przybliżeniu poprawne uczenia związany na pół nadzorowanego uczenia się Gaussa mieszaninie wykazano Ratsaby i Venkatesh 1995.

Częściowo nadzorowane uczenie się stało się ostatnio bardziej popularne i praktyczne ze względu na różnorodność problemów, dla których dostępne są ogromne ilości nieoznakowanych danych – np. tekst na stronach internetowych, sekwencje białek lub obrazy.

Metody

Modele generatywne

Podejścia generatywne do uczenia się statystycznego najpierw dążą do oszacowania rozkładu punktów danych należących do każdej klasy. Prawdopodobieństwo , że dany punkt posiada etykietę jest wówczas proporcjonalna do przez reguły Bayesa . Częściowo nadzorowane uczenie się z modelami generatywnymi może być postrzegane albo jako rozszerzenie nadzorowanego uczenia się (klasyfikacja plus informacje o ) albo jako rozszerzenie nienadzorowanego uczenia się (grupowanie plus niektóre etykiety).

Modele generatywne zakładają, że rozkłady przybierają określoną postać sparametryzowaną przez wektor . Jeśli te założenia są niepoprawne, dane nieoznakowane mogą faktycznie zmniejszyć dokładność rozwiązania w stosunku do tego, co zostałoby uzyskane z samych danych oznakowanych. Jeśli jednak założenia są poprawne, dane nieoznaczone siłą rzeczy poprawiają wydajność.

Dane nieoznakowane są dystrybuowane zgodnie z mieszaniną rozkładów poszczególnych klas. Aby poznać rozkład mieszaniny z danych nieoznakowanych, musi on być możliwy do zidentyfikowania, co oznacza, że ​​różne parametry muszą dawać różne rozkłady sumaryczne. Rozkłady mieszanin Gaussa są identyfikowalne i powszechnie stosowane w modelach generatywnych.

Parametryzowanej wspólna dystrybucja można zapisać za pomocą reguły łańcuchowej . Każdy wektor parametrów jest powiązany z funkcją decyzyjną . Parametr jest następnie wybierany na podstawie dopasowania zarówno do danych oznaczonych, jak i nieoznaczonych, ważonych przez :

Separacja o niskiej gęstości

Inna ważna klasa metod próbuje umieszczać granice w regionach z niewielką liczbą punktów danych (oznaczonych lub nieoznaczonych). Jednym z najczęściej używanych algorytmów jest transdukcyjna maszyna wektora nośnego lub TSVM (która pomimo swojej nazwy może być również używana do uczenia indukcyjnego). Podczas gdy maszyny wektorów pomocniczych do nadzorowanego uczenia się szukają granicy decyzyjnej z maksymalnym marginesem nad danymi oznaczonymi etykietami, celem TSVM jest etykietowanie danych nieoznakowanych w taki sposób, aby granica decyzyjna miała maksymalny margines nad wszystkimi danymi. Oprócz standardowej utraty zawiasów dla danych oznaczonych, funkcja utraty jest wprowadzana do danych nieoznaczonych przez zezwolenie . TSVM następnie wybiera z odtwarzającego jądra przestrzeni Hilberta , minimalizując uregulowane ryzyko empiryczne :

Dokładne rozwiązanie jest niewykonalne ze względu na niewypukły termin , więc badania koncentrują się na użytecznych przybliżeniach.

Inne podejścia, które implementują separację o niskiej gęstości, obejmują modele procesów Gaussa, regularyzację informacji i minimalizację entropii (z których TSVM jest przypadkiem szczególnym).

Regularyzacja laplace'ów

Regularyzacja laplace'a była historycznie podnoszona za pomocą grafu-laplace'a. Metody oparte na wykresach do częściowo nadzorowanego uczenia się wykorzystują graficzną reprezentację danych, z węzłem dla każdego przykładu oznaczonego i nieoznaczonego. Wykres może być skonstruowany z wykorzystaniem wiedzy dziedzinowej lub podobieństwa przykładów; Dwie popularne metody to połączenie każdego punktu danych z najbliższymi sąsiadami lub z przykładami znajdującymi się w pewnej odległości . Waga krawędzi pomiędzy i jest następnie ustawiana na .

W ramach regularyzacji rozmaitości graf służy jako zastępstwo dla rozmaitości. Do standardowego problemu regularyzacji Tichonowa dodawany jest termin, aby wymusić gładkość rozwiązania względem rozmaitości (w wewnętrznej przestrzeni problemu), jak również względem otaczającej przestrzeni wejściowej. Problem minimalizacji staje się

gdzie jest odtwarzającym jądrem przestrzeni Hilberta i jest rozmaitością, na której leżą dane. Parametry regularyzacji i kontrolują gładkość odpowiednio w przestrzeni otaczającej i wewnętrznej. Wykres służy do przybliżenia wewnętrznego terminu regularyzacji. Definiując graf Laplace'a gdzie i wektor , mamy

.

Podejście oparte na grafach do regularyzacji Laplace'a polega na połączeniu metody różnic skończonych .

Laplace'a można również wykorzystać do rozszerzenia nadzorowanych algorytmów uczenia się: uregulowanych najmniejszych kwadratów i maszyn wektorów nośnych (SVM) do wersji półnadzorowanych laplaciańskich regularyzowanych najmniejszych kwadratów i laplaciańskich SVM.

Podejścia heurystyczne

Niektóre metody częściowo nadzorowanego uczenia się nie są z natury nastawione na uczenie się zarówno z danych nieoznaczonych, jak i oznakowanych, ale zamiast tego wykorzystują dane nieoznakowane w ramach nadzorowanego uczenia się. Na przykład przykłady oznakowane i nieoznakowane mogą informować o wyborze reprezentacji, metryki odległości lub jądra danych w nienadzorowanym pierwszym kroku. Następnie nadzorowane uczenie się odbywa się tylko na podstawie oznakowanych przykładów. W tym duchu niektóre metody uczą się reprezentacji niskowymiarowej przy użyciu nadzorowanych danych, a następnie stosują do wyuczonej reprezentacji albo separację o niskiej gęstości, albo metody oparte na wykresach. Iteracyjne udoskonalanie reprezentacji, a następnie przeprowadzanie częściowo nadzorowanego uczenia się na tej reprezentacji może dodatkowo poprawić wydajność.

Samokształcenie to opakowująca metoda nauki częściowo nadzorowanej. Najpierw szkolony jest nadzorowany algorytm uczenia się wyłącznie na podstawie oznaczonych danych. Ten klasyfikator jest następnie stosowany do nieoznakowanych danych w celu wygenerowania bardziej oznakowanych przykładów jako danych wejściowych dla nadzorowanego algorytmu uczenia. Zazwyczaj na każdym etapie dodawane są tylko te etykiety, co do których klasyfikator jest najpewniejszy.

Wspólne szkolenie jest rozszerzeniem samokształcenia, w którym wielu klasyfikatorów jest szkolonych na różnych (najlepiej rozłącznych) zestawach cech i generuje dla siebie oznakowane przykłady.

W ludzkim poznaniu

Ludzkie reakcje na formalne, częściowo nadzorowane problemy z uczeniem się przyniosły różne wnioski dotyczące stopnia wpływu danych nieoznaczonych. Bardziej naturalne problemy z uczeniem się można również postrzegać jako przykłady uczenia się częściowo nadzorowanego. Większa część ludzkiego uczenia się pojęć obejmuje niewielką ilość bezpośrednich instrukcji (np. oznaczanie przedmiotów przez rodziców w dzieciństwie) w połączeniu z dużą ilością nieoznaczonych doświadczeń (np. obserwacja przedmiotów bez ich nazywania lub liczenia lub przynajmniej bez informacji zwrotnej).

Niemowlęta ludzkie są wrażliwe na strukturę nieoznakowanych kategorii naturalnych, takich jak wizerunki psów i kotów czy twarze samców i samic. Niemowlęta i dzieci biorą pod uwagę nie tylko nieoznakowane przykłady, ale także proces pobierania próbek , z którego powstają oznakowane przykłady.

Zobacz też

Bibliografia

Źródła

  • Chapelle, Olivier; Schölkopf, Bernhard; Zien, Aleksander (2006). Nauka częściowo nadzorowana . Cambridge, Massachusetts: MIT Press. Numer ISBN 978-0-262-03358-9.

Zewnętrzne linki