Adaptacja domeny - Domain adaptation

Rozróżnienie między zwykłym ustawieniem uczenia maszynowego a uczeniem transferowym oraz pozycjonowaniem adaptacji domeny.

Adaptacja domeny to dziedzina związana z uczeniem maszynowym i uczeniem transferowym . Ten scenariusz pojawia się, gdy naszym celem jest uczenie się od źródłowej dystrybucji danych dobrze działającego modelu na innej (ale powiązanej) docelowej dystrybucji danych. Na przykład jedno z zadań typowego problemu filtrowania spamu polega na dostosowaniu modelu od jednego użytkownika (dystrybucja źródłowa) do nowego użytkownika, który otrzymuje znacząco różne wiadomości e-mail (dystrybucja docelowa). Wykazano również, że adaptacja domeny jest korzystna dla uczenia się źródeł niepowiązanych. Należy zauważyć, że gdy dostępna jest więcej niż jedna dystrybucja źródłowa, problem określa się jako adaptację domeny wieloźródłowej.

Przegląd

Adaptacja domeny to możliwość zastosowania algorytmu wyszkolonego w jednej lub większej liczbie „domen źródłowych” do innej (ale powiązanej) „domeny docelowej”. Adaptacja domeny to podkategoria uczenia się transferowego. W adaptacji domeny wszystkie domeny źródłowa i docelowa mają tę samą przestrzeń funkcji (ale różne dystrybucje); Natomiast uczenie transferowe obejmuje przypadki, w których przestrzeń cech domeny docelowej różni się od przestrzeni lub przestrzeni cech źródłowych.

Zmiana domeny

Przesunięcie domeny lub dystrybucyjny przesunięcie , zmiana w dystrybucji danych pomiędzy zbiorze treningowym algorytm, a zbiór danych napotka po wdrożeniu. Te przesunięcia domen są powszechne w praktycznych zastosowaniach sztucznej inteligencji. Konwencjonalne algorytmy uczenia maszynowego często słabo dostosowują się do zmian domen. Współczesna społeczność zajmująca się uczeniem maszynowym ma wiele różnych strategii próbujących uzyskać lepszą adaptację domeny.

Przykłady

Algorytm wyszkolony w serwisach informacyjnych może być zmuszony do dostosowania się do nowego zbioru danych dokumentów biomedycznych.
Filtr antyspamowy, wyszkolony na określonej grupie użytkowników poczty e-mail podczas szkolenia, po wdrożeniu musi dostosować się do nowego użytkownika docelowego.
Stosowanie algorytmów diagnostycznych AI, wyszkolonych na oznaczonych danych związanych z poprzednimi chorobami, do nowych nieoznakowanych danych związanych z pandemią COVID-19 .
Nagła zmiana społeczna, taka jak wybuch pandemii, może oznaczać przesunięcie domeny i spowodować, że algorytmy uczenia maszynowego wyszkolone na przestarzałych danych konsumenckich zawiodą i będą wymagały interwencji.

Inne zastosowania obejmują wykrywanie lokalizacji Wi-Fi i wiele aspektów wizji komputerowej .

Formalizowanie

Niech będzie przestrzenią wejściową (lub przestrzenią opisu) i niech będzie przestrzenią wyjściową (lub przestrzenią etykiet). Celem algorytmu uczenia maszynowego jest poznanie modelu matematycznego (hipotezy) zdolnego do dołączenia etykiety z do przykładu z . Ten model jest wyuczony z próbki szkoleniowej . ${\ Displaystyle X}$ ${\ Displaystyle Y}$ $h:X\do Y$ ${\ Displaystyle Y}$ ${\ Displaystyle X}$ ${\ Displaystyle S = \ {(x_ {i}, Y_ {i}) \ w (X \ razy Y) \} _ {i = 1} ^ {m}}$

Zwykle w uczeniu nadzorowanym (bez adaptacji dziedzinowej) zakładamy, że przykłady pochodzą z rozkładu wsparcia (nieznanego i ustalonego). Celem jest więc nauczenie się (z ) w taki sposób, aby popełnić jak najmniej błędu przy oznaczaniu nowych przykładów pochodzących z dystrybucji . ${\ Displaystyle (x_ {i}, Y_ {i}) \ w S}$ $D_{S}$ ${\ Displaystyle X \ razy Y}$ ${\ Displaystyle h}$ $S$ $D_{S}$

Główna różnica między uczeniem nadzorowanym a adaptacją domeny polega na tym, że w tej drugiej sytuacji badamy dwa różne (ale powiązane) rozkłady i dalej . Zadanie adaptacji domeny polega wówczas na transferze wiedzy z domeny źródłowej do docelowej . Celem jest więc nauczenie się (z oznakowanych lub nieoznakowanych próbek pochodzących z dwóch domen) tak, aby popełnić jak najmniej błędów w domenie docelowej . $D_{S}$ $D_{T}$ ${\ Displaystyle X \ razy Y}$ $D_{S}$ $D_{T}$ ${\ Displaystyle h}$ $D_{T}$

Główny problem jest następujący: jeśli model jest wyuczony z domeny źródłowej, jaka jest jego zdolność do prawidłowego etykietowania danych pochodzących z domeny docelowej?

Różne rodzaje adaptacji domen

Istnieje kilka kontekstów adaptacji domen. Różnią się one informacjami branymi pod uwagę dla zadania docelowego.

Bez nadzoru adaptacja domeny : próbka nauki zawiera zestaw oznakowanych przykładów źródłowych, zestaw przykładów źródłowych nieoznakowanych oraz zestaw nieoznakowanych przykładów docelowych.
Pół-nadzorowany adaptacja domeny : w tej sytuacji, także rozważamy „mały” zestaw oznakowanych przykładów docelowych.
Nadzorowany adaptacja domeny : wszystkie przykłady rozpatrywane mają być oznakowane.

Cztery zasady algorytmiczne

Algorytmy ponownego ważenia

Celem jest ponowne ważenie próbki oznaczonej jako źródło, tak aby „wyglądała” jak próbka docelowa (pod względem rozważanej miary błędu).

Algorytmy iteracyjne

Metoda adaptacji polega na iteracyjnym „auto-etykietowaniu” docelowych przykładów. Zasada jest prosta:

model uczy się z oznaczonych przykładów; ${\ Displaystyle h}$
${\ Displaystyle h}$ automatycznie oznacza niektóre przykłady docelowe;
nowy model jest uczony z nowych, oznaczonych przykładów.

Należy zauważyć, że istnieją inne podejścia iteracyjne, ale zwykle wymagają one przykładów oznaczonych jako cel.

Poszukiwanie wspólnej przestrzeni reprezentacji

Celem jest znalezienie lub skonstruowanie wspólnej przestrzeni reprezentacji dla dwóch domen. Celem jest uzyskanie przestrzeni, w której domeny są blisko siebie, przy zachowaniu dobrych wyników w zadaniu etykietowania źródła. Można to osiągnąć dzięki zastosowaniu technik uczenia maszynowego Adversarial , w których reprezentacje funkcji z próbek z różnych domen są zachęcane do nierozróżniania.

Hierarchiczny model bayesowski

Celem jest skonstruowanie bayesowskiego modelu hierarchicznego , który jest zasadniczo modelem faktoryzacji dla liczebności , aby wyprowadzić zależne od domeny reprezentacje latentne umożliwiające zarówno specyficzne dla domeny, jak i globalnie współdzielone czynniki latentne. ${\ Displaystyle p (n)}$ ${\ Displaystyle n}$

Languages

In other projects