Prognoza strukturalna — Structured prediction
Część serii na |
Uczenie maszynowe i eksploracja danych |
---|
Przewidywania strukturze lub strukturze (wyjście), uczenie się jest pojęciem do nadzorowanych technik uczenia się urządzenie, które polega na przewidywaniu strukturze obiektów niż skalarnej dyskretnych lub rzeczywistych wartości.
Podobnie jak w przypadku powszechnie stosowanych technik uczenia nadzorowanego, ustrukturyzowane modele predykcyjne są zwykle trenowane za pomocą zaobserwowanych danych, w których do dostosowania parametrów modelu używana jest prawdziwa wartość predykcji. Ze względu na złożoność modelu i współzależności przewidywanych zmiennych proces przewidywania przy użyciu wytrenowanego modelu i samego szkolenia jest często niewykonalny obliczeniowo i stosuje się przybliżone wnioskowanie i metody uczenia się.
Aplikacje
Na przykład problem tłumaczenia zdania języka naturalnego na reprezentację składniową, taką jak drzewo analizy, może być postrzegany jako problem przewidywania strukturalnego, w którym ustrukturyzowana domena wyjściowa jest zbiorem wszystkich możliwych drzew analizy. Przewidywanie strukturalne jest również wykorzystywane w wielu różnych dziedzinach aplikacji, w tym w bioinformatyce , przetwarzaniu języka naturalnego , rozpoznawaniu mowy i wizji komputerowej .
Przykład: tagowanie sekwencji
Znakowanie sekwencji to klasa problemów występujących w przetwarzaniu języka naturalnego , gdzie dane wejściowe są często sekwencjami (np. zdaniami tekstu). Problem znakowania sekwencji pojawia się w kilku postaciach, np. znakowanie części mowy i rozpoznawanie nazwanych jednostek . Na przykład w tagowaniu POS każde słowo w sekwencji musi otrzymać „tag” (etykieta klasy), który wyraża jego „typ” słowa:
Głównym wyzwaniem tego problemu jest rozwiązanie niejednoznaczności : słowo „zdanie” może być również czasownikiem w języku angielskim, podobnie jak „otagowane”.
Chociaż problem ten można rozwiązać po prostu przeprowadzając klasyfikację pojedynczych tokenów, to podejście nie uwzględnia empirycznego faktu, że tagi nie występują niezależnie; zamiast tego każdy tag wyświetla silną zależność warunkową od tagu poprzedniego słowa. Ten fakt można wykorzystać w modelu sekwencji, takim jak ukryty model Markowa lub warunkowe pole losowe, które przewiduje całą sekwencję znaczników dla zdania, a nie tylko pojedyncze znaczniki, za pomocą algorytmu Viterbiego .
Techniki
Probabilistyczne modele graficzne tworzą dużą klasę ustrukturyzowanych modeli predykcyjnych. W szczególności popularne są sieci bayesowskie i pola losowe . Inne algorytmy i modele przewidywania strukturalnego obejmują programowanie logiki indukcyjnej , wnioskowanie oparte na przypadkach , strukturalne maszyny SVM , sieci logiczne Markowa , probabilistyczne oprogramowanie miękkie oraz modele warunkowe z ograniczeniami . Główne techniki:
- Warunkowe pole losowe
- Strukturalna maszyna wektora nośnego
- Zorganizowane k-najbliżsi sąsiedzi
- Sieć neuronowa rekurencyjna , w szczególności sieć Elman
Perceptron strukturalny
Jednym z najłatwiejszych sposobów zrozumienia algorytmów ogólnego przewidywania strukturalnego jest strukturalny perceptron Collinsa . Algorytm ten łączy algorytm perceptronu do uczenia klasyfikatorów liniowych z algorytmem wnioskowania (klasycznie algorytm Viterbiego, gdy jest używany na danych sekwencyjnych) i może być opisany abstrakcyjnie w następujący sposób. Najpierw zdefiniuj „funkcję cech wspólnych” Φ( x , y ), która mapuje próbkę treningową x i predykcję kandydata y na wektor o długości n ( x i y mogą mieć dowolną strukturę; n jest zależne od problemu, ale musi być ustalone dla każdego modelu). Niech GEN będzie funkcją, która generuje przewidywania kandydatów. Następnie:
- Niech będzie wektorem wag o długości n
- Dla z góry określonej liczby iteracji:
- Dla każdej próbki w zbiorze uczącym z true output :
- Dokonać prognozy
- Aktualizacja , od do : , to szybkość uczenia się
W praktyce znalezienie argmax over zostanie wykonane przy użyciu algorytmu takiego jak Viterbi lub algorytmu takiego jak max-sum , a nie wyczerpującego wyszukiwania w wykładniczo dużym zbiorze kandydatów.
Idea uczenia się jest podobna do perceptronu wieloklasowego .
Bibliografia
- ^ Gökhan BakIr, Ben Taskar, Thomas Hofmann, Bernhard Schölkopf, Alex Smola i SVN Vishwanathan (2007), Przewidywanie danych strukturalnych , MIT Press.
- ^ B Lafferty J., McCallum, A., Pereira, F. (2001). „Warunkowe pola losowe: modele probabilistyczne do segmentacji i etykietowania danych sekwencji” (PDF) . Proc. XVIII Międzynarodowa Konf. na uczeniu maszynowym . s. 282–289.CS1 maint: używa parametru autorów ( link )
- ^ Collins, Michael (2002). Dyskryminacyjne metody uczenia ukrytych modeli Markowa: Teoria i eksperymenty z algorytmami perceptronowymi (PDF) . Proc. EMNLP. 10 .
- Noah Smith, Przewidywanie struktury językowej , 2011.
- Michael Collins, Metody treningu dyskryminacyjnego dla ukrytych modeli Markowa , 2002.