Prognoza strukturalna — Structured prediction

Przewidywania strukturze lub strukturze (wyjście), uczenie się jest pojęciem do nadzorowanych technik uczenia się urządzenie, które polega na przewidywaniu strukturze obiektów niż skalarnej dyskretnych lub rzeczywistych wartości.

Podobnie jak w przypadku powszechnie stosowanych technik uczenia nadzorowanego, ustrukturyzowane modele predykcyjne są zwykle trenowane za pomocą zaobserwowanych danych, w których do dostosowania parametrów modelu używana jest prawdziwa wartość predykcji. Ze względu na złożoność modelu i współzależności przewidywanych zmiennych proces przewidywania przy użyciu wytrenowanego modelu i samego szkolenia jest często niewykonalny obliczeniowo i stosuje się przybliżone wnioskowanie i metody uczenia się.

Aplikacje

Na przykład problem tłumaczenia zdania języka naturalnego na reprezentację składniową, taką jak drzewo analizy, może być postrzegany jako problem przewidywania strukturalnego, w którym ustrukturyzowana domena wyjściowa jest zbiorem wszystkich możliwych drzew analizy. Przewidywanie strukturalne jest również wykorzystywane w wielu różnych dziedzinach aplikacji, w tym w bioinformatyce , przetwarzaniu języka naturalnego , rozpoznawaniu mowy i wizji komputerowej .

Przykład: tagowanie sekwencji

Znakowanie sekwencji to klasa problemów występujących w przetwarzaniu języka naturalnego , gdzie dane wejściowe są często sekwencjami (np. zdaniami tekstu). Problem znakowania sekwencji pojawia się w kilku postaciach, np. znakowanie części mowy i rozpoznawanie nazwanych jednostek . Na przykład w tagowaniu POS każde słowo w sekwencji musi otrzymać „tag” (etykieta klasy), który wyraża jego „typ” słowa:

Ten	DT
jest	VBZ
a	DT
oznaczone	JJ
zdanie	NN
.	.

Głównym wyzwaniem tego problemu jest rozwiązanie niejednoznaczności : słowo „zdanie” może być również czasownikiem w języku angielskim, podobnie jak „otagowane”.

Chociaż problem ten można rozwiązać po prostu przeprowadzając klasyfikację pojedynczych tokenów, to podejście nie uwzględnia empirycznego faktu, że tagi nie występują niezależnie; zamiast tego każdy tag wyświetla silną zależność warunkową od tagu poprzedniego słowa. Ten fakt można wykorzystać w modelu sekwencji, takim jak ukryty model Markowa lub warunkowe pole losowe, które przewiduje całą sekwencję znaczników dla zdania, a nie tylko pojedyncze znaczniki, za pomocą algorytmu Viterbiego .

Techniki

Probabilistyczne modele graficzne tworzą dużą klasę ustrukturyzowanych modeli predykcyjnych. W szczególności popularne są sieci bayesowskie i pola losowe . Inne algorytmy i modele przewidywania strukturalnego obejmują programowanie logiki indukcyjnej , wnioskowanie oparte na przypadkach , strukturalne maszyny SVM , sieci logiczne Markowa , probabilistyczne oprogramowanie miękkie oraz modele warunkowe z ograniczeniami . Główne techniki:

Warunkowe pole losowe
Strukturalna maszyna wektora nośnego
Zorganizowane k-najbliżsi sąsiedzi
Sieć neuronowa rekurencyjna , w szczególności sieć Elman

Perceptron strukturalny

Jednym z najłatwiejszych sposobów zrozumienia algorytmów ogólnego przewidywania strukturalnego jest strukturalny perceptron Collinsa . Algorytm ten łączy algorytm perceptronu do uczenia klasyfikatorów liniowych z algorytmem wnioskowania (klasycznie algorytm Viterbiego, gdy jest używany na danych sekwencyjnych) i może być opisany abstrakcyjnie w następujący sposób. Najpierw zdefiniuj „funkcję cech wspólnych” Φ( x , y ), która mapuje próbkę treningową x i predykcję kandydata y na wektor o długości n ( x i y mogą mieć dowolną strukturę; n jest zależne od problemu, ale musi być ustalone dla każdego modelu). Niech GEN będzie funkcją, która generuje przewidywania kandydatów. Następnie:

Niech będzie wektorem wag o długości n

{\ Displaystyle w}

Dla z góry określonej liczby iteracji:

Dla każdej próbki w zbiorze uczącym z true output :

x

t

Dokonać prognozy

{\ Displaystyle {\ kapelusz {y}} = {\ operatorname {arg \ max}} \ \ {{y} \ w {GEN} ({x}) \} \ ({w} ^ {T} \,\phi ({x},{y}))}

Aktualizacja , od do : , to szybkość uczenia się

{\ Displaystyle w}

{\kapelusz {y}}

t

{\ Displaystyle {w} = {w} + {c} (- \ phi ({x}, {\ kapelusz {y}}) + \ phi ({x}, {t}))}

c

W praktyce znalezienie argmax over zostanie wykonane przy użyciu algorytmu takiego jak Viterbi lub algorytmu takiego jak max-sum , a nie wyczerpującego wyszukiwania w wykładniczo dużym zbiorze kandydatów. ${\ Displaystyle {GEN} ({x})}$

Idea uczenia się jest podobna do perceptronu wieloklasowego .

Bibliografia

^ Gökhan BakIr, Ben Taskar, Thomas Hofmann, Bernhard Schölkopf, Alex Smola i SVN Vishwanathan (2007), Przewidywanie danych strukturalnych , MIT Press.
^ ^B Lafferty J., McCallum, A., Pereira, F. (2001). „Warunkowe pola losowe: modele probabilistyczne do segmentacji i etykietowania danych sekwencji” (PDF) . Proc. XVIII Międzynarodowa Konf. na uczeniu maszynowym . s. 282–289.CS1 maint: używa parametru autorów ( link )
^ Collins, Michael (2002). Dyskryminacyjne metody uczenia ukrytych modeli Markowa: Teoria i eksperymenty z algorytmami perceptronowymi (PDF) . Proc. EMNLP. 10 .

Noah Smith, Przewidywanie struktury językowej , 2011.
Michael Collins, Metody treningu dyskryminacyjnego dla ukrytych modeli Markowa , 2002.

Zewnętrzne linki

Wdrożenie ustrukturyzowanego perceptronu Collins

[1] Gökhan BakIr, Ben Taskar, Thomas Hofmann, Bernhard Schölkopf, Alex Smola i SVN Vishwanathan (2007), Przewidywanie danych strukturalnych , MIT Press.

[Laf:McC:Per01-2] B Lafferty J., McCallum, A., Pereira, F. (2001). „Warunkowe pola losowe: modele probabilistyczne do segmentacji i etykietowania danych sekwencji” (PDF) . Proc. XVIII Międzynarodowa Konf. na uczeniu maszynowym . s. 282–289.CS1 maint: używa parametru autorów ( link )

[3] Collins, Michael (2002). Dyskryminacyjne metody uczenia ukrytych modeli Markowa: Teoria i eksperymenty z algorytmami perceptronowymi (PDF) . Proc. EMNLP. 10 .

Languages

In other projects