Ujednoznacznienie sensu słowa - Word-sense disambiguation

Ujednoznacznienie słowo sens ( WSD ) jest otwartym problemem w lingwistyki dotyczy określenia, które sens o słowo jest użyte w zdaniu . Rozwiązanie tego problemu ma wpływ na inne pisanie związane z komputerami, takie jak dyskurs , poprawa trafności wyszukiwarek , rozdzielczość anaforowa , spójność i wnioskowanie .

Ze względu na fakt, że język naturalny wymaga odzwierciedlenia rzeczywistości neurologicznej, ukształtowanej przez zdolności zapewniane przez sieci neuronowe mózgu , informatyka miała długoterminowe wyzwanie polegające na rozwinięciu zdolności komputerów do przetwarzania języka naturalnego i uczenia maszynowego .

Przebadano wiele technik, w tym metody oparte na słowniku, które wykorzystują wiedzę zakodowaną w zasobach leksykalnych, nadzorowane metody uczenia maszynowego , w których klasyfikator jest szkolony dla każdego odrębnego słowa w korpusie przykładów ręcznie opatrzonych adnotacjami sensu oraz całkowicie nienadzorowane metody, które grupują wystąpienia słów, wywołując w ten sposób sensy słów. Wśród nich, metody uczenia nadzorowanego są dotychczas najbardziej udanymi algorytmami .

Dokładność obecnych algorytmów jest trudna do określenia bez wielu zastrzeżeń. W języku angielskim dokładność na poziomie gruboziarnistym ( homograf ) rutynowo przekracza 90%, a niektóre metody na poszczególnych homografach osiągają ponad 96%. W przypadku drobniejszych rozróżnień zmysłów najwyższe dokładności od 59,1% do 69,0% odnotowano w ćwiczeniach ewaluacyjnych (SemEval-2007, Senseval-2), gdzie dokładność wyjściowa najprostszego możliwego algorytmu wyboru najczęstszego sensu wynosiła 51,4% i 57%, odpowiednio.

O ujednoznacznieniu w sensie słownym

Ujednoznacznienie wymaga dwóch surowych wejść: a słownikowe określenie zmysły, które mają być ujednoznacznione i korpus z języka danych do ujednoznacznione (w niektórych sposobach, corpus szkolenia wymagane jest również przykładów językowych). Zadanie WSD ma dwa warianty: „próbka leksykalna” (ujednoznacznienie wystąpień małej próbki słów docelowych, które zostały wcześniej wybrane) oraz zadanie „wszystkie słowa” (ujednoznacznienie wszystkich słów w bieżącym tekście). Zadanie „Wszystkie słowa” jest ogólnie uważane za bardziej realistyczną formę oceny, ale wykonanie korpusu jest droższe, ponieważ ludzcy adnotatorzy muszą czytać definicje każdego słowa w sekwencji za każdym razem, gdy muszą dokonać oceny tagowania, a nie raz dla bloku instancji dla tego samego słowa docelowego.

Historia

WSD zostało po raz pierwszy sformułowane jako odrębne zadanie obliczeniowe we wczesnych dniach tłumaczenia maszynowego w latach 40., co czyni je jednym z najstarszych problemów w lingwistyce komputerowej. Warren Weaver po raz pierwszy przedstawił problem w kontekście obliczeniowym w swoim memorandum dotyczącym tłumaczenia z 1949 roku. Później Bar-Hillel (1960) argumentował, że WSD nie może być rozwiązane przez „komputer elektroniczny” z powodu ogólnej potrzeby modelowania całej wiedzy o świecie.

W latach 70. WSD było podzadaniem systemów interpretacji semantycznej opracowanych w dziedzinie sztucznej inteligencji, poczynając od semantyki preferencji Wilksa . Ponieważ jednak systemy WSD były w tamtym czasie w dużej mierze oparte na regułach i ręcznie kodowane, były podatne na wąskie gardło w zdobywaniu wiedzy.

W latach 80. dostępne stały się obszerne zasoby leksykalne, takie jak Oxford Advanced Learner's Dictionary of Current English (OALD): ręczne kodowanie zostało zastąpione wiedzą automatycznie wyodrębnianą z tych zasobów, ale ujednoznacznienie nadal opierało się na wiedzy lub słowniku. .

W latach 90. statystyczna rewolucja rozwinęła lingwistykę obliczeniową, a WSD stało się problemem paradygmatu, w którym można zastosować techniki nadzorowanego uczenia maszynowego.

W latach 2000. nadzorowane techniki osiągnęły plateau pod względem dokładności, więc uwaga przeniosła się na grubsze zmysły, adaptację domeny , częściowo nadzorowane i nienadzorowane systemy oparte na korpusie, kombinacje różnych metod i powrót systemów opartych na wiedzy za pomocą wykresów oparte na metodach. Mimo to systemy nadzorowane nadal działają najlepiej.

Trudności

Różnice między słownikami

Jednym z problemów związanych z ujednoznacznieniem sensu słów jest decydowanie, jakie są sensy, ponieważ różne słowniki i tezaurusy zapewniają różne podziały słów na sensy. Niektórzy badacze sugerowali wybór konkretnego słownika i wykorzystanie jego zestawu zmysłów do radzenia sobie z tym zagadnieniem. Generalnie jednak wyniki badań wykorzystujących szerokie rozróżnienia w sensach były znacznie lepsze niż te wykorzystujące wąskie. Większość badaczy nadal pracuje nad drobnoziarnistym WSD.

Większość badań w dziedzinie WSD przeprowadzana jest przy użyciu WordNet jako inwentarza sensu odniesienia dla języka angielskiego. WordNet to leksykon obliczeniowy, który koduje pojęcia jako zbiory synonimów (np. pojęcie samochodu jest zakodowane jako { samochód, auto, samochód, maszyna, samochód }). Inne zasoby wykorzystywane do celów uściślania obejmują tezaurus Rogeta i Wikipedię . Ostatnio BabelNet , wielojęzyczny słownik encyklopedyczny, został wykorzystany do wielojęzycznego WSD.

Oznaczanie części mowy

W każdym prawdziwym teście okazało się, że znakowanie części mowy i znakowanie zmysłów są bardzo blisko powiązane ze sobą, potencjalnie ograniczając się nawzajem. Pytanie, czy te zadania powinny być trzymane razem, czy oddzielone, wciąż nie jest jednomyślnie rozwiązane, ale ostatnio naukowcy skłaniają się do testowania tych rzeczy osobno (np. w konkursach Senseval/ SemEval części mowy są podawane jako dane wejściowe do tekstu w celu ujednoznacznienia).

Oba tagowanie części mowy WSM obejmuje ujednoznacznienie lub tagowanie za pomocą słów. Jednak algorytmy stosowane w przypadku jednego nie sprawdzają się dobrze w przypadku drugiego, głównie dlatego, że część mowy słowa jest określana przede wszystkim przez bezpośrednio sąsiadujące od jednego do trzech słów, podczas gdy sens słowa może być określony przez słowa znajdujące się dalej . Wskaźnik sukcesu algorytmów oznaczania części mowy jest obecnie znacznie wyższy niż w przypadku WSD, przy czym najnowocześniejszy stan techniki wynosi około 96% lub lepszy, w porównaniu z mniej niż 75% dokładnością w ujednoznacznieniu sensu słów z uczeniem nadzorowanym . Te liczby są typowe dla języka angielskiego i mogą bardzo różnić się od tych dla innych języków.

Wariancja między sędziami

Kolejnym problemem jest rozbieżność między sędziami . Systemy WSD są zwykle testowane przez porównanie ich wyników z zadaniami z wynikami człowieka. Jednakże, podczas gdy przypisanie części mowy do tekstu jest stosunkowo łatwe, uczenie ludzi w zakresie oznaczania zmysłów okazało się znacznie trudniejsze. Podczas gdy użytkownicy mogą zapamiętać wszystkie możliwe części mowy, jakie może przyjąć słowo, często niemożliwe jest zapamiętanie wszystkich zmysłów, jakie może przyjąć słowo. Co więcej, ludzie nie zgadzają się co do zadania – podaj listę sensów i zdań, a ludzie nie zawsze zgadzają się co do tego, które słowo należy w jakim sensie.

Ponieważ wydajność człowieka służy jako standard, jest to górna granica wydajności komputera. Wydajność człowieka jest jednak znacznie lepsza przy rozróżnieniach gruboziarnistych niż drobnoziarnistych , więc ponownie dlatego badania nad rozróżnieniami gruboziarnistymi zostały przetestowane w ostatnich ćwiczeniach ewaluacyjnych WSD.

Pragmatyka

Niektórzy badacze sztucznej inteligencji, tacy jak Douglas Lenat, twierdzą, że nie można analizować znaczeń słów bez jakiejś formy zdroworozsądkowej ontologii . Ta kwestia językowa nazywa się pragmatyka . Zgodnie z ustaleniami badaczy, aby właściwie rozpoznać sens słów, trzeba znać fakty zdroworozsądkowe. Co więcej, czasami potrzebny jest zdrowy rozsądek, aby ujednoznacznić takie słowa jak zaimki w przypadku występowania w tekście anafor lub katafor .

Inwentaryzacja Sense i zależność zadaniowa algorytmów

Niezależny od zadania inwentarz sensów nie jest spójną koncepcją: każde zadanie wymaga własnego podziału znaczeń słów na sensy istotne dla zadania. Dodatkowo różne aplikacje mogą wymagać zupełnie różnych algorytmów. W tłumaczeniu maszynowym problem przybiera postać doboru słów docelowych. „Zmysły” to słowa w języku docelowym, które często odpowiadają znaczącym rozróżnieniom znaczeniowym w języku źródłowym („bank” można przetłumaczyć na francuski „banque” – to znaczy „bank finansowy” lub „rive” – czyli „brzeg rzeki”). W wyszukiwaniu informacji inwentarz sensów nie jest koniecznie wymagany, ponieważ wystarczy wiedzieć, że słowo jest użyte w tym samym znaczeniu w zapytaniu i wyszukiwanym dokumencie; jaki to sens, nie ma znaczenia.

Dyskretność zmysłów

Wreszcie samo pojęcie „ sensu słów ” jest śliskie i kontrowersyjne. Większość ludzi może zgadzać się co do rozróżnień na poziomie drobnoziarnistego homografu (np. długopis jako przyrząd do pisania lub załącznik), ale schodzą o jeden poziom w dół do drobnoziarnistej polisemii i pojawiają się nieporozumienia. Na przykład w Senseval-2, w którym zastosowano drobnoziarniste rozróżnienia sensów, adnotatorzy ludzie zgodzili się tylko w 85% wystąpień słów. Znaczenie słowa jest w zasadzie nieskończenie zmienne i zależne od kontekstu. Nie dzieli się łatwo na wyraźne lub dyskretne podznaczenia. Leksykografowie często odkrywają w korpusach luźne i nakładające się znaczenia słów, a standardowe lub konwencjonalne znaczenia rozszerzone, modulowane i wykorzystywane w oszałamiająco różnorodny sposób. Sztuka leksykografii polega na uogólnianiu z korpusu do definicji, które przywołują i wyjaśniają pełen zakres znaczeniowy słowa, sprawiając wrażenie, że słowa są semantycznie zachowane. Jednak wcale nie jest jasne, czy te same rozróżnienia znaczeniowe mają zastosowanie w zastosowaniach obliczeniowych , ponieważ decyzje leksykografów są zwykle kierowane innymi względami. W 2009 roku jako możliwe rozwiązanie problemu dyskrecji sensu zaproponowano zadanie nazwane substytucją leksykalną . Zadanie polega na zapewnieniu substytutu słowa w kontekście, który zachowuje znaczenie słowa oryginalnego (potencjalnie substytuty można wybrać z pełnego leksykonu języka docelowego, przezwyciężając w ten sposób dyskrecję).

Podejścia i metody

Istnieją dwa główne podejścia do WSD – podejścia głębokie i podejścia płytkie.

Głębokie podejścia zakładają dostęp do wszechstronnej wiedzy o świecie . Podejścia te generalnie nie są uważane za bardzo skuteczne w praktyce, głównie dlatego, że taki zasób wiedzy nie istnieje w formacie czytelnym dla komputera, poza bardzo ograniczonymi dziedzinami. Dodatkowo ze względu na długą tradycję w lingwistyce komputerowej próbowania takich podejść w zakresie wiedzy zakodowanej, a w niektórych przypadkach może być trudno odróżnić wiedzę związaną z wiedzą językową od wiedzy o świecie. Pierwsza próba była podjęta przez Margaret Masterman i jej współpracowników w Cambridge Language Research Unit w Anglii w latach pięćdziesiątych. W tej próbie wykorzystano jako dane wersję tezaurusa Rogeta w wersji z dziurkowanymi kartami i jego ponumerowane „głowy”, jako wskaźnik tematów i szukano powtórzeń w tekście, używając ustalonego algorytmu przecięcia. Nie było to bardzo udane, ale miało silne powiązania z późniejszą pracą, zwłaszcza z optymalizacją uczenia maszynowego metody tezaurusa Yarowsky'ego w latach 90. XX wieku.

Płytkie podejście nie próbuje zrozumieć tekstu, ale zamiast tego bierze pod uwagę otaczające słowa. Reguły te mogą być automatycznie wyprowadzone przez komputer, używając korpusu szkoleniowego słów oznaczonych ich znaczeniami. Podejście to, choć teoretycznie nie tak potężne, jak podejście głębokie, daje lepsze rezultaty w praktyce ze względu na ograniczoną wiedzę komputerową o świecie.

Istnieją cztery konwencjonalne podejścia do WSD:

Prawie wszystkie te podejścia działają poprzez zdefiniowanie okna zawierającego n słów wokół każdego słowa, które ma być ujednoznacznione w korpusie, i statystyczną analizę tych n otaczających słów. Dwa płytkie podejścia używane do trenowania, a następnie ujednoznacznienia to klasyfikatory Naiwnego Bayesa i drzewa decyzyjne . W ostatnich badaniach metody oparte na jądrze, takie jak maszyny wektorów pomocniczych , wykazały doskonałą wydajność w uczeniu nadzorowanym . Podejścia oparte na wykresach również zyskały dużą uwagę społeczności naukowej i obecnie osiągają wydajność zbliżoną do stanu techniki.

Metody oparte na słowniku i wiedzy

Algorytm Lesk jest nowatorski sposób sĹ,ownikowy. Opiera się na hipotezie, że słowa używane razem w tekście są ze sobą powiązane i że związek ten można zaobserwować w definicjach słów i ich sensach. Dwa (lub więcej) słowa są ujednoznacznione poprzez znalezienie pary znaczeń słownikowych, w których w definicjach słownikowych występuje największe zachodzenie na siebie słów. Na przykład, ujednoznaczniając słowa w „szyszka”, definicje odpowiednich sensów obejmują zarówno słowa wiecznie zielone, jak i drzewo (przynajmniej w jednym słowniku). Podobne podejście poszukuje najkrótszej ścieżki między dwoma słowami: drugie słowo jest iteracyjnie przeszukiwane wśród definicji każdego wariantu semantycznego pierwszego słowa, następnie wśród definicji każdego wariantu semantycznego każdego słowa w poprzednich definicjach i tak dalej. Wreszcie pierwsze słowo jest ujednoznaczniane poprzez wybór wariantu semantycznego, który minimalizuje odległość od pierwszego do drugiego słowa.

Alternatywą dla stosowania definicji jest rozważenie ogólnego pokrewieństwa ze znaczeniem słów i obliczenie podobieństwa semantycznego każdej pary sensów słów w oparciu o daną bazę wiedzy leksykalnej, taką jak WordNet . Z pewnym powodzeniem zastosowano metody oparte na wykresach, przypominające rozpowszechnienie badań aktywacyjnych z początków badań nad sztuczną inteligencją. Wykazano, że bardziej złożone podejścia oparte na wykresach działają prawie tak samo dobrze jak metody nadzorowane, a nawet przewyższają je w określonych dziedzinach. Ostatnio pojawiły się doniesienia, że ​​proste miary łączności grafów , takie jak stopień , wykonują najnowocześniejsze WSD w obecności wystarczająco bogatej bazy wiedzy leksykalnej. Wykazano również, że automatyczne przenoszenie wiedzy w formie relacji semantycznych z Wikipedii do WordNet usprawnia proste metody oparte na wiedzy, umożliwiając im konkurowanie z najlepiej nadzorowanymi systemami, a nawet przewyższają je w warunkach specyficznych dla domeny.

Korzystanie z preferencji selekcyjnych (lub ograniczeń selekcyjnych) jest również przydatne, na przykład wiedząc, że zazwyczaj gotuje się jedzenie, można ujednoznacznić słowo bas w „Ja gotuję basy” (tzn. nie jest to instrument muzyczny).

Metody nadzorowane

Nadzorowane metody opierają się na założeniu, że sam kontekst może dostarczyć wystarczających dowodów, aby ujednoznacznić słowa (dlatego zdrowy rozsądek i rozumowanie są uważane za niepotrzebne). Prawdopodobnie każdy algorytm uczenia maszynowego został zastosowany do WSD, w tym powiązane techniki, takie jak wybór funkcji , optymalizacja parametrów i uczenie zespołowe . Wykazano, że jak dotąd najbardziej udanymi podejściami są maszyny wektorów nośnych i uczenie się oparte na pamięci , prawdopodobnie dlatego, że radzą sobie z wielowymiarowością przestrzeni cech. Jednak te nadzorowane metody podlegają nowemu wąskiemu gardłu w zdobywaniu wiedzy, ponieważ opierają się na znacznych ilościach ręcznie znakowanych korpusów do treningu, których tworzenie jest pracochłonne i kosztowne.

Metody częściowo nadzorowane

Ze względu na brak danych uczących wiele algorytmów ujednoznaczniania sensu słów korzysta z częściowo nadzorowanego uczenia się , które pozwala zarówno na dane oznaczone, jak i nieoznaczone. Algorytm Yarowsky Wczesny przykład takiego algorytmu na to. Wykorzystuje właściwości języków ludzkich „Jeden zmysł na kolokację” i „Jeden zmysł na dyskurs” w celu ujednoznacznienia sensu słów. Z obserwacji wynika, że ​​słowa mają tendencję do przejawiania tylko jednego sensu w większości danego dyskursu i w danym zestawieniu.

Do ładowania rozpoczyna podejście z niewielką ilością danych nasion dla każdego słowa: albo ręcznie otagowanych przykładów szkoleniowych lub niewielkiej liczby reguł decyzyjnych murowany (na przykład „play” w kontekście „bas” prawie zawsze wskazuje na instrumencie). Nasiona są wykorzystywane do szkolenia wstępnego klasyfikatora przy użyciu dowolnej nadzorowanej metody. Ten klasyfikator jest następnie używany w nieoznakowanej części korpusu, aby wyodrębnić większy zestaw treningowy, w którym zawarte są tylko najbardziej pewne klasyfikacje. Proces powtarza się, każdy nowy klasyfikator jest szkolony na coraz większym korpusie szkoleniowym, aż cały korpus zostanie skonsumowany lub do osiągnięcia określonej maksymalnej liczby iteracji.

Inne techniki częściowo nadzorowane wykorzystują duże ilości nieoznakowanych korpusów w celu dostarczenia informacji o współwystępowaniu, która uzupełnia znakowane korpusy. Techniki te mogą potencjalnie pomóc w adaptacji nadzorowanych modeli do różnych dziedzin.

Ponadto niejednoznaczne słowo w jednym języku jest często tłumaczone na różne słowa w drugim języku, w zależności od sensu tego słowa. Dwujęzyczne korpusy dopasowane do słów zostały wykorzystane do wywnioskowania międzyjęzykowych rozróżnień sensów, rodzaju półnadzorowanego systemu.

Metody nienadzorowane

Uczenie się bez nadzoru jest największym wyzwaniem dla badaczy WSD. Podstawowym założeniem jest to, że podobne zmysły występują w podobnych kontekstach, a zatem zmysły mogą być wywoływane z tekstu przez grupowanie wystąpień słów przy użyciu pewnej miary podobieństwa kontekstu, zadanie określane jako indukcja sensu słowa lub dyskryminacja. Następnie nowe wystąpienia tego słowa można zaklasyfikować do najbliższych indukowanych skupień/zmysłów. Wydajność była niższa niż w przypadku innych metod opisanych powyżej, ale porównania są trudne, ponieważ wywoływane sensy muszą być odwzorowane na znany słownik sensów wyrazów. Jeśli mapowanie do zestawu sensów słownikowych nie jest pożądane, można przeprowadzić oceny oparte na klastrach (w tym pomiary entropii i czystości). Alternatywnie, metody indukcji sensu słów mogą być testowane i porównywane w aplikacji. Wykazano na przykład, że indukcja sensu słów poprawia klastrowanie wyników wyszukiwania w sieci poprzez zwiększenie jakości klastrów wyników i stopnia zróżnicowania list wyników. Oczekuje się, że uczenie się nienadzorowane pokona wąskie gardło w zdobywaniu wiedzy, ponieważ nie jest uzależnione od wysiłku manualnego.

Reprezentowanie słów z uwzględnieniem ich kontekstu za pomocą gęstych wektorów o stałym rozmiarze ( osadzanie słów ) stało się jednym z najbardziej podstawowych bloków w kilku systemach NLP. Mimo że większość tradycyjnych technik osadzania słów łączy słowa o wielu znaczeniach w jedną reprezentację wektorową, nadal można ich używać do ulepszania WSD. Oprócz technik osadzania słów, leksykalne bazy danych (np. WordNet , ConceptNet , BabelNet ) mogą również wspomagać nienadzorowane systemy w mapowaniu słów i ich znaczeń jako słowników. Niektóre techniki, które łączą leksykalne bazy danych i osadzanie wyrazów, są przedstawione w AutoExtend i Most Odpowiednie Sense Annotation (MSSA). W AutoExtend przedstawiają metodę, która rozdziela reprezentację wejściową obiektu na jej właściwości, takie jak słowa i ich znaczenia. AutoExtend wykorzystuje strukturę wykresu do odwzorowywania słów (np. tekst) i obiektów niebędących słowami (np. synsetów w WordNet ) jako węzłów oraz relacji między węzłami jako krawędzi. Relacje (krawędzie) w AutoExtend mogą wyrażać dodanie lub podobieństwo między jego węzłami. Pierwsza z nich oddaje intuicję stojącą za rachunkiem offsetowym, podczas gdy druga definiuje podobieństwo między dwoma węzłami. W MSSA nienadzorowany system uściślania wykorzystuje podobieństwo między znaczeniami słów w ustalonym oknie kontekstowym, aby wybrać najbardziej odpowiedni sens słów przy użyciu wstępnie wytrenowanego modelu osadzania słów i WordNet . Dla każdego okna kontekstowego MSSA oblicza ciężkości każdej definicji sens wyrazu poprzez uśrednienie wektory haseł swoich słów w wordnet na glos (czyli krótkie zdefiniowanie połysk i jeden lub więcej przykładów użycia) przy użyciu wstępnie przeszkolony zanurzeń słowo model. Te centroidy są później używane do wybierania sensu słowa o największym podobieństwie słowa docelowego do jego bezpośrednio sąsiadujących sąsiadów (tj. słów poprzednika i następnika). Gdy wszystkie słowa zostaną opatrzone adnotacjami i ujednoznacznieniem, można ich użyć jako korpusu szkoleniowego w dowolnej standardowej technice osadzania słów. W ulepszonej wersji MSSA może wykorzystywać osadzanie sensu słów, aby powtarzać proces ujednoznacznienia.

Inne podejścia

Inne podejścia mogą się różnić w swoich metodach:

Inne języki

  • Hindi  : Brak zasobów leksykalnych w języku hindi utrudnił wykonywanie nadzorowanych modeli WSD, podczas gdy modele nienadzorowane cierpią z powodu rozległej morfologii. Możliwym rozwiązaniem tego problemu jest zaprojektowanie modelu WSD za pomocą równoległych korpusów . Utworzenie Hindi WordNet utorowało drogę dla kilku metod nadzorowanych, które, jak udowodniono, zapewniają większą dokładność w ujednoznacznianiu rzeczowników.

Lokalne utrudnienia i podsumowanie

Wąskie gardło w zdobywaniu wiedzy jest prawdopodobnie główną przeszkodą w rozwiązaniu problemu WSD. Metody nienadzorowane opierają się na wiedzy o sensach wyrazów, która jest tylko uboga w słowniki i leksykalne bazy danych. Nadzorowane metody zależą przede wszystkim od istnienia ręcznie adnotowanych przykładów dla każdego sensu słowa, co do tej pory można było spełnić tylko w przypadku kilku słów do celów testowych, jak to ma miejsce w ćwiczeniach Senseval .

Jednym z najbardziej obiecujących trendów w badaniach WSD jest wykorzystanie największego dostępnego korpusu, jakim jest sieć WWW , do automatycznego pozyskiwania informacji leksykalnych. WSD jest tradycyjnie rozumiane jako technologia inżynierii języka pośredniego, która może usprawnić aplikacje, takie jak wyszukiwanie informacji (IR). W tym przypadku jest jednak również odwrotnie: wyszukiwarki internetowe implementują proste i niezawodne techniki IR, które mogą z powodzeniem przeszukiwać sieć w celu uzyskania informacji do wykorzystania w WSD. Historyczny brak danych uczących spowodował pojawienie się nowych algorytmów i technik, jak opisano w Automatyczne pozyskiwanie korpusów ze znacznikami sensu .

Zewnętrzne źródła wiedzy

Wiedza jest podstawowym składnikiem WSD. Źródła wiedzy dostarczają danych niezbędnych do kojarzenia zmysłów ze słowami. Mogą się one różnić od korpusów tekstów, nieopisanych lub opatrzonych adnotacjami w znaczeniu słów, po słowniki do odczytu maszynowego, tezaurusy, glosariusze, ontologie itp. Można je sklasyfikować w następujący sposób:

Zbudowany:

  1. Słowniki do odczytu maszynowego (MRD)
  2. Ontologie
  3. Tezaurus

Niestrukturalne:

  1. Zasoby kolokacyjne
  2. Inne zasoby (takie jak listy częstotliwości słów , stoplisty , etykiety domen itp.)
  3. Corpora : surowe korpusy i korpusy z adnotacjami sensu

Ocena

Porównywanie i ocena różnych systemów WSD jest niezwykle trudna ze względu na różne zestawy testów, inwentarze zmysłów i przyjęte zasoby wiedzy. Przed zorganizowaniem konkretnych kampanii ewaluacyjnych większość systemów była oceniana na wewnętrznych, często na małą skalę, zestawach danych . Aby przetestować swój algorytm, programiści powinni poświęcić swój czas na opisanie wszystkich wystąpień słów. A porównywanie metod nawet na tym samym korpusie nie jest dopuszczalne, jeśli istnieją różne inwentarze sensów.

W celu zdefiniowania wspólnych zbiorów danych i procedur ewaluacyjnych zorganizowano publiczne kampanie ewaluacyjne. Senseval (obecnie przemianowany na SemEval ) to międzynarodowy konkurs ujednoznacznienia znaczenia słów, organizowany co trzy lata od 1998 roku: Senseval-1 (1998), Senseval-2 (2001), Senseval-3 (2004) i jego następca, SemEval (2007) . Celem konkursu jest zorganizowanie różnych wykładów, przygotowanie i odręczne adnotowanie korpusu do testowania systemów, przeprowadzenie oceny porównawczej systemów WSD w kilku rodzajach zadań, w tym wszystkich wyrazów i próbki leksykalnej WSD dla różnych języków, a od niedawna , nowe zadania, takie jak semantyczne oznaczanie ról , glosy WSD, substytucja leksykalna itp. Systemy zgłaszane do oceny do tych konkursów zwykle integrują różne techniki i często łączą metody nadzorowane i oparte na wiedzy (szczególnie w celu uniknięcia złych wyników w przypadku braku przykładów szkoleniowych) .

W ostatnich latach 2007-2012 zwiększyły się wybory zadań ewaluacyjnych WSD, a kryterium oceny WSD zmieniło się drastycznie w zależności od wariantu zadania ewaluacyjnego WSD. Poniżej wymieniono różnorodne zadania WSD:

Wybór projektu zadania

Wraz z rozwojem technologii zadania dezambiguacji słów (WSD) rozwijają się w różnych odmianach w kierunku różnych kierunków badawczych i dla większej liczby języków:

  • Klasyczne, jednojęzyczne zadania ewaluacyjne WSD wykorzystują WordNet jako inwentarz zmysłów i są w dużej mierze oparte na nadzorowanej / częściowo nadzorowanej klasyfikacji z korpusami z adnotacjami manualnymi:
    • Klasyczne angielskie WSD wykorzystuje Princeton WordNet w sensie inwentaryzacji, a podstawowe dane wejściowe klasyfikacji są zwykle oparte na korpusie SemCor .
    • Klasyczny WSD dla innych języków wykorzystuje ich odpowiedni WordNet jako inwentarze zmysłów i korpusy z adnotacjami sensów oznakowane w odpowiednich językach. Często badacze opuścili również korpus SemCor i dopasowywali biteksty z angielskim jako językiem źródłowym
  • Wielojęzyczne zadanie ewaluacyjne WSD koncentruje się również na WSD w 2 lub więcej językach jednocześnie. W przeciwieństwie do wielojęzycznych zadań WSD, zamiast ręcznie podawać przykłady z adnotacjami sensu dla każdego sensu wieloznacznego rzeczownika, inwentarz sensów budowany jest na podstawie równoległych korpusów, np. korpusu Europarl.
  • Wielojęzyczne zadania ewaluacyjne WSD koncentrowały się na WSD w 2 lub więcej językach jednocześnie, używając odpowiednich WordNet jako swoich inwentarzy zmysłów lub BabelNet jako wielojęzycznych inwentarzy zmysłów. Wyewoluował z zadań ewaluacyjnych Translation WSD, które miały miejsce w Senseval-2. Popularnym podejściem jest przeprowadzanie jednojęzycznego WSD, a następnie mapowanie sensów języka źródłowego na odpowiednie tłumaczenia słów docelowych.
  • Zadanie Word Sense Induction and Disambiguation to połączone zadanie ewaluacyjne, w którym inwentarz sensów jest najpierw indukowany ze ustalonego zbioru uczącego danych, składającego się ze słów wieloznacznych i zdania, w którym się pojawiły, a następnie WSD jest wykonywane na innym zbiorze danych testowych .

Oprogramowanie

  • Babelfy, ujednolicony, najnowocześniejszy system do wielojęzycznego ujednoznaniania słów i łączenia jednostek
  • BabelNet API, Java API do opartej na wiedzy wielojęzycznej dezambiguacji Word Sense w 6 różnych językach przy użyciu sieci semantycznej BabelNet
  • WordNet::SenseRelate, projekt, który obejmuje bezpłatne systemy typu open source do ujednoznaczniania sensu słów i uściślania sensu prób leksykalnych
  • UKB: Graph Base WSD, zbiór programów do wykonywania opartego na wykresie ujednoznacznienia sensu słów i leksykalnego podobieństwa/pokrewieństwa przy użyciu istniejącej leksykalnej bazy wiedzy
  • pyWSD, pythonowe implementacje technologii Word Sense Disambiguation (WSD)

Zobacz też

Uwagi

Prace cytowane

Linki zewnętrzne i sugerowana lektura