Ujednoznacznienie sensu słowa - Word-sense disambiguation
Ujednoznacznienie słowo sens ( WSD ) jest otwartym problemem w lingwistyki dotyczy określenia, które sens o słowo jest użyte w zdaniu . Rozwiązanie tego problemu ma wpływ na inne pisanie związane z komputerami, takie jak dyskurs , poprawa trafności wyszukiwarek , rozdzielczość anaforowa , spójność i wnioskowanie .
Ze względu na fakt, że język naturalny wymaga odzwierciedlenia rzeczywistości neurologicznej, ukształtowanej przez zdolności zapewniane przez sieci neuronowe mózgu , informatyka miała długoterminowe wyzwanie polegające na rozwinięciu zdolności komputerów do przetwarzania języka naturalnego i uczenia maszynowego .
Przebadano wiele technik, w tym metody oparte na słowniku, które wykorzystują wiedzę zakodowaną w zasobach leksykalnych, nadzorowane metody uczenia maszynowego , w których klasyfikator jest szkolony dla każdego odrębnego słowa w korpusie przykładów ręcznie opatrzonych adnotacjami sensu oraz całkowicie nienadzorowane metody, które grupują wystąpienia słów, wywołując w ten sposób sensy słów. Wśród nich, metody uczenia nadzorowanego są dotychczas najbardziej udanymi algorytmami .
Dokładność obecnych algorytmów jest trudna do określenia bez wielu zastrzeżeń. W języku angielskim dokładność na poziomie gruboziarnistym ( homograf ) rutynowo przekracza 90%, a niektóre metody na poszczególnych homografach osiągają ponad 96%. W przypadku drobniejszych rozróżnień zmysłów najwyższe dokładności od 59,1% do 69,0% odnotowano w ćwiczeniach ewaluacyjnych (SemEval-2007, Senseval-2), gdzie dokładność wyjściowa najprostszego możliwego algorytmu wyboru najczęstszego sensu wynosiła 51,4% i 57%, odpowiednio.
O ujednoznacznieniu w sensie słownym
Ujednoznacznienie wymaga dwóch surowych wejść: a słownikowe określenie zmysły, które mają być ujednoznacznione i korpus z języka danych do ujednoznacznione (w niektórych sposobach, corpus szkolenia wymagane jest również przykładów językowych). Zadanie WSD ma dwa warianty: „próbka leksykalna” (ujednoznacznienie wystąpień małej próbki słów docelowych, które zostały wcześniej wybrane) oraz zadanie „wszystkie słowa” (ujednoznacznienie wszystkich słów w bieżącym tekście). Zadanie „Wszystkie słowa” jest ogólnie uważane za bardziej realistyczną formę oceny, ale wykonanie korpusu jest droższe, ponieważ ludzcy adnotatorzy muszą czytać definicje każdego słowa w sekwencji za każdym razem, gdy muszą dokonać oceny tagowania, a nie raz dla bloku instancji dla tego samego słowa docelowego.
Historia
WSD zostało po raz pierwszy sformułowane jako odrębne zadanie obliczeniowe we wczesnych dniach tłumaczenia maszynowego w latach 40., co czyni je jednym z najstarszych problemów w lingwistyce komputerowej. Warren Weaver po raz pierwszy przedstawił problem w kontekście obliczeniowym w swoim memorandum dotyczącym tłumaczenia z 1949 roku. Później Bar-Hillel (1960) argumentował, że WSD nie może być rozwiązane przez „komputer elektroniczny” z powodu ogólnej potrzeby modelowania całej wiedzy o świecie.
W latach 70. WSD było podzadaniem systemów interpretacji semantycznej opracowanych w dziedzinie sztucznej inteligencji, poczynając od semantyki preferencji Wilksa . Ponieważ jednak systemy WSD były w tamtym czasie w dużej mierze oparte na regułach i ręcznie kodowane, były podatne na wąskie gardło w zdobywaniu wiedzy.
W latach 80. dostępne stały się obszerne zasoby leksykalne, takie jak Oxford Advanced Learner's Dictionary of Current English (OALD): ręczne kodowanie zostało zastąpione wiedzą automatycznie wyodrębnianą z tych zasobów, ale ujednoznacznienie nadal opierało się na wiedzy lub słowniku. .
W latach 90. statystyczna rewolucja rozwinęła lingwistykę obliczeniową, a WSD stało się problemem paradygmatu, w którym można zastosować techniki nadzorowanego uczenia maszynowego.
W latach 2000. nadzorowane techniki osiągnęły plateau pod względem dokładności, więc uwaga przeniosła się na grubsze zmysły, adaptację domeny , częściowo nadzorowane i nienadzorowane systemy oparte na korpusie, kombinacje różnych metod i powrót systemów opartych na wiedzy za pomocą wykresów oparte na metodach. Mimo to systemy nadzorowane nadal działają najlepiej.
Trudności
Różnice między słownikami
Jednym z problemów związanych z ujednoznacznieniem sensu słów jest decydowanie, jakie są sensy, ponieważ różne słowniki i tezaurusy zapewniają różne podziały słów na sensy. Niektórzy badacze sugerowali wybór konkretnego słownika i wykorzystanie jego zestawu zmysłów do radzenia sobie z tym zagadnieniem. Generalnie jednak wyniki badań wykorzystujących szerokie rozróżnienia w sensach były znacznie lepsze niż te wykorzystujące wąskie. Większość badaczy nadal pracuje nad drobnoziarnistym WSD.
Większość badań w dziedzinie WSD przeprowadzana jest przy użyciu WordNet jako inwentarza sensu odniesienia dla języka angielskiego. WordNet to leksykon obliczeniowy, który koduje pojęcia jako zbiory synonimów (np. pojęcie samochodu jest zakodowane jako { samochód, auto, samochód, maszyna, samochód }). Inne zasoby wykorzystywane do celów uściślania obejmują tezaurus Rogeta i Wikipedię . Ostatnio BabelNet , wielojęzyczny słownik encyklopedyczny, został wykorzystany do wielojęzycznego WSD.
Oznaczanie części mowy
W każdym prawdziwym teście okazało się, że znakowanie części mowy i znakowanie zmysłów są bardzo blisko powiązane ze sobą, potencjalnie ograniczając się nawzajem. Pytanie, czy te zadania powinny być trzymane razem, czy oddzielone, wciąż nie jest jednomyślnie rozwiązane, ale ostatnio naukowcy skłaniają się do testowania tych rzeczy osobno (np. w konkursach Senseval/ SemEval części mowy są podawane jako dane wejściowe do tekstu w celu ujednoznacznienia).
Oba tagowanie części mowy WSM obejmuje ujednoznacznienie lub tagowanie za pomocą słów. Jednak algorytmy stosowane w przypadku jednego nie sprawdzają się dobrze w przypadku drugiego, głównie dlatego, że część mowy słowa jest określana przede wszystkim przez bezpośrednio sąsiadujące od jednego do trzech słów, podczas gdy sens słowa może być określony przez słowa znajdujące się dalej . Wskaźnik sukcesu algorytmów oznaczania części mowy jest obecnie znacznie wyższy niż w przypadku WSD, przy czym najnowocześniejszy stan techniki wynosi około 96% lub lepszy, w porównaniu z mniej niż 75% dokładnością w ujednoznacznieniu sensu słów z uczeniem nadzorowanym . Te liczby są typowe dla języka angielskiego i mogą bardzo różnić się od tych dla innych języków.
Wariancja między sędziami
Kolejnym problemem jest rozbieżność między sędziami . Systemy WSD są zwykle testowane przez porównanie ich wyników z zadaniami z wynikami człowieka. Jednakże, podczas gdy przypisanie części mowy do tekstu jest stosunkowo łatwe, uczenie ludzi w zakresie oznaczania zmysłów okazało się znacznie trudniejsze. Podczas gdy użytkownicy mogą zapamiętać wszystkie możliwe części mowy, jakie może przyjąć słowo, często niemożliwe jest zapamiętanie wszystkich zmysłów, jakie może przyjąć słowo. Co więcej, ludzie nie zgadzają się co do zadania – podaj listę sensów i zdań, a ludzie nie zawsze zgadzają się co do tego, które słowo należy w jakim sensie.
Ponieważ wydajność człowieka służy jako standard, jest to górna granica wydajności komputera. Wydajność człowieka jest jednak znacznie lepsza przy rozróżnieniach gruboziarnistych niż drobnoziarnistych , więc ponownie dlatego badania nad rozróżnieniami gruboziarnistymi zostały przetestowane w ostatnich ćwiczeniach ewaluacyjnych WSD.
Pragmatyka
Niektórzy badacze sztucznej inteligencji, tacy jak Douglas Lenat, twierdzą, że nie można analizować znaczeń słów bez jakiejś formy zdroworozsądkowej ontologii . Ta kwestia językowa nazywa się pragmatyka . Zgodnie z ustaleniami badaczy, aby właściwie rozpoznać sens słów, trzeba znać fakty zdroworozsądkowe. Co więcej, czasami potrzebny jest zdrowy rozsądek, aby ujednoznacznić takie słowa jak zaimki w przypadku występowania w tekście anafor lub katafor .
Inwentaryzacja Sense i zależność zadaniowa algorytmów
Niezależny od zadania inwentarz sensów nie jest spójną koncepcją: każde zadanie wymaga własnego podziału znaczeń słów na sensy istotne dla zadania. Dodatkowo różne aplikacje mogą wymagać zupełnie różnych algorytmów. W tłumaczeniu maszynowym problem przybiera postać doboru słów docelowych. „Zmysły” to słowa w języku docelowym, które często odpowiadają znaczącym rozróżnieniom znaczeniowym w języku źródłowym („bank” można przetłumaczyć na francuski „banque” – to znaczy „bank finansowy” lub „rive” – czyli „brzeg rzeki”). W wyszukiwaniu informacji inwentarz sensów nie jest koniecznie wymagany, ponieważ wystarczy wiedzieć, że słowo jest użyte w tym samym znaczeniu w zapytaniu i wyszukiwanym dokumencie; jaki to sens, nie ma znaczenia.
Dyskretność zmysłów
Wreszcie samo pojęcie „ sensu słów ” jest śliskie i kontrowersyjne. Większość ludzi może zgadzać się co do rozróżnień na poziomie drobnoziarnistego homografu (np. długopis jako przyrząd do pisania lub załącznik), ale schodzą o jeden poziom w dół do drobnoziarnistej polisemii i pojawiają się nieporozumienia. Na przykład w Senseval-2, w którym zastosowano drobnoziarniste rozróżnienia sensów, adnotatorzy ludzie zgodzili się tylko w 85% wystąpień słów. Znaczenie słowa jest w zasadzie nieskończenie zmienne i zależne od kontekstu. Nie dzieli się łatwo na wyraźne lub dyskretne podznaczenia. Leksykografowie często odkrywają w korpusach luźne i nakładające się znaczenia słów, a standardowe lub konwencjonalne znaczenia rozszerzone, modulowane i wykorzystywane w oszałamiająco różnorodny sposób. Sztuka leksykografii polega na uogólnianiu z korpusu do definicji, które przywołują i wyjaśniają pełen zakres znaczeniowy słowa, sprawiając wrażenie, że słowa są semantycznie zachowane. Jednak wcale nie jest jasne, czy te same rozróżnienia znaczeniowe mają zastosowanie w zastosowaniach obliczeniowych , ponieważ decyzje leksykografów są zwykle kierowane innymi względami. W 2009 roku jako możliwe rozwiązanie problemu dyskrecji sensu zaproponowano zadanie nazwane substytucją leksykalną . Zadanie polega na zapewnieniu substytutu słowa w kontekście, który zachowuje znaczenie słowa oryginalnego (potencjalnie substytuty można wybrać z pełnego leksykonu języka docelowego, przezwyciężając w ten sposób dyskrecję).
Podejścia i metody
Istnieją dwa główne podejścia do WSD – podejścia głębokie i podejścia płytkie.
Głębokie podejścia zakładają dostęp do wszechstronnej wiedzy o świecie . Podejścia te generalnie nie są uważane za bardzo skuteczne w praktyce, głównie dlatego, że taki zasób wiedzy nie istnieje w formacie czytelnym dla komputera, poza bardzo ograniczonymi dziedzinami. Dodatkowo ze względu na długą tradycję w lingwistyce komputerowej próbowania takich podejść w zakresie wiedzy zakodowanej, a w niektórych przypadkach może być trudno odróżnić wiedzę związaną z wiedzą językową od wiedzy o świecie. Pierwsza próba była podjęta przez Margaret Masterman i jej współpracowników w Cambridge Language Research Unit w Anglii w latach pięćdziesiątych. W tej próbie wykorzystano jako dane wersję tezaurusa Rogeta w wersji z dziurkowanymi kartami i jego ponumerowane „głowy”, jako wskaźnik tematów i szukano powtórzeń w tekście, używając ustalonego algorytmu przecięcia. Nie było to bardzo udane, ale miało silne powiązania z późniejszą pracą, zwłaszcza z optymalizacją uczenia maszynowego metody tezaurusa Yarowsky'ego w latach 90. XX wieku.
Płytkie podejście nie próbuje zrozumieć tekstu, ale zamiast tego bierze pod uwagę otaczające słowa. Reguły te mogą być automatycznie wyprowadzone przez komputer, używając korpusu szkoleniowego słów oznaczonych ich znaczeniami. Podejście to, choć teoretycznie nie tak potężne, jak podejście głębokie, daje lepsze rezultaty w praktyce ze względu na ograniczoną wiedzę komputerową o świecie.
Istnieją cztery konwencjonalne podejścia do WSD:
- Metody słownikowe i oparte na wiedzy: Opierają się one przede wszystkim na słownikach, tezaurusach i leksykalnych bazach wiedzy , bez użycia jakichkolwiek dowodów korpusowych.
- Metody częściowo nadzorowane lub nadzorowane w minimalnym stopniu : wykorzystują drugorzędne źródło wiedzy, takie jak mały korpus z adnotacjami jako dane źródłowe w procesie ładowania początkowego lub korpus dwujęzyczny wyrównany do słów.
- Metody nadzorowane : wykorzystują korpusy z adnotacjami sensu, z których można trenować.
- Metody nienadzorowane : unikają (prawie) całkowicie zewnętrznych informacji i działają bezpośrednio z nieprzetworzonych, nieopisanych korpusów. Metody te znane są również pod nazwą dyskryminacji sensów słów .
Prawie wszystkie te podejścia działają poprzez zdefiniowanie okna zawierającego n słów wokół każdego słowa, które ma być ujednoznacznione w korpusie, i statystyczną analizę tych n otaczających słów. Dwa płytkie podejścia używane do trenowania, a następnie ujednoznacznienia to klasyfikatory Naiwnego Bayesa i drzewa decyzyjne . W ostatnich badaniach metody oparte na jądrze, takie jak maszyny wektorów pomocniczych , wykazały doskonałą wydajność w uczeniu nadzorowanym . Podejścia oparte na wykresach również zyskały dużą uwagę społeczności naukowej i obecnie osiągają wydajność zbliżoną do stanu techniki.
Metody oparte na słowniku i wiedzy
Algorytm Lesk jest nowatorski sposób sĹ,ownikowy. Opiera się na hipotezie, że słowa używane razem w tekście są ze sobą powiązane i że związek ten można zaobserwować w definicjach słów i ich sensach. Dwa (lub więcej) słowa są ujednoznacznione poprzez znalezienie pary znaczeń słownikowych, w których w definicjach słownikowych występuje największe zachodzenie na siebie słów. Na przykład, ujednoznaczniając słowa w „szyszka”, definicje odpowiednich sensów obejmują zarówno słowa wiecznie zielone, jak i drzewo (przynajmniej w jednym słowniku). Podobne podejście poszukuje najkrótszej ścieżki między dwoma słowami: drugie słowo jest iteracyjnie przeszukiwane wśród definicji każdego wariantu semantycznego pierwszego słowa, następnie wśród definicji każdego wariantu semantycznego każdego słowa w poprzednich definicjach i tak dalej. Wreszcie pierwsze słowo jest ujednoznaczniane poprzez wybór wariantu semantycznego, który minimalizuje odległość od pierwszego do drugiego słowa.
Alternatywą dla stosowania definicji jest rozważenie ogólnego pokrewieństwa ze znaczeniem słów i obliczenie podobieństwa semantycznego każdej pary sensów słów w oparciu o daną bazę wiedzy leksykalnej, taką jak WordNet . Z pewnym powodzeniem zastosowano metody oparte na wykresach, przypominające rozpowszechnienie badań aktywacyjnych z początków badań nad sztuczną inteligencją. Wykazano, że bardziej złożone podejścia oparte na wykresach działają prawie tak samo dobrze jak metody nadzorowane, a nawet przewyższają je w określonych dziedzinach. Ostatnio pojawiły się doniesienia, że proste miary łączności grafów , takie jak stopień , wykonują najnowocześniejsze WSD w obecności wystarczająco bogatej bazy wiedzy leksykalnej. Wykazano również, że automatyczne przenoszenie wiedzy w formie relacji semantycznych z Wikipedii do WordNet usprawnia proste metody oparte na wiedzy, umożliwiając im konkurowanie z najlepiej nadzorowanymi systemami, a nawet przewyższają je w warunkach specyficznych dla domeny.
Korzystanie z preferencji selekcyjnych (lub ograniczeń selekcyjnych) jest również przydatne, na przykład wiedząc, że zazwyczaj gotuje się jedzenie, można ujednoznacznić słowo bas w „Ja gotuję basy” (tzn. nie jest to instrument muzyczny).
Metody nadzorowane
Nadzorowane metody opierają się na założeniu, że sam kontekst może dostarczyć wystarczających dowodów, aby ujednoznacznić słowa (dlatego zdrowy rozsądek i rozumowanie są uważane za niepotrzebne). Prawdopodobnie każdy algorytm uczenia maszynowego został zastosowany do WSD, w tym powiązane techniki, takie jak wybór funkcji , optymalizacja parametrów i uczenie zespołowe . Wykazano, że jak dotąd najbardziej udanymi podejściami są maszyny wektorów nośnych i uczenie się oparte na pamięci , prawdopodobnie dlatego, że radzą sobie z wielowymiarowością przestrzeni cech. Jednak te nadzorowane metody podlegają nowemu wąskiemu gardłu w zdobywaniu wiedzy, ponieważ opierają się na znacznych ilościach ręcznie znakowanych korpusów do treningu, których tworzenie jest pracochłonne i kosztowne.
Metody częściowo nadzorowane
Ze względu na brak danych uczących wiele algorytmów ujednoznaczniania sensu słów korzysta z częściowo nadzorowanego uczenia się , które pozwala zarówno na dane oznaczone, jak i nieoznaczone. Algorytm Yarowsky Wczesny przykład takiego algorytmu na to. Wykorzystuje właściwości języków ludzkich „Jeden zmysł na kolokację” i „Jeden zmysł na dyskurs” w celu ujednoznacznienia sensu słów. Z obserwacji wynika, że słowa mają tendencję do przejawiania tylko jednego sensu w większości danego dyskursu i w danym zestawieniu.
Do ładowania rozpoczyna podejście z niewielką ilością danych nasion dla każdego słowa: albo ręcznie otagowanych przykładów szkoleniowych lub niewielkiej liczby reguł decyzyjnych murowany (na przykład „play” w kontekście „bas” prawie zawsze wskazuje na instrumencie). Nasiona są wykorzystywane do szkolenia wstępnego klasyfikatora przy użyciu dowolnej nadzorowanej metody. Ten klasyfikator jest następnie używany w nieoznakowanej części korpusu, aby wyodrębnić większy zestaw treningowy, w którym zawarte są tylko najbardziej pewne klasyfikacje. Proces powtarza się, każdy nowy klasyfikator jest szkolony na coraz większym korpusie szkoleniowym, aż cały korpus zostanie skonsumowany lub do osiągnięcia określonej maksymalnej liczby iteracji.
Inne techniki częściowo nadzorowane wykorzystują duże ilości nieoznakowanych korpusów w celu dostarczenia informacji o współwystępowaniu, która uzupełnia znakowane korpusy. Techniki te mogą potencjalnie pomóc w adaptacji nadzorowanych modeli do różnych dziedzin.
Ponadto niejednoznaczne słowo w jednym języku jest często tłumaczone na różne słowa w drugim języku, w zależności od sensu tego słowa. Dwujęzyczne korpusy dopasowane do słów zostały wykorzystane do wywnioskowania międzyjęzykowych rozróżnień sensów, rodzaju półnadzorowanego systemu.
Metody nienadzorowane
Uczenie się bez nadzoru jest największym wyzwaniem dla badaczy WSD. Podstawowym założeniem jest to, że podobne zmysły występują w podobnych kontekstach, a zatem zmysły mogą być wywoływane z tekstu przez grupowanie wystąpień słów przy użyciu pewnej miary podobieństwa kontekstu, zadanie określane jako indukcja sensu słowa lub dyskryminacja. Następnie nowe wystąpienia tego słowa można zaklasyfikować do najbliższych indukowanych skupień/zmysłów. Wydajność była niższa niż w przypadku innych metod opisanych powyżej, ale porównania są trudne, ponieważ wywoływane sensy muszą być odwzorowane na znany słownik sensów wyrazów. Jeśli mapowanie do zestawu sensów słownikowych nie jest pożądane, można przeprowadzić oceny oparte na klastrach (w tym pomiary entropii i czystości). Alternatywnie, metody indukcji sensu słów mogą być testowane i porównywane w aplikacji. Wykazano na przykład, że indukcja sensu słów poprawia klastrowanie wyników wyszukiwania w sieci poprzez zwiększenie jakości klastrów wyników i stopnia zróżnicowania list wyników. Oczekuje się, że uczenie się nienadzorowane pokona wąskie gardło w zdobywaniu wiedzy, ponieważ nie jest uzależnione od wysiłku manualnego.
Reprezentowanie słów z uwzględnieniem ich kontekstu za pomocą gęstych wektorów o stałym rozmiarze ( osadzanie słów ) stało się jednym z najbardziej podstawowych bloków w kilku systemach NLP. Mimo że większość tradycyjnych technik osadzania słów łączy słowa o wielu znaczeniach w jedną reprezentację wektorową, nadal można ich używać do ulepszania WSD. Oprócz technik osadzania słów, leksykalne bazy danych (np. WordNet , ConceptNet , BabelNet ) mogą również wspomagać nienadzorowane systemy w mapowaniu słów i ich znaczeń jako słowników. Niektóre techniki, które łączą leksykalne bazy danych i osadzanie wyrazów, są przedstawione w AutoExtend i Most Odpowiednie Sense Annotation (MSSA). W AutoExtend przedstawiają metodę, która rozdziela reprezentację wejściową obiektu na jej właściwości, takie jak słowa i ich znaczenia. AutoExtend wykorzystuje strukturę wykresu do odwzorowywania słów (np. tekst) i obiektów niebędących słowami (np. synsetów w WordNet ) jako węzłów oraz relacji między węzłami jako krawędzi. Relacje (krawędzie) w AutoExtend mogą wyrażać dodanie lub podobieństwo między jego węzłami. Pierwsza z nich oddaje intuicję stojącą za rachunkiem offsetowym, podczas gdy druga definiuje podobieństwo między dwoma węzłami. W MSSA nienadzorowany system uściślania wykorzystuje podobieństwo między znaczeniami słów w ustalonym oknie kontekstowym, aby wybrać najbardziej odpowiedni sens słów przy użyciu wstępnie wytrenowanego modelu osadzania słów i WordNet . Dla każdego okna kontekstowego MSSA oblicza ciężkości każdej definicji sens wyrazu poprzez uśrednienie wektory haseł swoich słów w wordnet na glos (czyli krótkie zdefiniowanie połysk i jeden lub więcej przykładów użycia) przy użyciu wstępnie przeszkolony zanurzeń słowo model. Te centroidy są później używane do wybierania sensu słowa o największym podobieństwie słowa docelowego do jego bezpośrednio sąsiadujących sąsiadów (tj. słów poprzednika i następnika). Gdy wszystkie słowa zostaną opatrzone adnotacjami i ujednoznacznieniem, można ich użyć jako korpusu szkoleniowego w dowolnej standardowej technice osadzania słów. W ulepszonej wersji MSSA może wykorzystywać osadzanie sensu słów, aby powtarzać proces ujednoznacznienia.
Inne podejścia
Inne podejścia mogą się różnić w swoich metodach:
- Ujednoznacznienie oparte na domenie;
- Identyfikacja dominujących sensów wyrazów;
- WSD z wykorzystaniem dowodów międzyjęzykowych.
- Rozwiązanie WSD w niezależnej językowo NLU Johna Balla łączące teorię Patom [1] i RRG (Role and Reference Grammar)
- Wnioskowanie o typach w gramatykach opartych na ograniczeniach
Inne języki
- Hindi : Brak zasobów leksykalnych w języku hindi utrudnił wykonywanie nadzorowanych modeli WSD, podczas gdy modele nienadzorowane cierpią z powodu rozległej morfologii. Możliwym rozwiązaniem tego problemu jest zaprojektowanie modelu WSD za pomocą równoległych korpusów . Utworzenie Hindi WordNet utorowało drogę dla kilku metod nadzorowanych, które, jak udowodniono, zapewniają większą dokładność w ujednoznacznianiu rzeczowników.
Lokalne utrudnienia i podsumowanie
Wąskie gardło w zdobywaniu wiedzy jest prawdopodobnie główną przeszkodą w rozwiązaniu problemu WSD. Metody nienadzorowane opierają się na wiedzy o sensach wyrazów, która jest tylko uboga w słowniki i leksykalne bazy danych. Nadzorowane metody zależą przede wszystkim od istnienia ręcznie adnotowanych przykładów dla każdego sensu słowa, co do tej pory można było spełnić tylko w przypadku kilku słów do celów testowych, jak to ma miejsce w ćwiczeniach Senseval .
Jednym z najbardziej obiecujących trendów w badaniach WSD jest wykorzystanie największego dostępnego korpusu, jakim jest sieć WWW , do automatycznego pozyskiwania informacji leksykalnych. WSD jest tradycyjnie rozumiane jako technologia inżynierii języka pośredniego, która może usprawnić aplikacje, takie jak wyszukiwanie informacji (IR). W tym przypadku jest jednak również odwrotnie: wyszukiwarki internetowe implementują proste i niezawodne techniki IR, które mogą z powodzeniem przeszukiwać sieć w celu uzyskania informacji do wykorzystania w WSD. Historyczny brak danych uczących spowodował pojawienie się nowych algorytmów i technik, jak opisano w Automatyczne pozyskiwanie korpusów ze znacznikami sensu .
Zewnętrzne źródła wiedzy
Wiedza jest podstawowym składnikiem WSD. Źródła wiedzy dostarczają danych niezbędnych do kojarzenia zmysłów ze słowami. Mogą się one różnić od korpusów tekstów, nieopisanych lub opatrzonych adnotacjami w znaczeniu słów, po słowniki do odczytu maszynowego, tezaurusy, glosariusze, ontologie itp. Można je sklasyfikować w następujący sposób:
Zbudowany:
Niestrukturalne:
- Zasoby kolokacyjne
- Inne zasoby (takie jak listy częstotliwości słów , stoplisty , etykiety domen itp.)
- Corpora : surowe korpusy i korpusy z adnotacjami sensu
Ocena
Porównywanie i ocena różnych systemów WSD jest niezwykle trudna ze względu na różne zestawy testów, inwentarze zmysłów i przyjęte zasoby wiedzy. Przed zorganizowaniem konkretnych kampanii ewaluacyjnych większość systemów była oceniana na wewnętrznych, często na małą skalę, zestawach danych . Aby przetestować swój algorytm, programiści powinni poświęcić swój czas na opisanie wszystkich wystąpień słów. A porównywanie metod nawet na tym samym korpusie nie jest dopuszczalne, jeśli istnieją różne inwentarze sensów.
W celu zdefiniowania wspólnych zbiorów danych i procedur ewaluacyjnych zorganizowano publiczne kampanie ewaluacyjne. Senseval (obecnie przemianowany na SemEval ) to międzynarodowy konkurs ujednoznacznienia znaczenia słów, organizowany co trzy lata od 1998 roku: Senseval-1 (1998), Senseval-2 (2001), Senseval-3 (2004) i jego następca, SemEval (2007) . Celem konkursu jest zorganizowanie różnych wykładów, przygotowanie i odręczne adnotowanie korpusu do testowania systemów, przeprowadzenie oceny porównawczej systemów WSD w kilku rodzajach zadań, w tym wszystkich wyrazów i próbki leksykalnej WSD dla różnych języków, a od niedawna , nowe zadania, takie jak semantyczne oznaczanie ról , glosy WSD, substytucja leksykalna itp. Systemy zgłaszane do oceny do tych konkursów zwykle integrują różne techniki i często łączą metody nadzorowane i oparte na wiedzy (szczególnie w celu uniknięcia złych wyników w przypadku braku przykładów szkoleniowych) .
W ostatnich latach 2007-2012 zwiększyły się wybory zadań ewaluacyjnych WSD, a kryterium oceny WSD zmieniło się drastycznie w zależności od wariantu zadania ewaluacyjnego WSD. Poniżej wymieniono różnorodne zadania WSD:
Wybór projektu zadania
Wraz z rozwojem technologii zadania dezambiguacji słów (WSD) rozwijają się w różnych odmianach w kierunku różnych kierunków badawczych i dla większej liczby języków:
-
Klasyczne, jednojęzyczne zadania ewaluacyjne WSD wykorzystują WordNet jako inwentarz zmysłów i są w dużej mierze oparte na nadzorowanej / częściowo nadzorowanej klasyfikacji z korpusami z adnotacjami manualnymi:
- Klasyczne angielskie WSD wykorzystuje Princeton WordNet w sensie inwentaryzacji, a podstawowe dane wejściowe klasyfikacji są zwykle oparte na korpusie SemCor .
- Klasyczny WSD dla innych języków wykorzystuje ich odpowiedni WordNet jako inwentarze zmysłów i korpusy z adnotacjami sensów oznakowane w odpowiednich językach. Często badacze opuścili również korpus SemCor i dopasowywali biteksty z angielskim jako językiem źródłowym
- Wielojęzyczne zadanie ewaluacyjne WSD koncentruje się również na WSD w 2 lub więcej językach jednocześnie. W przeciwieństwie do wielojęzycznych zadań WSD, zamiast ręcznie podawać przykłady z adnotacjami sensu dla każdego sensu wieloznacznego rzeczownika, inwentarz sensów budowany jest na podstawie równoległych korpusów, np. korpusu Europarl.
- Wielojęzyczne zadania ewaluacyjne WSD koncentrowały się na WSD w 2 lub więcej językach jednocześnie, używając odpowiednich WordNet jako swoich inwentarzy zmysłów lub BabelNet jako wielojęzycznych inwentarzy zmysłów. Wyewoluował z zadań ewaluacyjnych Translation WSD, które miały miejsce w Senseval-2. Popularnym podejściem jest przeprowadzanie jednojęzycznego WSD, a następnie mapowanie sensów języka źródłowego na odpowiednie tłumaczenia słów docelowych.
- Zadanie Word Sense Induction and Disambiguation to połączone zadanie ewaluacyjne, w którym inwentarz sensów jest najpierw indukowany ze ustalonego zbioru uczącego danych, składającego się ze słów wieloznacznych i zdania, w którym się pojawiły, a następnie WSD jest wykonywane na innym zbiorze danych testowych .
Oprogramowanie
- Babelfy, ujednolicony, najnowocześniejszy system do wielojęzycznego ujednoznaniania słów i łączenia jednostek
- BabelNet API, Java API do opartej na wiedzy wielojęzycznej dezambiguacji Word Sense w 6 różnych językach przy użyciu sieci semantycznej BabelNet
- WordNet::SenseRelate, projekt, który obejmuje bezpłatne systemy typu open source do ujednoznaczniania sensu słów i uściślania sensu prób leksykalnych
- UKB: Graph Base WSD, zbiór programów do wykonywania opartego na wykresie ujednoznacznienia sensu słów i leksykalnego podobieństwa/pokrewieństwa przy użyciu istniejącej leksykalnej bazy wiedzy
- pyWSD, pythonowe implementacje technologii Word Sense Disambiguation (WSD)
Zobacz też
- Dwuznaczność
- Kontrolowany język naturalny
- Łączenie jednostek
- Algorytm Leska
- Substytucja leksykalna
- Oznaczanie części mowy
- Polisemia
- Semeval
- Unifikacja semantyczna
- Wykładnia sądowa
- Ujednoznacznienie granicy zdania
- Niejednoznaczność składni
- Sens słów
- Indukcja sensu słowa
Uwagi
Prace cytowane
- Agirre, E.; Lopez de Lacalle, A.; Soroa, A. (2009). „WSD oparte na wiedzy w określonych domenach: lepsze działanie niż ogólne nadzorowane WSD” (PDF) . Proc. IJCAI .
- Agirre, E.; Pan Stevenson. 2006. Źródła wiedzy o WSD. W ujednoznacznieniu sensu słów: algorytmy i aplikacje , E. Agirre i P. Edmonds, wyd. Springer, Nowy Jork, NY.
- Bar-Hillel, Y. (1964). Język i informacja . Czytanie, MA: Addison-Wesley.
- Buitelaar, P.; B. Magnini, C. Strapparava i P. Vossen. 2006. WSD specyficzne dla domeny. Ujednoznacznienie w sensie Word Sense: algorytmy i aplikacje, E. Agirre i P. Edmonds, wyd. Springer, Nowy Jork, NY.
- Chan, YS; HT Ng. 2005. Zwiększenie dezambiguacji sensu słów za pomocą tekstów równoległych. W materiałach z 20. Krajowej Konferencji na temat Sztucznej Inteligencji (AAAI, Pittsburgh, PA).
- Edmonds, P. 2000. Projektowanie zadania dla SENSEVAL-2 . Tech. Notatka. Uniwersytet w Brighton, Brighton. Wielka Brytania
- Fellbauma, Christiane (1997). „Analiza zadania pisma ręcznego”. Proc. warsztatów ANLP-97 na temat tagowania tekstu za pomocą semantyki leksykalnej: dlaczego, co i jak? Waszyngton DC, USA .
- Gliozzo, A.; B. Magnini i C. Strapparava. 2004. Nienadzorowana ocena istotności domeny dla ujednoznacznienia sensu słów . W materiałach z konferencji 2004 na temat metod empirycznych w przetwarzaniu języka naturalnego (EMNLP, Barcelona, Hiszpania).
- Ide, N.; T. Erjavec, D. Tufis. 2002. Dyskryminacja zmysłów z korpusami równoległymi . W Proceedings of ACL Workshop na temat ujednoznacznienia sensu słów: ostatnie sukcesy i przyszłe kierunki (Filadelfia, PA).
- Kilgarriff, A. 1997. Nie wierzę w sens słów . Komputer. Człowiek. 31 ust. 2, s. 91–113.
- Kilgarriff, A.; G. Grefenstette'a. 2003. Wprowadzenie do wydania specjalnego w sieci jako korpusu . Lingwistyka komputerowa 29(3), s. 333–347
- Kilgarriff, Adam; Joseph Rosenzweig, English Senseval: Raport i wyniki maj-czerwiec, 2000, University of Brighton
- Lapata, M.; i F. Keller. 2007. Podejście wyszukiwania informacji do rankingu sensów . W Proceedings of the Human Language Technology Conference of the North American Chapter Association for Computational Linguistics (HLT-NAACL, Rochester, NY).
- Lenat, D. „Komputery kontra zdrowy rozsądek” . Źródło 2008-12-10 . (GoogleTachTalks na YouTube)
- Lenat, D.; RV Guha. 1989. Budowanie dużych systemów opartych na wiedzy, Addison-Wesley
- Lesk; M. 1986. Automatyczne ujednoznacznienie sensów za pomocą słowników odczytywanych maszynowo: Jak odróżnić szyszkę sosny od szyszki lodów . W proc. SIGDOC-86: V Międzynarodowa Konferencja Dokumentacji Systemowej, Toronto, Kanada.
- Litkowski, KC 2005. Leksykony i słowniki obliczeniowe. W Encyklopedii Języka i Lingwistyki (2nd ed.), KR Brown, Ed. Wydawnictwo Elsevier, Oksford, Wielka Brytania
- Magniniego, B; G. Cavaglià. 2000. Integracja kodów pól tematycznych z WordNetem. W materiałach z 2. konferencji na temat zasobów językowych i oceny (LREC, Ateny, Grecja).
- McCarthy, D.; R. Koeling, J. Weeds, J. Carroll. 2007. Nienadzorowane przyswajanie dominujących sensów słów . Językoznawstwo komputerowe 33(4): 553-590.
- McCarthy, D.; R. Navigli. 2009. The English Lexical Substitution Task , Language Resources and Evaluation, 43(2), Springer.
- Mihalcea, R. 2007. Korzystanie z Wikipedii do automatycznego ujednoznacznienia sensu wyrazów . W proc. North American Chapter of the Association for Computational Linguistics (NAACL 2007), Rochester, kwiecień 2007.
- Mohammad, S; G. Hirsta. 2006. Określanie dominacji sensu słów za pomocą tezaurusa . W materiałach z 11. Konferencji na temat europejskiego oddziału Association for Computational Linguistics (EACL, Trento, Włochy).
- Navigli, R. 2006. Znaczące grupowanie zmysłów pomaga zwiększyć wydajność ujednoznaczniania sensu słów . Proc. z 44. dorocznego spotkania Association for Computational Linguistics połączonego z 21. Międzynarodową Konferencją Lingwistyki Komputerowej (COLING-ACL 2006), Sydney, Australia.
- Navigli, R.; A. Di Marco. Grupowanie i dywersyfikowanie wyników wyszukiwania w sieci dzięki indukcji wyrazów opartej na wykresach . Lingwistyka komputerowa, 39(3), MIT Press, 2013, s. 709-754.
- Navigli, R.; G. Crisafulli. Wywoływanie funkcji Word Senses w celu poprawy klastrowania wyników wyszukiwania w sieci Web . Proc. konferencji 2010 Conference on Empirical Methods in Natural Language Processing (EMNLP 2010), MIT Stata Center, Massachusetts, USA.
- Navigli, R.; M. Lapata. Eksperymentalne badanie łączności grafów dla nienadzorowanego ujednoznacznienia sensu słów . IEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI), 32(4), IEEE Press, 2010.
- Navigli, R.; K. Litkowski, O. Hargraves. 2007. SemEval-2007 Zadanie 07: Gruboziarniste zadanie na wszystkie słowa w języku angielskim . Proc. warsztatów Semeval-2007 ( SemEval ), na 45. dorocznym spotkaniu Association for Computational Linguistics (ACL 2007), Praga, Czechy.
- Navigli, R.;P. Velardiego. 2005. Strukturalne połączenia semantyczne: oparte na wiedzy podejście do dezambiguacji sensu wyrazu . IEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI), 27(7).
- Palmer, M.; O. Babko-Malaya i HT Dang. 2004. Różne granulacje sensu dla różnych zastosowań . W materiałach z drugiego warsztatu nt. skalowalnych systemów rozumienia języka naturalnego w HLT/NAACL (Boston, MA).
- Ponzetto, SP; R. Navigli. Bogata w wiedzę dezambiguacja Word Sense rywalizująca z systemami nadzorowanymi . W proc. 48th Annual Meeting of the Association for Computational Linguistics (ACL), 2010.
- Pradhan, S.; E. Loper, D. Dligach, M. Palmer. 2007. SemEval-2007 Zadanie 17: Próbka leksykalna języka angielskiego, SRL i wszystkie słowa . Proc. Semeval-2007 Workshop (SEMEVAL), na 45. dorocznym spotkaniu Association for Computational Linguistics (ACL 2007), Praga, Czechy.
- Schütze, H. 1998. Automatyczna dyskryminacja sensu słów . Lingwistyka komputerowa, 24 (1): 97-123.
- Śnieg, R.; S. Prakash, D. Jurafsky, AY Ng. 2007. Nauka łączenia zmysłów słów , Materiały ze wspólnej konferencji 2007 nt. metod empirycznych w przetwarzaniu języka naturalnego i komputerowego uczenia się języka naturalnego (EMNLP-CoNLL).
- Snyder, B.; Pan Palmer. 2004. Zadanie wszystkich słów w języku angielskim . W proc. III Międzynarodowych Warsztatów Ewaluacji Systemów Semantycznej Analizy Tekstu (Senseval-3), Barcelona, Hiszpania.
- Tkacz, Warren (1949). "Tłumaczenie" (PDF) . w Locke, WN; Booth, AD (red.). Tłumaczenie maszynowe języków: czternaście esejów . Cambridge, MA: MIT Press.
- Wilks, Y.; B. Slator, L. Guthrie. 1996. Elektryczne słowa: słowniki, komputery i znaczenia. Cambridge, MA: MIT Press.
- Yarowsky, D. Ujednoznacznienie sensu słowa przy użyciu modeli statystycznych kategorii Rogeta wytrenowanych na dużych korpusach . W proc. 14. konferencji lingwistyki komputerowej (COLING), 1992.
- Yarowsky, D. 1995. Nienadzorowane ujednoznacznienie sensu słów rywalizujące z metodami nadzorowanymi . W proc. 33. Dorocznego Zjazdu Stowarzyszenia Lingwistyki Komputerowej.
Linki zewnętrzne i sugerowana lektura
- Lingwistyka komputerowa Wydanie specjalne dotyczące ujednoznacznienia sensu słów (1998)
- Ćwiczenia ewaluacyjne dla dezambiguacji Word Sense Standardowe benchmarki de facto dla systemów WSD.
- Roberto Navigli. Ujednoznacznienie sensu słów: ankieta , ACM Computing Surveys, 41(2), 2009, s. 1-69. Najnowocześniejszy stan wiedzy w tej dziedzinie.
- Ujednoznacznienie sensu słów zgodnie z definicją w Scholarpedia
- Ujednoznacznienie sensu słów: stan wiedzy ( PDF) Kompleksowy przegląd Prof. Nancy Ide i Jean Véronis (1998).
- Samouczek dotyczący dezambiguacji w sensie Word Sense , Rada Mihalcea i Ted Pedersen (2005).
- No, no, no... Ujednoznacznienie sensu słów z Google n-Grams , Craig Trim (2013).
- Word Sense Disambiguation: Algorithms and Applications , pod redakcją Eneko Agirre i Philipa Edmondsa (2006), Springer. Obejmuje całą dziedzinę z rozdziałami nadesłanymi przez czołowych badaczy. Strona książki www.wsdbook.org
- Bar-Hillel, Jehoszua. 1964. Język i informacja. Nowy Jork: Addison-Wesley.
- Edmonds, Philip i Adam Kilgarriff. 2002. Wprowadzenie do specjalnego zagadnienia dotyczącego oceny systemów ujednoznacznienia sensu słów. Journal of Natural Language Engineering, 8(4):279-291.
- Edmonds, Filip. 2005. Ujednoznacznienie leksykalne. Encyklopedia Języka i Lingwistyki Elsevier, wyd. 2, wyd. przez Keitha Browna, 607–23. Oksford: Elsevier.
- Ide, Nancy i Jean Veronis. 1998. Ujednoznacznienie sensu słowa: stan wiedzy. Językoznawstwo komputerowe, 24(1):1-40.
- Jurafsky, Daniela i Jamesa H. Martina. 2000. Przetwarzanie mowy i języka. New Jersey, USA: Prentice Hall.
- Litkowski, KC 2005. Leksykony i słowniki obliczeniowe. W Encyklopedii Języka i Lingwistyki (2nd ed.), KR Brown, Ed. Wydawnictwo Elsevier, Oxford, Wielka Brytania, 753-761.
- Manning, Christopher D. i Hinrich Schütze. 1999. Podstawy statystycznego przetwarzania języka naturalnego. Cambridge, MA: MIT Press. Podstawy statystycznego przetwarzania języka naturalnego
- Michałcea, Rada. 2007. Ujednoznacznienie sensu słowa. Encyklopedia uczenia maszynowego. Springer-Verlag.
- Resnik, Filip i David Yarowsky. 2000. Systemy rozróżniające i rozróżnianie sensów: Nowe metody oceny ujednoznacznienia sensów wyrazów, Inżynieria języka naturalnego, 5(2):113-133. [2]
- Yarowski, Dawid. 2001. Ujednoznacznienie sensu słowa. Handbook of Natural Language Processing, wyd. Dale i wsp., 629-654. Nowy Jork: Marcel Dekker.