Indukcja słowa sensu - Word-sense induction

W lingwistyki , indukcja słowo sens (WSI) lub dyskryminacja jest otwarty Problem z przetwarzaniem języka naturalnego , który dotyczy automatycznej identyfikacji zmysłów danego słowa (tzn znaczeń ). Biorąc pod uwagę, że wynikiem indukcji wyrazu sensu jest zbiór sensów słowa docelowego (inwentarza sensu), zadanie to jest ściśle powiązane z zadaniem dezambiguacji wyrazu sensu (WSD), które opiera się na predefiniowanym inwentarzu sensu i ma na celu rozwiązanie dwuznaczność słów w kontekście.

Podejścia i metody

Wynikiem algorytmu indukcji słowa sens jest grupowanie kontekstów, w których występuje słowo docelowe lub grupowanie słów powiązanych ze słowem docelowym. W literaturze zaproponowano trzy główne metody:

Klastrowanie kontekstowe
Grupowanie słów
Wykresy współwystępowania

Klastrowanie kontekstowe

Hipoteza leżąca u podstaw tego podejścia jest taka, że słowa są semantycznie podobne, jeśli pojawiają się w podobnych dokumentach, w podobnych oknach kontekstowych lub w podobnych kontekstach składniowych. Każde wystąpienie słowa docelowego w korpusie jest reprezentowane jako wektor kontekstowy . Te wektory kontekstowe mogą być wektorami pierwszego rzędu, które bezpośrednio reprezentują dany kontekst, lub wektorami drugiego rzędu, tj. konteksty słowa docelowego są podobne, jeśli ich słowa mają tendencję do współwystępowania razem. Wektory są następnie grupowane w grupy, z których każda identyfikuje sens słowa docelowego. Dobrze znanym podejściem do grupowania kontekstów jest algorytm dyskryminacji grup kontekstowych oparty na metodach obliczania dużych macierzy.

Grupowanie słów

Grupowanie słów to inne podejście do indukowania sensów słów. Składa się z grupujących słów, które są semantycznie podobne, a zatem mogą nosić określone znaczenie. Algorytm Lin jest prototypowym przykładem grupowania słów, które opiera się na statystykach zależności składniowych, które występują w korpusie w celu wygenerowania zestawów słów dla każdego odkrytego znaczenia słowa docelowego. Clustering By Committee (CBC) również wykorzystuje konteksty syntaktyczne, ale wykorzystuje macierz podobieństwa do kodowania podobieństw między słowami i opiera się na pojęciu komitetów, aby uzyskać różne znaczenia słowa będącego przedmiotem zainteresowania. Takie podejścia są trudne do uzyskania na dużą skalę dla wielu dziedzin i języków.

Wykresy współwystępowania

Główna hipoteza grafów współwystępowania zakłada, że semantykę słowa można przedstawić za pomocą grafu współwystępowania , którego wierzchołki są współwystępowaniami, a krawędzie są relacjami współwystępowania. Podejścia te są związane z metodami grupowania słów, w których współwystępowanie słów można uzyskać na podstawie relacji gramatycznych lub kolokacyjnych. HyperLex to udane podejście do algorytmu grafowego, opartego na identyfikacji węzłów w grafach współwystępowania, które muszą radzić sobie z koniecznością dostrojenia dużej liczby parametrów. Aby poradzić sobie z tym problemem, zaproponowano kilka algorytmów opartych na wykresach, które opierają się na prostych wzorach wykresów, a mianowicie grupowaniu krzywizny, kwadratach, trójkątach i diamentach (SquaT++) oraz zrównoważonym grupowaniu maksymalnego drzewa rozpinającego (B-MST). Wzorce mają na celu identyfikację znaczeń przy użyciu lokalnych właściwości strukturalnych grafu współwystępowania. Zrandomizowanym algorytmem, który dzieli wierzchołki grafu przez iteracyjne przesyłanie głównego komunikatu (tj. sensu słów) do sąsiednich wierzchołków, są chińskie szepty. Dzięki zastosowaniu grafów współwystępowania wykazano, że podejścia osiągają najnowocześniejsze wyniki w standardowych zadaniach ewaluacyjnych.

Aplikacje

Wykazano, że indukcja wyrazu z sensem jest korzystna dla pobierania informacji z sieci, gdy stosowane są wysoce niejednoznaczne zapytania.
Proste algorytmy indukcji wyrazu sensu znacznie zwiększają klastrowanie wyników wyszukiwania w sieci Web i poprawiają dywersyfikację wyników wyszukiwania zwracanych przez wyszukiwarki takie jak Yahoo!
W celu wzbogacenia zasobów leksykalnych, takich jak WordNet, zastosowano indukcję Word-Sense .

Oprogramowanie

SenseClusters to bezpłatny pakiet oprogramowania typu open source, który umożliwia zarówno klastrowanie kontekstowe, jak i klastrowanie słów.

Languages

In other projects