Rozpoznawanie nazwanych podmiotów - Named-entity recognition

Uznanie nazwanego podmiot ( NER ) (znany również jako (nazwie) identyfikacji podmiotu , podmiot wyrwy i wydobycia jednostki ) to podzadanie od ekstrakcji informacji , która stara się zlokalizować i sklasyfikować nazwanych podmioty wymienione w tekście niestrukturalnych w predefiniowanych kategorii, takich jak osoby nazwy, organizacje, lokalizacje, kody medyczne , wyrażenia czasowe, ilości, wartości pieniężne, procenty itp.

Większość badań nad systemami NER/NEE opiera się na analizie bloku tekstu bez adnotacji, takiego jak ten:

Jim kupił 300 akcji Acme Corp. w 2006 roku.

Oraz utworzenie bloku tekstu z adnotacjami, który podkreśla nazwy jednostek:

[Jim] Osoba kupiła 300 akcji [Acme Corp.] Organizacji w [2006] Czas .

W tym przykładzie wykryto i sklasyfikowano nazwisko osoby składające się z jednego symbolu, dwuznacznikowej nazwy firmy i wyrażenia czasowego.

Najnowocześniejsze systemy NER dla języka angielskiego zapewniają wydajność zbliżoną do ludzkiej. Na przykład najlepszy system wchodzący do MUC-7 uzyskał 93,39% miary F, podczas gdy ludzie zajmujący się adnotacjami uzyskali 97,60% i 96,95%.

Platformy rozpoznawania nazwanych podmiotów

Wybitne platformy NER obejmują:

  • GATE obsługuje NER w wielu językach i domenach od razu po wyjęciu z pudełka, można go używać za pomocą interfejsu graficznego i Java API.
  • OpenNLP obejmuje oparte na regułach i statystyczne rozpoznawanie nazwanych jednostek.
  • SpaCy oferuje szybki statystyczny NER, a także wizualizator nazwanych jednostek typu open source.

Definicja problemu

W wyrażeniu named entity , słowo named ogranicza zadanie do tych jednostek, dla których jeden lub wiele ciągów, takich jak słowa lub frazy, oznacza (dość) konsekwentnie jakiś odniesienie. Jest to ściśle związane ze sztywnymi desygnatorami zdefiniowanymi przez Kripkego , chociaż w praktyce NER ma do czynienia z wieloma nazwami i desygnatami, które nie są filozoficznie „sztywne”. Na przykład firma motoryzacyjna stworzona przez Henry'ego Forda w 1903 roku może być określana jako Ford lub Ford Motor Company , chociaż „Ford” może odnosić się również do wielu innych podmiotów (zob. Ford ). Sztywne desygnatory obejmują nazwy własne, a także terminy dla niektórych gatunków i substancji biologicznych, ale wykluczają zaimki (takie jak „to”; patrz rozdzielczość współreferencyjna ), opisy, które wybierają odniesienie na podstawie jego właściwości (patrz również De dicto i de re ), i nazwy rodzajów rzeczy w przeciwieństwie do osób (na przykład „Bank”).

Pełne rozpoznawanie nazwanych encji jest często rozbijane, koncepcyjnie i prawdopodobnie także w implementacjach, na dwa odrębne problemy: wykrywanie nazw i klasyfikacja nazw według typu encji, do której się odnoszą (np. osoba, organizacja lub lokalizacja). Pierwsza faza jest zwykle uproszczona do problemu segmentacji: nazwy są definiowane jako ciągłe ciągi tokenów, bez zagnieżdżania, tak że „Bank of America” jest pojedynczą nazwą, pomijając fakt, że wewnątrz tej nazwy podłańcuch „Ameryka” sama jest nazwą. Ten problem segmentacji jest formalnie podobny do chunkingu . Druga faza wymaga wyboru ontologii, za pomocą której można organizować kategorie rzeczy.

Wyrażenia czasowe i niektóre wyrażenia liczbowe (np. pieniądze, procenty itp.) mogą być również uważane za nazwane jednostki w kontekście zadania NER. Podczas gdy niektóre przypadki tego typu są dobrymi przykładami sztywnych desygnatorów (np. rok 2001), istnieje również wiele niepoprawnych (np. biorę wakacje w „czerwcu”). W pierwszym przypadku rok 2001 odnosi się do 2001 roku kalendarza gregoriańskiego . W drugim przypadku miesiąc czerwiec może odnosić się do miesiąca nieokreślonego roku ( poprzedni czerwiec , następny czerwiec , każdy czerwiec itd.). Można argumentować, że definicja podmiotu nazwanego jest w takich przypadkach poluzowana ze względów praktycznych. Definicja terminu nazwany podmiot nie jest zatem ścisła i często musi być wyjaśniana w kontekście, w którym jest używany.

W literaturze zaproponowano pewne hierarchie nazwanych typów jednostek. Kategorie BBN , zaproponowane w 2002 roku, służą do odpowiadania na pytania i składają się z 29 typów i 64 podtypów. Rozszerzona hierarchia Sekine, zaproponowana w 2002 roku, składa się z 200 podtypów. Niedawno, w 2011 r., Ritter zastosował hierarchię opartą na typowych typach encji Freebase w przełomowych eksperymentach na NER nad tekstem w mediach społecznościowych .

Ocena formalna

Aby ocenić jakość wyników systemu NER, zdefiniowano kilka mierników. Zwykłe miary to precyzja, przypomnienie i wynik F1 . Jednak pozostaje kilka kwestii dotyczących sposobu obliczania tych wartości.

Te miary statystyczne działają dość dobrze w oczywistych przypadkach znalezienia lub pominięcia rzeczywistego bytu; oraz za znalezienie nie-bytu. Jednak NER może zawieść na wiele innych sposobów, z których wiele jest prawdopodobnie „częściowo poprawnych” i nie należy ich uważać za całkowity sukces lub porażkę. Na przykład identyfikacja rzeczywistego podmiotu, ale:

  • z mniejszą liczbą żetonów niż jest to pożądane (na przykład brak ostatniego żetonu „John Smith, MD”)
  • z większą liczbą żetonów niż jest to pożądane (na przykład, w tym pierwsze słowo „Uniwersytet MD”)
  • partycjonowanie sąsiednich jednostek w inny sposób (na przykład traktowanie "Smith, Jones Robinson" jako 2 vs. 3 jednostki)
  • przypisanie mu zupełnie niewłaściwego typu (na przykład nazwanie nazwiska organizacją)
  • przypisanie mu powiązanego, ale niedokładnego typu (na przykład „substancja” vs. „narkotyk” lub „szkoła” vs. „organizacja”)
  • poprawne identyfikowanie encji, gdy użytkownik chciał mieć encję o mniejszym lub większym zakresie (na przykład identyfikowanie „James Madison” jako nazwy osobistej, gdy jest to część „James Madison University”). Niektóre systemy NER nakładają ograniczenie, że podmioty nigdy nie mogą się nakładać ani zagnieżdżać, co oznacza, że ​​w niektórych przypadkach należy dokonywać arbitralnych lub specyficznych dla zadania wyborów.

Jedną ze zbyt prostych metod pomiaru dokładności jest po prostu policzenie, jaka część wszystkich tokenów w tekście została poprawnie lub niepoprawnie zidentyfikowana jako część odwołań do jednostek (lub jako jednostki właściwego typu). Wiąże się to z co najmniej dwoma problemami: po pierwsze, zdecydowana większość tokenów w rzeczywistym tekście nie jest częścią nazw jednostek, więc dokładność linii bazowej (zawsze przewidywaj „nie jest encją”) jest ekstrawagancko wysoka, zwykle >90%; a po drugie, błędne przewidywanie pełnego zakresu nazwy podmiotu nie jest właściwie karane (znalezienie tylko imienia osoby, gdy następuje po nim jego nazwisko, może być ocenione z dokładnością ½).

Na konferencjach naukowych, takich jak CoNLL, wariant wyniku F1 został zdefiniowany w następujący sposób:

  • Dokładność to liczba przewidywanych zakresów nazw jednostek, które są dokładnie zgodne z zakresami w danych oceny złotego standardu . Np. gdy przewidywane jest [ Osoba Hans] [ Osoba Blick], ale wymagane było [ Osoba Hans Blick], dokładność przewidywanego nazwiska wynosi zero. Dokładność jest następnie uśredniana dla wszystkich przewidywanych nazw jednostek.
  • Przypomnijmy, podobnie jest liczba nazwisk w standardzie złota, które pojawiają się w dokładnie tym samym miejscu w prognozach.
  • Wynik F1 to średnia harmoniczna tych dwóch.

Z powyższej definicji wynika, że ​​każda predykcja, która pominie pojedynczy token, zawiera fałszywy token lub ma niewłaściwą klasę, jest poważnym błędem i nie wpływa pozytywnie ani na precyzję, ani na przypomnienie. Można więc powiedzieć, że środek ten jest pesymistyczny: może się zdarzyć, że wiele „błędów” jest bliskich poprawie i może być adekwatnych do danego celu. Na przykład jeden system może zawsze pomijać tytuły takie jak „Pani”. lub „Ph.D.”, ale należy je porównać z systemem lub danymi opartymi na faktach, które wymagają uwzględnienia tytułów. W takim przypadku każda taka nazwa jest traktowana jako błąd. Ze względu na takie kwestie, ważne jest, aby właściwie zbadać rodzaje błędów i zdecydować, jak ważne są dane cele i wymagania.

Zaproponowano modele oceny oparte na dopasowywaniu token po tokenie. Takim modelom można częściowo przypisać nakładające się dopasowania (np. przy użyciu kryterium Skrzyżowanie nad Unią ). Pozwalają na dokładniejszą ocenę i porównanie systemów odciągowych.

Podejścia

Stworzono systemy NER wykorzystujące techniki oparte na gramatyce językowej oraz modele statystyczne, takie jak uczenie maszynowe . Ręcznie wykonane systemy oparte na gramatyce zazwyczaj uzyskują większą precyzję, ale kosztem mniejszej pamięci i miesięcy pracy doświadczonych lingwistów obliczeniowych . Statystyczne systemy NER zazwyczaj wymagają dużej ilości ręcznie adnotowanych danych treningowych. Zasugerowano podejścia częściowo nadzorowane , aby uniknąć części wysiłku związanego z adnotacją.

Do wykonania uczenia maszynowego NER zastosowano wiele różnych typów klasyfikatorów, przy czym typowym wyborem są warunkowe pola losowe .

Domeny problemowe

W 2001 roku badania wykazały, że nawet najnowocześniejsze systemy NER są kruche, co oznacza, że ​​systemy NER opracowane dla jednej domeny zazwyczaj nie działają dobrze w innych. Dostrajanie systemów NER tak, aby działały dobrze w nowej domenie, wymaga znacznego wysiłku; dotyczy to zarówno systemów statystycznych opartych na regułach, jak i możliwych do trenowania.

Wczesne prace nad systemami NER w latach 90. miały na celu przede wszystkim wydobywanie z artykułów dziennikarskich. Następnie skupiono się na przetwarzaniu depesz i raportów wojskowych. Późniejsze etapy oceny automatycznej ekstrakcji treści (ACE) obejmowały również kilka rodzajów nieformalnych stylów tekstu, takich jak blogi internetowe i transkrypcje tekstowe z konwersacyjnych rozmów telefonicznych. Od około 1998 roku istnieje duże zainteresowanie identyfikacją bytów w środowiskach biologii molekularnej , bioinformatyki i medycznego przetwarzania języka naturalnego . Najczęstszym przedmiotem zainteresowania w tej domenie były nazwy genów i produktów genów. Dużym zainteresowaniem cieszy się również rozpoznanie substancji chemicznych i leków w kontekście konkursu CHEMDNER, w którym bierze udział 27 zespołów.

Aktualne wyzwania i badania

Pomimo wysokich liczb F1 zgłoszonych w zestawie danych MUC-7, problem rozpoznawania nazwanych jednostek jest daleki od rozwiązania. Główne wysiłki są skierowane na zmniejszenie pracochłonności adnotacji poprzez zastosowanie częściowo nadzorowanego uczenia się , solidnej wydajności w różnych domenach i skalowania do drobnoziarnistych typów jednostek. W ostatnich latach wiele projektów przeszło na crowdsourcing , który jest obiecującym rozwiązaniem umożliwiającym uzyskanie wysokiej jakości zagregowanych ocen ludzkich dla nadzorowanych i częściowo nadzorowanych podejść do uczenia maszynowego w NER. Innym trudnym zadaniem jest opracowanie modeli radzenia sobie ze złożonymi językowo kontekstami, takimi jak Twitter i zapytania wyszukiwania.

Jest kilku badaczy, którzy dokonali porównań dotyczących wydajności NER z różnych modeli statystycznych, takich jak HMM ( ukryty model Markowa ), ME ( maksymalna entropia ) i CRF ( warunkowe pola losowe ) oraz zestawy cech. Niektórzy badacze zaproponowali niedawno oparty na wykresach półnadzorowany model uczenia się dla zadań NER specyficznych dla języka.

Ostatnio pojawiające się zadanie identyfikacji „ważnych wyrażeń” w tekście i powiązania ich z Wikipedią może być postrzegane jako przykład niezwykle precyzyjnego rozpoznawania nazwanych jednostek, gdzie typami są rzeczywiste strony Wikipedii opisujące (potencjalnie niejednoznaczne) pojęcia . Poniżej znajduje się przykładowy wynik systemu wikyfikacji:

<ENTITY url="https://en.wikipedia.org/wiki/Michael_I._Jordan"> Michael Jordan </ENTITY> is a professor at <ENTITY url="https://en.wikipedia.org/wiki/University_of_California,_Berkeley"> Berkeley </ENTITY>

Inną dziedziną, która odnotowała postępy, ale nadal stanowi wyzwanie, jest zastosowanie NER do Twittera i innych mikroblogów.

Zobacz też

Bibliografia