Ekstrakcja informacji - Information extraction

Ekstrakcja informacji ( IE ) to zadanie automatycznego wyodrębniania uporządkowanych informacji z nieustrukturyzowanych i/lub częściowo ustrukturyzowanych dokumentów do odczytu maszynowego i innych elektronicznie reprezentowanych źródeł. W większości przypadków czynność ta dotyczy przetwarzania tekstów w języku ludzkim za pomocą przetwarzania języka naturalnego (NLP). Ostatnie działania w zakresie przetwarzania dokumentów multimedialnych, takie jak automatyczne adnotacje i ekstrakcja treści z obrazów/audio/wideo/dokumentów, mogą być postrzegane jako ekstrakcja informacji

Ze względu na trudność problemu, obecne podejścia do IE skupiają się na wąsko ograniczonych domenach. Przykładem jest wyciąg z doniesień newswire o fuzjach korporacyjnych, takich jak oznaczone relacją formalną:

,

ze zdania wiadomości online, takiego jak:

"Wczoraj nowojorska firma Foo Inc. ogłosiła przejęcie Bar Corp."

Ogólnym celem IE jest umożliwienie wykonywania obliczeń na wcześniej nieustrukturyzowanych danych. Bardziej konkretnym celem jest umożliwienie logicznego rozumowania wyciągania wniosków na podstawie logicznej zawartości danych wejściowych. Dane strukturalne to semantycznie dobrze zdefiniowane dane z wybranej domeny docelowej, interpretowane w odniesieniu do kategorii i kontekstu .

Wyodrębnianie informacji jest częścią większej układanki, która zajmuje się problemem opracowania automatycznych metod zarządzania tekstem, poza jego transmisją, przechowywaniem i wyświetlaniem. Dyscyplina wyszukiwania informacji (IR) opracowała automatyczne metody, zwykle o charakterze statystycznym, służące do indeksowania dużych zbiorów dokumentów i klasyfikowania dokumentów. Innym komplementarnym podejściem jest przetwarzanie języka naturalnego (NLP), które ze znacznym powodzeniem rozwiązało problem modelowania przetwarzania języka ludzkiego, biorąc pod uwagę skalę zadania. Zarówno pod względem trudności, jak i nacisku, IE zajmuje się zadaniami pomiędzy IR a NLP. W zakresie danych wejściowych IE zakłada istnienie zbioru dokumentów, w których każdy dokument jest zgodny z szablonem, tj. opisuje jeden lub więcej podmiotów lub zdarzeń w sposób podobny do innych dokumentów, ale różniący się szczegółami. Rozważmy na przykład grupę artykułów prasowych na temat terroryzmu w Ameryce Łacińskiej, w których zakłada się, że każdy artykuł opiera się na jednym lub więcej aktach terrorystycznych. Dla każdego zadania IE definiujemy również szablon, który jest (lub zbiorem) ramką (ramkami) do przechowywania informacji zawartych w pojedynczym dokumencie. W przypadku terroryzmu szablon zawierałby miejsca odpowiadające sprawcy, ofierze i broni aktu terrorystycznego oraz dacie, w której zdarzenie miało miejsce. System IE dla tego problemu musi „zrozumieć” artykuł dotyczący ataku tylko na tyle, aby znaleźć dane odpowiadające slotom w tym szablonie.

Historia

Wydobywanie informacji sięga późnych lat 70-tych, we wczesnych dniach NLP. Wczesnym systemem komercyjnym z połowy lat 80. był JASPER zbudowany dla Reuters przez Carnegie Group Inc w celu dostarczania handlowcom finansowym informacji finansowych w czasie rzeczywistym .

Począwszy od 1987 roku, IE była stymulowana serią konferencji Message Understanding . MUC to konferencja konkursowa, która koncentruje się na następujących dziedzinach:

  • MUC-1 (1987), MUC-2 (1989): Komunikaty operacji morskich.
  • MUC-3 (1991), MUC-4 (1992): Terroryzm w krajach Ameryki Łacińskiej.
  • MUC-5 (1993): Wspólne przedsięwzięcia i domena mikroelektroniki.
  • MUC-6 (1995): Artykuły informacyjne na temat zmian w zarządzaniu.
  • MUC-7 (1998): Raporty o wystrzeleniu satelitów.

Znaczne wsparcie nadeszło ze strony amerykańskiej Agencji Zaawansowanych Projektów Badawczych Obrony ( DARPA ), która chciała zautomatyzować przyziemne zadania wykonywane przez analityków rządowych, takie jak skanowanie gazet w poszukiwaniu możliwych powiązań z terroryzmem.

Obecne znaczenie

Obecne znaczenie IE wiąże się z rosnącą ilością informacji dostępnych w formie nieustrukturyzowanej. Tim Berners-Lee , wynalazca sieci WWW , określa istniejący Internet jako sieć dokumentów i opowiada się za udostępnianiem większej ilości treści w postaci sieci danych . Do tego czasu sieć składa się w dużej mierze z nieustrukturyzowanych dokumentów, którym brakuje semantycznych metadanych . Wiedza zawarta w tych dokumentach może być bardziej dostępna dla przetwarzania maszynowego poprzez przekształcenie do postaci relacyjnej lub oznaczenie za pomocą znaczników XML . Inteligentny agent monitorujący źródło danych wiadomości wymaga od IE przekształcenia nieustrukturyzowanych danych w coś, co można uzasadnić. Typowym zastosowaniem IE jest skanowanie zestawu dokumentów napisanych w języku naturalnym i zapełnienie bazy danych wyodrębnionymi informacjami.

Zadania i podzadania

Zastosowanie ekstrakcji informacji do tekstu wiąże się z problemem uproszczenia tekstu w celu stworzenia ustrukturyzowanego widoku informacji zawartych w dowolnym tekście. Ogólnym celem jest stworzenie łatwiejszego do odczytu maszynowego tekstu do przetwarzania zdań. Typowe zadania i podzadania IE obejmują:

  • Wypełnianie szablonu: Wyodrębnienie ustalonego zestawu pól z dokumentu, np. wyciąg sprawców, ofiar, czasu itp. z artykułu prasowego o ataku terrorystycznym.
    • Wyodrębnianie zdarzeń: biorąc pod uwagę dokument wejściowy, wypisz zero lub więcej szablonów zdarzeń. Na przykład artykuł w gazecie może opisywać wiele ataków terrorystycznych.
  • Populacja Bazy Wiedzy : Wypełnij bazę faktów na podstawie zestawu dokumentów. Zazwyczaj baza danych ma postać trójek (podmiot 1, relacja, podmiot 2), np. ( Barack Obama , Małżonek, Michelle Obama )
    • Rozpoznawanie nazwanych jednostek : rozpoznawanie znanych nazw jednostek (dla osób i organizacji), nazw miejsc, wyrażeń czasowych i niektórych typów wyrażeń liczbowych poprzez wykorzystanie istniejącej wiedzy o domenie lub informacji pochodzących z innych zdań. Zazwyczaj zadanie rozpoznawania obejmuje przypisanie wyodrębnionej jednostce niepowtarzalnego identyfikatora. Prostszym zadaniem jest nazwane wykrywanie encji , które ma na celu wykrycie encji bez posiadania wiedzy o instancjach encji. Na przykład, przetwarzając zdanie „M. Smith lubi łowić ryby”, wykrywanie nazwanego podmiotu oznaczałoby wykrycie, że wyrażenie „M. Smith” odnosi się do osoby, ale bez konieczności posiadania (lub używania) jakiejkolwiek wiedzy o pewnym M. Smith, który jest (lub „może być”) konkretną osobą, o której mówi to zdanie.
    • Rozdzielczość
    Coreference : wykrywanie coreference i anaforycznych powiązań między jednostkami tekstowymi. W zadaniach IE jest to zazwyczaj ograniczone do znajdowania powiązań między wcześniej wyodrębnionymi nazwanymi jednostkami. Na przykład „International Business Machines” i „IBM” odnoszą się do tej samej jednostki w świecie rzeczywistym. Jeśli weźmiemy dwa zdania „M. Smith lubi łowić ryby. Ale on nie lubi jeździć na rowerze”, to byłoby korzystne wykrycie, że „on” odnosi się do wcześniej wykrytej osoby „M. Smith”.
  • Ekstrakcja relacji : identyfikacja relacji między podmiotami, takich jak:
    • PERSON pracuje dla ORGANIZACJI (wyciąg ze zdania "Bill pracuje dla IBM.")
    • OSOBA w LOKALIZACJI (wyciąg ze zdania „Rachunek jest we Francji”)
  • Ekstrakcja informacji częściowo ustrukturyzowanych, która może odnosić się do dowolnego IE, który próbuje odtworzyć pewien rodzaj struktury informacji, która została utracona w wyniku publikacji, na przykład:
    • Ekstrakcja tabel: znajdowanie i wyodrębnianie tabel z dokumentów.
    • Ekstrakcja informacji z tabeli : wyodrębnianie informacji w uporządkowany sposób z tabel. Jest to zadanie bardziej złożone niż wyodrębnianie tabeli, ponieważ wyodrębnianie tabeli to tylko pierwszy krok, podczas gdy zrozumienie ról komórek, wierszy, kolumn, powiązanie informacji wewnątrz tabeli i zrozumienie informacji przedstawionych w tabeli to dodatkowe zadania niezbędne dla tabeli ekstrakcja informacji.
    • Ekstrakcja komentarzy : wyodrębnianie komentarzy z rzeczywistej treści artykułu w celu przywrócenia powiązania między autorem każdego zdania
  • Analiza języka i słownictwa
  • Ekstrakcja dźwięku
    • Ekstrakcja muzyki na podstawie szablonu: znalezienie odpowiedniej cechy w sygnale audio zaczerpniętym z danego repertuaru; na przykład indeksy czasowe wystąpień dźwięków perkusyjnych mogą być wyodrębnione w celu przedstawienia istotnego komponentu rytmicznego utworu muzycznego.
  • Należy zauważyć, że ta lista nie jest wyczerpująca i że dokładne znaczenie działań IE nie jest powszechnie akceptowane i że wiele podejść łączy wiele podzadań IE w celu osiągnięcia szerszego celu. Uczenie maszynowe, analiza statystyczna i/lub przetwarzanie języka naturalnego są często wykorzystywane w IE.

    IE na dokumentach nietekstowych staje się coraz bardziej interesującym tematem badań, a informacje wydobyte z dokumentów multimedialnych mogą być teraz wyrażane w strukturze wysokiego poziomu, tak jak ma to miejsce w przypadku tekstu. To w naturalny sposób prowadzi do fuzji wydobytych informacji z wielu rodzajów dokumentów i źródeł.

    Aplikacje WWW

    IE była głównym tematem konferencji MUC. Rozprzestrzenianie się Internetu zwiększyło jednak potrzebę rozwoju systemów IE, które pomagają ludziom radzić sobie z ogromną ilością danych dostępnych online. Systemy wykonujące IE z tekstu online powinny spełniać wymagania niskich kosztów, elastyczności w rozwoju i łatwej adaptacji do nowych dziedzin. Systemy MUC nie spełniają tych kryteriów. Co więcej, analiza językowa wykonywana dla tekstu nieustrukturyzowanego nie wykorzystuje znaczników HTML/ XML i formatów układu, które są dostępne w tekstach online. W rezultacie opracowano metody mniej intensywne językowo dla IE w sieci Web za pomocą opakowań , które są zestawami bardzo dokładnych reguł, które wyodrębniają zawartość konkretnej strony. Ręczne opracowywanie owijarek okazało się zadaniem czasochłonnym i wymagającym wysokiego poziomu wiedzy. Techniki uczenia maszynowego , nadzorowane lub nienadzorowane , zostały wykorzystane do automatycznego wywoływania takich reguł.

    Opakowania zazwyczaj obsługują zbiory stron internetowych o dużej strukturze, takie jak katalogi produktów i książki telefoniczne. Jednak zawodzą, gdy typ tekstu jest mniej ustrukturyzowany, co jest również powszechne w Internecie. Ostatnie prace nad adaptacyjną ekstrakcją informacji motywują rozwój systemów IE, które mogą obsługiwać różne typy tekstu, od dobrze ustrukturyzowanego do prawie dowolnego tekstu - gdzie zwykłe opakowania zawodzą - w tym mieszane typy. Takie systemy mogą wykorzystywać płytką znajomość języka naturalnego, a zatem mogą być również stosowane do mniej ustrukturyzowanych tekstów.

    Ostatnim osiągnięciem jest wizualne wyodrębnianie informacji, które polega na renderowaniu strony internetowej w przeglądarce i tworzeniu reguł opartych na bliskości regionów na renderowanej stronie internetowej. Pomaga to w wyodrębnianiu jednostek ze złożonych stron internetowych, które mogą przedstawiać wizualny wzorzec, ale nie mają rozpoznawalnego wzorca w kodzie źródłowym HTML.

    Podejścia

    Obecnie powszechnie akceptowane są następujące standardowe podejścia:

    Istnieje wiele innych podejść do IE, w tym podejścia hybrydowe, które łączą niektóre ze standardowych podejść wymienionych wcześniej.

    Darmowe lub otwarte oprogramowanie i usługi

    Zobacz też

    Bibliografia

    1. ^ FREITAG, DAYNE. „Uczenie maszynowe do ekstrakcji informacji w nieformalnych dziedzinach” (PDF) . 2000 Wydawnictwo Akademickie Kluwer. Wydrukowano w Holandii .
    2. ^ Andersen, Peggy M.; Hayes, Philip J.; Huettner, Alison K.; Schmandt, Linda M.; Nirenburg, Irene B.; Weinstein, Steven P. (1992). „Automatyczne wyodrębnianie faktów z komunikatów prasowych w celu generowania artykułów prasowych” . Materiały z III konferencji Stosowane przetwarzanie języka naturalnego - . s. 170–177. CiteSeerX  10.1.1.14.7943 . doi : 10.3115/974499.974531 . S2CID  14746386 .
    3. ^ Cowie, Jim; Wilks, Yorick (1996). Wyodrębnianie informacji (PDF) . P. 3. CiteSeerX  10.1.1.61.6480 . S2CID  10237124 . Zarchiwizowane z oryginału (PDF) 20.02.2019.
    4. ^ Marco Costantino, Paolo Coletti, wyodrębnianie informacji w finansach , Wit Press, 2008. ISBN  978-1-84564-146-7
    5. ^ „Dane połączone - dotychczasowa historia” (PDF) .
    6. ^ „Tim Berners-Lee w następnej sieci” .
    7. ^ RK Srihari , W. Li, C. Niu i T. Cornell, "InfoXtract: Dostosowywalny silnik ekstrakcji informacji na poziomie średniozaawansowanym", Journal of Natural Language Engineering , Cambridge U. Press, 14(1), 2008, s.33- 69.
    8. ^ B Dat Quoc Nguyen i Karin Verspoor (2019). „Ekstrakcja relacji neuronowych od końca do końca przy użyciu głębokiej uwagi biafiny”. Materiały 41. Europejskiej Konferencji Wyszukiwarki Informacji (ECIR) . arXiv : 1812.11275 . doi : 10.1007/978-3-030-15712-8_47 .
    9. ^ Milosevic N Gregson C Hernandez R Nenadic G (luty 2019). „Ramy do ekstrakcji informacji z tabel w literaturze biomedycznej”. International Journal on Document Analysis and Recognition (IJDAR) . 22 (1): 55-78. arXiv : 1902.10031 . Kod bib : 2019arXiv190210031M . doi : 10.1007/s10032-019-00317-0 . S2CID  62880746 .
    10. ^ Miloszević Nikola (2018). Wielowarstwowe podejście do ekstrakcji informacji z tabel w dokumentach biomedycznych (PDF) (PhD). Uniwersytet w Manchesterze.
    11. ^ Milosevic N Gregson C Hernandez R Nenadic G (luty 2019). „Ramy do ekstrakcji informacji z tabel w literaturze biomedycznej”. International Journal on Document Analysis and Recognition (IJDAR) . 22 (1): 55-78. arXiv : 1902.10031 . Kod bib : 2019arXiv190210031M . doi : 10.1007/s10032-019-00317-0 . S2CID  62880746 .
    12. ^ Milosevic N Gregson C Hernandez R Nenadic G (czerwiec 2016). „Rozplątanie struktury tabel w literaturze naukowej” . XXI Międzynarodowa Konferencja Zastosowań Języka Naturalnego w Systemach Informacyjnych . Notatki z wykładów z informatyki. 21 : 162–174. doi : 10.1007/978-3-319-41754-7_14 . Numer ISBN 978-3-319-41753-0.
    13. ^ Miloszević Nikola (2018). Wielowarstwowe podejście do ekstrakcji informacji z tabel w dokumentach biomedycznych (PDF) (PhD). Uniwersytet w Manchesterze.
    14. ^ A.Zils, F.Pachet, O.Delerue i F. Gouyon, Automatyczne wyodrębnianie ścieżek perkusyjnych z polifonicznych sygnałów muzycznych , Proceedings of WedelMusic, Darmstadt, Niemcy, 2002.
    15. ^ Chenthamarakshan, Vijil; Desphande, Prasad M; Krysznapuram, Raghu; Varadaradżan, Ramakrysnan; Stolze, Knut (2015). „WYSIWYE: Algebra do wyrażania reguł przestrzennych i tekstowych do ekstrakcji informacji”. arXiv : 1506.08454 [ cs.CL ].
    16. ^ Baumgartner, Robert; Flesca, Sergio; Gottlob, Georg (2001). „Wyodrębnianie informacji wizualnej sieci Web za pomocą Lixto”: 119-128. CiteSeerX  10.1.1.21.8236 . Cytowanie dziennika wymaga |journal=( pomoc )
    17. ^ Peng, F.; McCallum, A. (2006). „Ekstrakcja informacji z prac naukowych z wykorzystaniem warunkowych pól losowych☆”. Przetwarzanie i zarządzanie informacjami . 42 (4): 963. doi : 10.1016/j.ipm.2005.09.002 .
    18. ^ Shimizu, Nobuyuki; Hass, Andrzej (2006). „Wyodrębnianie reprezentacji wiedzy opartej na ramkach z instrukcji trasy” (PDF) . Zarchiwizowane z oryginału (PDF) w dniu 2006-09-01 . Źródło 2010-03-27 .

    Zewnętrzne linki