Wyszukiwanie informacji w różnych językach - Cross-language information retrieval

Wyszukiwanie informacji w różnych językach ( CLIR ) to podpole wyszukiwania informacji dotyczące wyszukiwania informacji napisanych w języku innym niż język zapytania użytkownika. Termin „wyszukiwanie informacji w różnych językach” ma wiele synonimów, z których najczęstsze są prawdopodobnie: międzyjęzykowe wyszukiwanie informacji, międzyjęzykowe wyszukiwanie informacji, wielojęzyczne wyszukiwanie informacji . Termin „ wielojęzyczne wyszukiwanie informacji ” odnosi się bardziej ogólnie zarówno do technologii wyszukiwania wielojęzycznych zbiorów, jak i do technologii, która została przeniesiona do obsługi materiałów w jednym języku na inny. Termin Multilingual Information Retrieval (MLIR) obejmuje badanie systemów, które akceptują zapytania o informacje w różnych językach i zwracają obiekty (tekst i inne media) z różnych języków, przetłumaczone na język użytkownika. Wyszukiwanie informacji w różnych językach odnosi się bardziej szczegółowo do przypadku użycia, w którym użytkownicy formułują swoje zapotrzebowanie na informacje w jednym języku, a system wyszukuje odpowiednie dokumenty w innym. W tym celu większość systemów CLIR wykorzystuje różne techniki tłumaczenia. Techniki CLIR można podzielić na różne kategorie w oparciu o różne zasoby tłumaczeniowe:

  • Techniki CLIR oparte na słownikach
  • Techniki CLIR oparte na równoległych ciałach
  • Porównywalne techniki CLIR oparte na korpusach
  • Techniki CLIR oparte na tłumaczeniu maszynowym

Systemy CLIR poprawiły się do tego stopnia, że ​​najdokładniejsze wielojęzyczne i międzyjęzykowe systemy wyszukiwania informacji adhoc są obecnie prawie tak samo skuteczne, jak systemy jednojęzyczne. Inne powiązane zadania związane z dostępem do informacji, takie jak monitorowanie mediów , filtrowanie i kierowanie informacji, analiza nastrojów i ekstrakcja informacji, wymagają bardziej wyrafinowanych modeli i zwykle większego przetwarzania i analizy interesujących nas informacji. Duża część tego przetwarzania musi być świadoma specyfiki języków docelowych, w których jest wdrażana.

Przeważnie różne mechanizmy zmienności języka ludzkiego stanowią wyzwanie dla systemów wyszukiwania informacji: teksty w zbiorze mogą zajmować się interesującym tematem, ale używają terminów lub wyrażeń, które nie pasują do wyrażenia potrzeb informacyjnych podanych przez użytkownika. Może to być prawdą nawet w przypadku jednego języka, ale jest to szczególnie prawdziwe w przypadku wyszukiwania informacji w różnych językach, gdzie użytkownicy mogą znać język docelowy tylko do pewnego stopnia. Stwierdzono, że korzyści płynące z technologii CLIR dla użytkowników ze słabymi do umiarkowanych kompetencjami w zakresie języka docelowego są większe niż dla tych, którzy biegle władają językiem. Specyficzne technologie stosowane w usługach CLIR obejmują analizę morfologiczną do obsługi fleksji , dekompozycji lub dzielenia złożonego w celu obsługi terminów złożonych oraz mechanizmy tłumaczenia umożliwiające tłumaczenie zapytania z jednego języka na inny.

Pierwsze warsztaty na temat CLIR odbyły się w Zurychu podczas konferencji SIGIR-96. Warsztaty odbywają się corocznie od 2000 r. Na spotkaniach Międzyjęzykowych Forum Ewaluacji (CLEF). Naukowcy spotykają się również na dorocznej konferencji Text Retrieval Conference (TREC), aby omówić swoje ustalenia dotyczące różnych systemów i metod wyszukiwania informacji, a konferencja posłużyła jako punkt odniesienia dla podpola CLIR.

Wyszukiwarka Google miała funkcję wyszukiwania w wielu językach, która została usunięta w 2013 roku.

Zobacz też

  • EXCLAIM (rozszerzalna międzyjęzykowa automatyczna maszyna informacyjna)
  • CLEF (Konferencja i laboratoria forum ewaluacyjnego, dawniej znane jako międzyjęzyczne forum ewaluacyjne)
  • MLIR (wyszukiwanie informacji w wielu językach )

Bibliografia

  1. ^ Wang, Jianqiang i Douglas W. Oard. „Dopasowane znaczenie dla wyszukiwania informacji w wielu językach”. Przetwarzanie informacji i zarządzanie 48.4 (2012): 631-53.
  2. ^ Thai, Perishan. „Wprowadzenie do metod wyszukiwania informacji w różnych językach”. Sieć. Web.simmons.edu
  3. ^ Oard, Douglas. „Wielojęzyczny dostęp do informacji”. Understanding Information Retrieval Systems (2011): 373-80. Sieć.
  4. ^ Airio, Eija (2008). „Kto korzysta z CLIR w wyszukiwaniu stron internetowych?” . Journal of Documentation . 64 (5): 760–778. doi : 10.1108 / 00220410810899754 .
  5. ^ Przebieg tego warsztatu można znaleźć w książce Cross-Language Information Retrieval (Grefenstette, red; Kluwer, 1998) ISBN   0-7923-8122-X .
  6. ^ Olvera-Lobo, María-Dolores. „Wyszukiwanie informacji w różnych językach w Internecie”. Handbook of Research on Social Dimensions of Semantic Technologies and Web Services (nd): 704-19. Sieć.
  7. ^ Opcja wyszukiwania „Google Drops” przetłumaczone strony obce „z powodu braku użycia” . 20 maja 2013.

Linki zewnętrzne