Pobieranie informacji - Information retrieval

Pozyskiwanie informacji ( IR ) to proces uzyskiwania zasobów systemu informacyjnego, które są istotne dla potrzeb informacyjnych ze zbioru tych zasobów. Wyszukiwania mogą być oparte na indeksowaniu pełnotekstowym lub innym indeksowaniu opartym na zawartości. Pozyskiwanie informacji to nauka o wyszukiwaniu informacji w dokumencie, wyszukiwaniu samych dokumentów, a także przeszukiwaniu metadanych opisujących dane oraz baz danych tekstów, obrazów lub dźwięków.

Zautomatyzowane systemy wyszukiwania informacji są używane w celu zmniejszenia tego, co nazywamy przeciążeniem informacji . System IR to system oprogramowania, który zapewnia dostęp do książek, czasopism i innych dokumentów; przechowuje i zarządza tymi dokumentami. Wyszukiwarki internetowe są najbardziej widocznymi aplikacjami IR.

Przegląd

Proces wyszukiwania informacji rozpoczyna się, gdy użytkownik wprowadza zapytanie do systemu. Zapytania to formalne deklaracje zapotrzebowania na informacje, na przykład ciągi wyszukiwania w wyszukiwarkach internetowych. W wyszukiwaniu informacji zapytanie nie identyfikuje jednoznacznie pojedynczego obiektu w kolekcji. Zamiast tego do zapytania może pasować kilka obiektów, być może o różnym stopniu trafności .

Obiekt to jednostka reprezentowana przez informacje w kolekcji treści lub bazie danych . Zapytania użytkowników są dopasowywane do informacji z bazy danych. Jednak w przeciwieństwie do klasycznych zapytań SQL do bazy danych, w wyszukiwaniu informacji zwracane wyniki mogą, ale nie muszą być zgodne z zapytaniem, dlatego wyniki są zazwyczaj uszeregowane. Ten ranking wyników jest kluczową różnicą wyszukiwania z wyszukiwaniem informacji w porównaniu z wyszukiwaniem w bazach danych.

W zależności od aplikacji obiektami danych mogą być na przykład dokumenty tekstowe, obrazy, dźwięki, mapy myśli lub filmy. Często same dokumenty nie są przechowywane ani przechowywane bezpośrednio w systemie IR, ale są reprezentowane w systemie przez substytuty dokumentów lub metadane .

Większość systemów na podczerwień oblicza wynik liczbowy określający zgodność każdego obiektu w bazie danych z zapytaniem i klasyfikuje obiekty zgodnie z tą wartością. Obiekty o najwyższym rankingu są następnie pokazywane użytkownikowi. Proces może być następnie iterowany, jeśli użytkownik chce uściślić zapytanie.

Historia

istnieje ... maszyna o nazwie Univac ... w której litery i cyfry są kodowane jako wzór magnetycznych plamek na długiej stalowej taśmie. W ten sposób tekst dokumentu, poprzedzony symbolem kodu tematu, może być zapisany ... maszyna ... automatycznie wybiera i wpisuje te odniesienia, które zostały zakodowane w dowolny sposób, z szybkością 120 słów na minutę

— JE Holmstrom, 1948

Pomysł wykorzystania komputerów do wyszukiwania odpowiednich informacji został spopularyzowany w artykule As We May Think autorstwa Vannevara Busha w 1945 roku. Wygląda na to, że Bush zainspirował się patentami na „maszynę statystyczną” – zgłoszonymi przez Emanuela Goldberga w latach 20. i lata 30. – poszukiwanie dokumentów przechowywanych na kliszy. Pierwszy opis komputera wyszukującego informacje został opisany przez Holmstroma w 1948 roku, wyszczególniając wczesną wzmiankę o komputerze Univac . Zautomatyzowane systemy wyszukiwania informacji zostały wprowadzone w latach 50. XX wieku: jeden z nich pojawił się nawet w komedii romantycznej z 1957 roku, Desk Set . W latach 60. Gerard Salton w Cornell utworzył pierwszą dużą grupę badawczą zajmującą się wyszukiwaniem informacji . W latach 70. wykazano, że kilka różnych technik wyszukiwania sprawdza się dobrze w przypadku małych korpusów tekstowych, takich jak kolekcja Cranfielda (kilka tysięcy dokumentów). Systemy wyszukiwania na dużą skalę, takie jak system Lockheed Dialog, weszły do użytku na początku lat 70. XX wieku.

W 1992 r. Departament Obrony Stanów Zjednoczonych wraz z Narodowym Instytutem Standardów i Technologii (NIST) był współsponsorem konferencji TREC ( Text Retrieval Conference ) w ramach programu tekstowego TIPSTER. Celem było przyjrzenie się społeczności zajmującej się wyszukiwaniem informacji poprzez dostarczenie infrastruktury potrzebnej do oceny metodologii wyszukiwania tekstów w bardzo dużym zbiorze tekstów. To było katalizatorem badań nad metodami, które skalują się do ogromnych korpusów. Wprowadzenie wyszukiwarek internetowych jeszcze bardziej zwiększyło zapotrzebowanie na systemy wyszukiwania na bardzo dużą skalę.

Aplikacje

Obszary, w których stosowane są techniki wyszukiwania informacji, obejmują (wpisy są w porządku alfabetycznym w ramach każdej kategorii):

Zastosowania ogólne

Biblioteki cyfrowe
Filtrowanie informacji
- Systemy polecające
Wyszukiwanie mediów
- Wyszukiwanie bloga
- Pobieranie obrazu
- Pobieranie 3D
- Pobieranie muzyki
- Wyszukiwanie wiadomości
- Pobieranie mowy
- Pobieranie wideo
Wyszukiwarki

Aplikacje specyficzne dla domeny

Wyszukiwanie eksperckie
Pobieranie informacji genomowych
Pobieranie informacji geograficznych
Pozyskiwanie informacji o strukturach chemicznych
Pozyskiwanie informacji w inżynierii oprogramowania
Pozyskiwanie informacji prawnych
Wyszukiwanie pionowe

Inne metody pobierania

Metody/techniki, w których wykorzystywane są techniki wyszukiwania informacji obejmują:

Typy modeli

Kategoryzacja modeli IR (przetłumaczone z hasła niemieckiego , oryginalne źródło Dominik Kuropka ).

W celu skutecznego wyszukiwania odpowiednich dokumentów za pomocą strategii IR, dokumenty są zwykle przekształcane w odpowiednią reprezentację. Każda strategia wyszukiwania zawiera określony model do celów reprezentacji dokumentu. Zdjęcie po prawej ilustruje relacje między niektórymi popularnymi modelami. Na rysunku modele są podzielone na kategorie według dwóch wymiarów: podstawy matematycznej i właściwości modelu.

Pierwszy wymiar: podstawa matematyczna

Modele mnogościowe
przedstawiają dokumenty jako zestawy słów lub fraz. Podobieństwa są zwykle wyprowadzane z operacji mnogościowych na tych zbiorach. Typowe modele to:
Modele algebraiczne reprezentują dokumenty i zapytania zwykle jako wektory, macierze lub krotki. Podobieństwo wektora zapytania i wektora dokumentu jest reprezentowane jako wartość skalarna.
Modele probabilistyczne traktują proces wyszukiwania dokumentów jako wnioskowanie probabilistyczne. Podobieństwa są obliczane jako prawdopodobieństwa, że dokument jest odpowiedni dla danego zapytania. Twierdzenia probabilistyczne, takie jak twierdzenie Bayesa, są często używane w tych modelach.
- Binarny model niezależności
- Probabilistyczny model relewancji, na którym opiera się funkcja relewancji okapi (BM25)
- Wnioskowanie niepewne
- Modele językowe
- Model dywergencji od losowości
- Utajona alokacja Dirichleta
Modele wyszukiwania oparte na cechach widzą dokumenty jako wektory wartości funkcji cech (lub po prostu cechy ) i szukają najlepszego sposobu połączenia tych cech w jeden wynik trafności, zazwyczaj poprzez uczenie się oceniania metod. Funkcje funkcji są dowolnymi funkcjami dokumentów i zapytań i jako takie mogą z łatwością włączać prawie każdy inny model wyszukiwania jako kolejną funkcję.

Drugi wymiar: właściwości modelu

Modele bez współzależności terminowych traktują różne terminy/słowa jako niezależne. Fakt ten jest zwykle reprezentowany w modelach przestrzeni wektorowej przez założenie ortogonalności wektorów termowych lub w modelach probabilistycznych przez założenie o niezależności zmiennych termowych.
Modele z immanentnymi współzależnościami terminowymi umożliwiają reprezentację współzależności między terminami. Jednak stopień współzależności między dwoma terminami określa sam model. Wywodzi się zwykle bezpośrednio lub pośrednio (np. poprzez redukcję wymiarów ) ze współwystępowania tych terminów w całym zbiorze dokumentów.
Modele z transcendentnymi współzależnościami terminów umożliwiają reprezentację współzależności między terminami, ale nie zarzucają sposobu definiowania współzależności między dwoma terminami. Polegają na zewnętrznym źródle w zakresie współzależności między dwoma terminami. (Na przykład ludzki lub wyrafinowane algorytmy.)

Pomiary wydajności i poprawności

Ocena systemu wyszukiwania informacji” to proces oceny, w jakim stopniu system spełnia potrzeby informacyjne użytkowników. Ogólnie rzecz biorąc, pomiar uwzględnia zbiór dokumentów do przeszukania oraz zapytanie wyszukiwania. Tradycyjne metryki oceny, zaprojektowane dla wyszukiwania logicznego lub wyszukiwania top-k, obejmują precyzję i przywoływanie . Wszystkie miary zakładają podstawowe pojęcie trafności: wiadomo, że każdy dokument jest istotny lub nie dotyczy konkretnego zapytania. W praktyce zapytania mogą być źle postawione i mogą mieć różne odcienie trafności.

Oś czasu

Przed 1900

1801 : Joseph Marie Jacquard wynajduje krosno żakardowe , pierwszą maszynę do używania kart dziurkowanych do kontrolowania sekwencji operacji.

Lata osiemdziesiąte XIX wieku : Herman Hollerith wynajduje elektromechaniczny tabulator danych wykorzystujący karty dziurkowane jako nośnik do odczytu maszynowego.

Karty Holleritha z 1890 r. , klawisze i tabulatory używane do przetwarzania danych ze spisu ludności USA z 1890 r .
1920-1930
Emanuel Goldberg zgłasza patenty na swoją „Maszynę statystyczną”, wyszukiwarkę dokumentów, która wykorzystuje komórki fotoelektryczne i rozpoznawanie wzorów do przeszukiwania metadanych na rolkach dokumentów z mikrofilmami.
1940-1950

Późne lata czterdzieste : Armia amerykańska stanęła w obliczu problemów z indeksowaniem i odzyskiwaniem dokumentów naukowo-badawczych z czasów wojny przechwyconych od Niemców.

1945 : „ Jak myślimy ” Vannevara Busha ukazał się w Atlantic Monthly .

1947 : Hans Peter Luhn (inżynier ds. badań w IBM od 1941) rozpoczął pracę nad zmechanizowanym systemem opartym na kartach dziurkowanych do wyszukiwania związków chemicznych.

1950 : Rosnące zaniepokojenie w USA „przepaścią naukową” z motywacją ZSRR, zachęciło do finansowania i zapewniło tło dla zmechanizowanych systemów wyszukiwania literatury ( Allen Kent i in. ) oraz wynalezienia indeksu cytowań przez Eugene'a Garfielda .

1950 : Termin „pozyskiwanie informacji” został ukuty przez Calvina Mooersa .

1951 : Philip Bagley przeprowadził najwcześniejszy eksperyment z komputerowym wyszukiwaniem dokumentów w pracy magisterskiej na MIT .

1955 : Allen Kent dołączył do Case Western Reserve University i ostatecznie został zastępcą dyrektora Centrum Badań nad Dokumentacją i Komunikacją. W tym samym roku Kent i współpracownicy opublikowali artykuł w American Documentation opisujący środki precyzji i wycofania, a także szczegółowo opisujący proponowane „ramki” oceny systemu IR, który obejmował statystyczne metody próbkowania w celu określenia liczby odpowiednich dokumentów, które nie zostały odzyskane.

1958 : Międzynarodowa Konferencja Informacji Naukowej Waszyngton DC obejmowała rozważenie systemów IR jako rozwiązania zidentyfikowanych problemów. Zobacz: Proceedings of the International Conference on Scientific Information, 1958 (National Academy of Sciences, Washington, DC, 1959)

1959 : Hans Peter Luhn opublikował „Automatyczne kodowanie dokumentów w celu wyszukiwania informacji”.
1960 :
wczesne lata sześćdziesiąte : Gerard Salton rozpoczął pracę nad IR na Harvardzie, później przeniósł się do Cornell.

1960 : Melvin Earl Maron i John Lary Kuhns opublikowali „O istotności, indeksowaniu probabilistycznym i wyszukiwaniu informacji” w Journal of the ACM 7(3):216–244, lipiec 1960.
1962 :
- Cyril W. Cleverdon opublikował wczesne wyniki badań Cranfielda, opracowując model oceny systemu IR. Patrz: Cyril W. Cleverdon, „Raport z badania i analizy dochodzenia w sprawie porównawczej efektywności systemów indeksowania”. Cranfield Collection of Aeronautics, Cranfield, Anglia, 1962.
- Kent opublikował analizę i wyszukiwanie informacji .
1963 :
- Raport Weinberga „Nauka, rząd i informacja” w pełni wyartykułował ideę „kryzysu informacji naukowej”. Raport został nazwany na cześć dr. Alvina Weinberga .
- Joseph Becker i Robert M. Hayes opublikowali tekst na temat wyszukiwania informacji. Beckera, Józefa; Hayes, Robert Mayo. Przechowywanie i wyszukiwanie informacji: narzędzia, elementy, teorie . Nowy Jork, Wiley (1963).
1964 :
- Karen Spärck Jones ukończyła pracę magisterską w Cambridge, klasyfikacja synonimii i semantyki i kontynuowała prace nad lingwistyką komputerową w zakresie IR.
- Narodowe Biuro Standardów sponsorowany sympozjum pod tytułem „Metody statystyczne Stowarzyszenie Zmechanizowanej Dokumentacji.” Kilka bardzo ważnych artykułów, w tym pierwsze opublikowane odniesienie G. Saltona (jak sądzimy) do systemu SMART .
połowa lat 60. :
Narodowa Biblioteka Medyczna opracowała system analizy i wyszukiwania literatury medycznej MEDLARS , pierwszą dużą bazę danych do odczytu maszynowego i system wyszukiwania partii.

Projekt Intrex na MIT.
1965 : JCR Licklider opublikował Biblioteki przyszłości .

1966 : Don Swanson był zaangażowany w studia na Uniwersytecie Chicago na temat wymagań dla przyszłych katalogów.
późne lata sześćdziesiąte : F. Wilfrid Lancaster ukończył badania ewaluacyjne systemu MEDLARS i opublikował pierwsze wydanie swojego tekstu na temat wyszukiwania informacji.
1968 :
- Gerard Salton opublikował Automatic Information Organization and Retrieval .
- John W. Sammon, Jr., raport RADC Tech „Some Mathematics of Information Storage and Retrieval...” nakreślił model wektorowy.
1969 : „ Nieliniowe mapowanie do analizy struktury danych ” (IEEE Transactions on Computers) Sammona było pierwszą propozycją interfejsu wizualizacji do systemu IR.
lata 70.
początek lat 70. :
Pierwsze systemy online — AIM-TWX firmy NLM, MEDLINE; Dialog Lockheeda; ORBIT SDC.

Theodor Nelson promujący koncepcję hipertekstu , opublikował Computer Lib/Dream Machines .
1971 : Nicholas Jardine i Cornelis J. van Rijsbergen opublikowali „Wykorzystanie hierarchicznego grupowania w wyszukiwaniu informacji”, w którym sformułowano „hipotezę skupień”.
1975 : Trzy bardzo wpływowe publikacje Saltona w pełni opisują jego ramy przetwarzania wektorów i model dyskryminacji terminów :
Teoria indeksowania (Towarzystwo Matematyki Przemysłowej i Stosowanej)

Teoria znaczenia terminów w automatycznej analizie tekstu ( JASIS v. 26)

Model przestrzeni wektorowej do automatycznego indeksowania ( CACM 18:11)
1978 : Pierwsza konferencja ACM SIGIR .

1979 : CJ van Rijsbergen opublikował Information Retrieval (Butterworths). Duży nacisk na modele probabilistyczne.

1979 : Tamas Doszkocs wdraża interfejs użytkownika w języku naturalnym CITE dla MEDLINE w Narodowej Bibliotece Medycznej. System CITE wspierał wprowadzanie zapytań w dowolnej formie, szeregowane wyniki i informacje zwrotne dotyczące istotności.
lata 80.

1980 : Pierwsza międzynarodowa konferencja ACM SIGIR, połączona z grupą British Computer Society IR w Cambridge.

1982 : Nicholas J. Belkin , Robert N. Oddy i Helen M. Brooks zaproponowali punkt widzenia ASK (Anomalny stan wiedzy) do wyszukiwania informacji. To była ważna koncepcja, choć ich zautomatyzowane narzędzie do analizy okazało się ostatecznie rozczarowujące.

1983 : Salton (i Michael J. McGill) opublikowali Wprowadzenie do nowoczesnego wyszukiwania informacji (McGraw-Hill), kładąc duży nacisk na modele wektorowe.

1985 : David Blair i Bill Maron publikują: An Evaluation of Retrieval Effectiveness for a Full Text Document-Retrieval System

połowa lat 80. : Wysiłki zmierzające do opracowania wersji dla użytkowników końcowych komercyjnych systemów IR.

1985-1993 : Kluczowe artykuły i eksperymentalne systemy interfejsów wizualizacji.

Praca Donalda B. Croucha , Roberta R. Korfhage , Matthew Chalmersa, Anselma Spoerri i innych.

1989 : Pierwsza propozycja World Wide Web Tima Bernersa-Lee w CERN .
1990

1992 : Pierwsza konferencja TREC .

1997 : Publikacja Korfhage 's Information Storage and Retrieval z naciskiem na wizualizację i systemy punktów wielopunktowych.

1999 : Publikacja Modern Information Retrieval autorstwa Addisona Wesleya autorstwa Ricardo Baezy-Yatesa i Berthiera Ribeiro-Neto , pierwszej książki, która próbuje objąć wszystkie IR.

koniec lat dziewięćdziesiątych : implementacja w wyszukiwarkach internetowych wielu funkcji, które wcześniej znajdowały się tylko w eksperymentalnych systemach IR. Wyszukiwarki stają się najczęstszą i być może najlepszą instancją modeli IR.

Najważniejsze konferencje

Nagrody w tej dziedzinie

Zobacz też

Wyszukiwanie informacji kontradyktoryjnych – strategie wyszukiwania informacji w zbiorach danych
Pamięć komputera – urządzenie używane na komputerze do przechowywania danych
Słownictwo kontrolowane
Wyszukiwanie informacji w wielu językach
Data mining – Proces wydobywania i odkrywania wzorców w dużych zbiorach danych
Europejska Szkoła Letnia w Pozyskiwaniu Informacji
Pozyskiwanie informacji człowiek-komputer (HCIR)
Wyodrębnianie informacji — automatyczne wyodrębnianie ustrukturyzowanych informacji z nieustrukturyzowanych lub częściowo ustrukturyzowanych dokumentów do odczytu maszynowego, takich jak teksty w ludzkim języku
Poszukiwanie informacji – Proces lub czynność polegająca na próbie uzyskania informacji zarówno w kontekście ludzkim, jak i technologicznym
- Poszukiwanie informacji § W porównaniu z wyszukiwaniem informacji
- Wspólne poszukiwanie informacji
- Wyszukiwanie informacji społecznych
Narzędzie wyszukiwania informacji
Wizualizacja wiedzy
Pobieranie informacji multimedialnych
Zarządzanie danymi osobowymi
Zrozumienie zapytań
Trafność (pobieranie informacji)
Informacje zwrotne dotyczące trafności
Klasyfikacja Rocchio
Indeksowanie w wyszukiwarkach
Grupa specjalnego zainteresowania ds. wyszukiwania informacji
Indeksowanie tematów
Czasowe pobieranie informacji
tf–idf – liczba odzwierciedlająca znaczenie słowa dla dokumentu w korpusie
Pobieranie XML
Eksploracja sieci

Bibliografia

Dalsza lektura

Ricardo Baeza-Yates, Berthier Ribeiro-Neto. Nowoczesne wyszukiwanie informacji: koncepcje i technologia wyszukiwania (wydanie drugie) . Addison-Wesley, Wielka Brytania, 2011.
Stefan Büttcher, Charles LA Clarke i Gordon V. Cormack. Pobieranie informacji: Implementacja i ocena wyszukiwarek . MIT Press, Cambridge, Massachusetts, 2010.
„System wyszukiwania informacji” . Sieć Bibliotekoznawstwa i Informacji Naukowej . 24 kwietnia 2015 r.
Christopher D. Manning, Prabhakar Raghavan i Hinrich Schütze. Wprowadzenie do wyszukiwania informacji . Wydawnictwo Uniwersytetu Cambridge, 2008.

Languages

In other projects