wyszukiwanie informacji - Information retrieval


Z Wikipedii, wolnej encyklopedii

Wyszukiwanie informacji ( IR ) jest działalność uzyskania systemu informacji zasobów odpowiednich do informacji trzeba z kolekcji zasobów informacyjnych. Wyszukiwania można na podstawie pełnego tekstu lub innego indeksowania zawartości oparte. Wyszukiwanie informacji jest nauką o poszukiwaniu informacji w dokumencie, szukając dokumentów siebie, a także poszukiwania metadanych , które opisują dane, a dla baz danych tekstów, obrazów i dźwięków.

Zautomatyzowane systemy odlewy są stosowane w celu zmniejszenia, co zostało nazwane nadmiarem informacji . System IR jest oprogramowanie, które zapewniają dostęp do książek, czasopism i innych dokumentów, zapisuje je i zarządza dokument. Wyszukiwarki internetowej są najbardziej widoczne aplikacje IR .

Przegląd

Proces wyszukiwania informacji zaczyna się, gdy użytkownik wpisze zapytanie do systemu. Zapytania są formalne oświadczenia potrzeb informacyjnych, na przykład ciągi wyszukiwania w wyszukiwarkach internetowych. Wyszukiwanie informacji w zapytanie nie jednoznacznie zidentyfikować pojedynczego obiektu w kolekcji. Zamiast tego, kilka obiektów może dopasować zapytanie, może z różnym stopniem trafności .

Obiekt jest podmiotem, który jest reprezentowany przez zbiór informacji w treści lub danych . Zapytań użytkownika są porównywane z informacjami bazy danych. Jednak, w przeciwieństwie do klasycznych zapytań SQL bazy danych, wyszukiwanie informacji w wyniki zwracane mogą lub nie pasuje do zapytania, więc wyniki są zazwyczaj w rankingu. Ten ranking wyników jest kluczowym różnica wyszukiwania informacji szukasz w porównaniu do przeszukiwania bazy danych.

W zależności od zastosowania przedmioty dane mogą być, na przykład, dokumentów tekstowych, obrazów, audio, map myśli lub filmów. Często same dokumenty nie są przechowywane lub zapisane bezpośrednio w systemie IR, ale zamiast tego są reprezentowane w systemie przez surogatów lub dokument metadanych .

Większość systemów IR obliczenia numeryczne ocenę tego, jak dobrze każdy obiekt w bazie danych odpowiada zapytanie i pozycjonowanie obiektów według tej wartości. Ranking top obiekty są następnie wyświetlane użytkownikowi. Proces ten może być następnie powtórzyć, jeśli użytkownik chce dopracować kwerendy.

Historia

Pomysł wykorzystania komputerów, aby szukać odpowiednich fragmentów informacji została spopularyzowana w artykule As We May Think przez Vannevar Bush w roku 1945. Wydaje się, że Bush był inspirowany przez patenty na „maszynie statystycznego” - wniesionego przez Emanuel Goldberg w 1920 roku i „30s - że szukali dokumentów przechowywanych na filmie. Pierwszy opis komputera szukasz informacji został opisany w 1948 roku przez Holmström, z wyszczególnieniem wczesne wzmianki o UNIVAC komputerze. Zautomatyzowane systemy informatyczne odlewy zostały wprowadzone w 1950 roku: jeden nawet wyróżniona w 1957 komedia romantyczna, Desk Set . W 1960 roku, pierwsza duża grupa badawcza wyszukiwanie informacji została utworzona przez Gerard Salton w Cornell. W 1970 kilka różnych technik wyszukiwawczych wykazano, aby wykonać dobrze na małych korpusów tekstowych , takich jak gromadzenie Cranfield (kilka tysięcy dokumentów). Odlewy na dużą skalę, takich jak system Lockheed Dialog, wszedł do użytku na początku 1970 roku.

W 1992 roku Departament Obrony USA wraz z National Institute of Standards and Technology (NIST), popierana w Text Retrieval Conference (TREC) jako część programu tekstowego Typer. Celem tego było zajrzeć do wyszukiwania informacji społeczności poprzez dostarczanie infrastruktury, co było potrzebne do oceny metod pobierania tekst na bardzo duży zbiór tekstów. Ten katalizowane badania nad metodami, które skalować do ogromnego korpusów. Wprowadzenie wyszukiwarek internetowych wpłynęła konieczność bardzo dużych systemów wyszukiwawczych skala jeszcze bardziej.

typy modeli

Klasyfikacja modeli IR (tłumaczone z niemieckiego wpisu , oryginalne źródło Dominik Kuropka ).

Skutecznego pobierania odpowiednich dokumentów strategie IR dokumenty są zazwyczaj przekształcane do odpowiedniej reprezentacji. Każda strategia odzyskiwania zawiera specyficzny model dla swoich celów reprezentacyjnych dokument. Na zdjęciu po prawej stronie ilustruje zależność niektórych wspólnych modeli. Na zdjęciu, modele są klasyfikowane według dwóch wymiarach: podstawy matematyczne i właściwości modelu.

Pierwszy wymiar: Podstawa matematyczny

Drugi wymiar: Właściwości modelu

  • Modele bez Term-współzależności leczeniu różnych warunkach / słowa jako niezależne. Fakt ten jest zwykle reprezentowany w modelach przestrzeni wektorowej przez ortogonalności założeniu terminowych wektorami lub w modelach probabilistycznych przez niezależności założeniu dla zmiennych określony.
  • Modele z immanentnych terminowych współzależności umożliwić przedstawienie zależności między warunkami. Jednak stopień współzależności między dwoma pojęciami jest określona przez samego modelu. Jest to zwykle bezpośrednio lub pośrednio pochodzi (np redukcji wymiarów ) od współwystępowania tych terminów w całym zbiorze dokumentów.
  • Modele z transcendentnych terminowych współzależności umożliwić przedstawienie zależności pomiędzy warunkami, ale nie podnoszą jak współzależność pomiędzy dwoma pojęciami jest zdefiniowana. Opierają się one zewnętrznego źródła na stopień współzależności między dwoma warunkami. (Na przykład, człowiekowi lub zaawansowanych algorytmów).

Środki skuteczności i poprawności

Oceny informacji o systemie wyszukiwania”to proces oceny, jak również system spełnia potrzeby informacyjne użytkowników. W ogólności, pomiar uważa się zbiór dokumentów mają być przeszukiwane i zapytania. Tradycyjne wskaźniki oceny, przeznaczone do pobierania Boolean lub wyjmowania top-K, to precyzja i przywołanie . Wszystkie środki zakładają ziemia prawda pojęcie trafności: każdy dokument jest znany być istotne lub nie istotne dla danego zapytania. W praktyce zapytań może być źle postawione i nie może mieć różne odcienie trafności.

Oś czasu

  • Przed 1900
    1801 : Joseph Marie Jacquard wynajduje krosna Jacquard , pierwszą maszynę do korzystania z kart dziurkowanych do kontrolowania sekwencji operacji.
    1880 : Herman Hollerith wymyśla takie tabulatora danych elektromechaniczną za pomocą kart perforowanych do odczytu maszynowego jako medium.
    1890 Holleritha kartki , keypunches i tabulatory wykorzystywany do przetwarzania 1890 US Census danych.
  • 1920s-1930s
    Emanuel Goldberg twierdzi patentów na swoim „Maszynie Statystycznego” dokumentu wyszukiwarka, która stosuje się komórki fotoelektryczne i rozpoznawania wzorców do wyszukiwania metadanych na rolkach mikrofilmów dokumentów.
  • 1940s-1950s
    koniec 1940 : Armia USA w obliczu problemów indeksowania i wyszukiwania dokumentów wojennych naukowych badań zrobionych z Niemcami.
    1945 : Vannevar Bush „s As We May Think pojawił się w Atlantic Monthly .
    1947 : Hans Peter Luhn (inżynier badawczy w IBM od 1941) rozpoczął pracę nad systemem zmechanizowanego poncz karty opartej na poszukiwaniu związków chemicznych.
    1950 : Rośnie niepokój w USA na „luki science” z ZSRR zmotywowani, zachęcani finansowania i pod warunkiem, tło dla systemów przeszukiwania literatury zmechanizowane ( Allen Kent et al. ) I wynalazek cytowań indeksowania ( Eugene Garfield ).
    1950 : Termin „wyszukiwanie informacji” został ukuty przez Calvin Mooers .
    1951 : Philip Bagley przeprowadzone najwcześniej eksperyment skomputeryzowanego pobierania dokumentów w pracy magisterskiej na MIT .
    1955 : Allen Kent dołączył Case Western Reserve University , a ostatecznie został zastępcą dyrektora Ośrodka Dokumentacji i Badań Komunikacji. W tym samym roku, Kent i jego współpracownicy opublikowali artykuł w amerykańskiej dokumentacji opisującej środki precyzji i przypomnieć, jak również szczegółowo proponowane „ramy” dla oceny systemu IR który zawierał statystycznych metod pobierania próbek dla określenia liczby odpowiednich dokumentów nie odzyskać.
    1958 : Międzynarodowa konferencja w sprawie informacji naukowej Waszyngtonie zawarte rozważenia systemów IR jako rozwiązanie zidentyfikowanych problemów. Zobacz: Proceedings of the International Conference on Scientific Information, 1958 (National Academy of Sciences, Washington, DC, 1959)
    1959 : Hans Peter Luhn opublikował "Auto-kodowanie dokumentów do wyszukiwania informacji."
  • 1960 :
    początku 1960 : Gerard Salton rozpoczął pracę nad IR na Harvardzie, później przeniósł się do Cornell.
    1960 : Melvin Earl Maron i John Lary Kuhns opublikował "Na znaczenie, probabilistyczny, indeksowania i wyszukiwania informacji" Journal of the ACM 7 (3): 216-244, lipca 1960 r.
    1962 :
    • Cyril W. Cleverdon opublikowany wczesne wyniki badań Cranfield, opracowanie modelu oceny systemu IR. Zobacz: Cyril W. Cleverdon, „Raport z Badań i Analiz dochodzenie w sprawie racjonalizacji Porównawczych Systemów indeksowania”. Cranfield Collection of Aeronautics, Cranfield w Anglii, 1962.
    • Kent opublikowane analizy informacji i wyszukiwania .
    1963 :
    • Raport Weinberg „Nauka, Rząd i Informacji” dał pełną artykulację idei „kryzys informacji naukowej.” Raport został nazwany na cześć dr Alvina Weinberga .
    • Joseph Becker i Robert M. Hayes opublikowany tekst na wyszukiwaniu informacji. Becker, Józef; Hayes, Robert Mayo. Przechowywanie i wyszukiwanie informacji: narzędzia, elementy, teorie . New York, Wiley (1963).
    1964 :
    • Karen Spärck Jones zakończył swoją pracę w Cambridge, synonimia i semantycznej Klasyfikacji i kontynuował prace nad lingwistyki komputerowej , ponieważ odnosi się do IR.
    • Narodowe Biuro Standardów sponsorowany sympozjum pod tytułem „Metody statystyczne Stowarzyszenie Zmechanizowanej Dokumentacji.” Kilka bardzo istotne dokumenty, w tym po raz pierwszy opublikowana w odniesieniu G. Salton (wierzymy) do SMART systemu.
    połowie 1960 roku :
    • National Library of Medicine opracowany Medlars Medical Literature Analiza i odzyskiwanie systemu, pierwszy poważny system bazy danych i odzyskiwanie wsadowego do odczytu maszynowego.
    • Projekt INTREX na MIT.
    1965 : JCR Licklider opublikowany Biblioteki przyszłości .
    1966 : Don Swanson brał udział w badaniach na Uniwersytecie Chicago Wymagania dla przyszłych katalogach.
    late 1960s : F. Wilfrid Lancaster ukończył studia oceny systemu Medlars i opublikowano pierwsze wydanie swojego tekstu na wyszukiwaniu informacji.
    1968 :
    • Gerard Salton opublikowany Automatic Informacje o organizacji i wyszukiwania .
    • John W. Sammon, raport Jr. RADC Tech „Niektóre Matematyka Informacji przechowywania i udostępniania ...” przedstawiono model wektorowej.
    1969 : Sammon w „ nieliniowa mapowania analizy struktury danych ” (IEEE Transactions on Computers) była pierwsza propozycja interfejs do systemu wizualizacji IR.
  • 1970
    1970 :
    • Pierwsze forum na systemach NLM w AIM-TWX, MEDLINE; Dialog Lockheeda; ORBIT SDC.
    • Theodor Nelson promowanie koncepcji hipertekstu , opublikowane Computer Lib / Sen Machines .
    1971 : Nicholas Jardine i Cornelis J. van Rijsbergen opublikowany „Wykorzystanie hierarchicznego grupowania w wyszukiwaniu informacji”, który sformułował hipotezę „klastra”.
    1975 : Trzy bardzo wpływowych publikacje Salton pełni przegubowy jego przetwarzanie wektora ramowy i dyskryminacja określenie modelu:
    • Teoria indeksowania (Towarzystwo Przemysłowe i Matematyki Stosowanej)
    • Teoria znaczenie terminu w Automatic Text Analysis ( JASIS v. 26)
    • Wektor Przestrzeń modelu dla automatycznego indeksowania ( CACM 18:11)
    1978 : Pierwsze ACM SIGIR konferencja.
    1979 : CJ van Rijsbergen opublikowany wyszukiwania informacji (Butterworths). Ciężki nacisk na modelach probabilistycznych.
    1979 : Tamas Doszkocs wdrożył cytować interfejs użytkownika języka naturalnego dla MEDLINE w National Library of Medicine. System CITE obsługiwane bezpłatne wejście formularz zapytania, w rankingu moc i znaczenie zwrotne.
  • 1980
    1980 : Pierwsza międzynarodowa konferencja ACM SIGIR, wspólne z grupą brytyjski Computer Society IR w Cambridge.
    1982 : Nicholas J. Belkin , Robert N. Oddy i Helen M. Brooks zaproponował ASK (anomalnych stan wiedzy) punktu widzenia dla pozyskiwania informacji. Była to ważna koncepcja, choć ich zautomatyzowane narzędzie do analizy okazały się ostatecznie rozczarowujące.
    1983 : Salton (Michael J. McGill) opublikował Wprowadzenie do współczesnej wyszukiwania informacji (McGraw-Hill), z naciskiem na modelach wektorowych.
    1985 : David Blair i Bill Maron rozpatrzenie: ewaluacja efektywności wydobycia dla Full-Text Document Retrieval-Systemu
    połowie 1980 : Wysiłki zmierzające do opracowania wersji końcowy użytkownik komercyjnych systemów wykorzystujących promieniowanie podczerwone.
    1985-1993 : Kluczowe dokumenty dotyczące i systemy doświadczalne dla interfejsów wizualizacji.
    Pracować przez Donalda B. Crouch , Robert R. Korfhage Matthew Chalmers, Anselm Spoerri i innych.
    1989 : First World Wide Web propozycje Tim Berners-Lee w CERN .
  • 1990s
    1992 : Pierwszy TREC konferencja.
    1997 : Publikacja Korfhage „s Informacji regałowa z naciskiem na systemy wizualizacji i multi-punktowych odniesienia.
    1999 : Publikacja Ricardo Baeza-Yates i Berthier Ribeiro-Neto Nowoczesnej wyszukiwania informacji przez Addison Wesley, pierwszej książki, która stara się objąć wszystkie IR.
    koniec 1990 : wyszukiwarkach internetowych realizacja wielu funkcji dawniej tylko w eksperymentalnych systemach wykorzystujących promieniowanie podczerwone. Wyszukiwarki stały się najczęściej, a może najlepiej instancji modeli IR.

główne konferencje

Nagrody w dziedzinie

Top 5 Główny IR Grupy badawcze

  • Center for Intelligent Information Retrieval (CIIR) na University of Massachusetts Amherst
  • Grupa wyszukiwania informacji na Uniwersytecie w Glasgow
  • Informacje i Systemy przetwarzania języka (ILPS) na Uniwersytecie w Amsterdamie
  • Wyszukiwania informacji Group (Thuir) na Uniwersytecie Tsinghua
  • Informacja bagażu, analizy i pobierania Group (ISAR) na Uniwersytecie RMIT

Zobacz też

Referencje

Dalsza lektura

Linki zewnętrzne