Boole'owski model wyszukiwania informacji - Boolean model of information retrieval
(Standardowy) Boole'owski model wyszukiwania informacji (BIR) jest klasycznym modelem wyszukiwania informacji (IR) i jednocześnie pierwszym i najczęściej stosowanym modelem. Jest używany przez wiele systemów IR do dziś. BIR opiera się na logice Boole'a i klasycznej teorii mnogości, ponieważ zarówno dokumenty, które mają być przeszukiwane, jak i zapytanie użytkownika, są rozumiane jako zbiory terminów (model bag-of-words ). Pobieranie opiera się na tym, czy dokumenty zawierają terminy zapytania.
Definicje
Keyword to słowo lub wyrażenie , które mogą być łodygach , opisując lub charakteryzowania dokumentu, takich jak hasła do danego artykułu w czasopiśmie. Pozwolić
Dokument jest dowolny podzbiór . Pozwolić
Zapytanie jest logiczna ekspresja w normalnych postać:
Staramy się znaleźć komplet dokumentów, które spełniają . Ta operacja nazywa się
pobieraniem i składa się z następujących dwóch kroków:- 1. Dla każdego w , znajdź zestaw dokumentów, które spełniają :
Przykład
Niech zbiór oryginalnych (prawdziwych) dokumentów będzie na przykład
gdzie
= „Zasada Bayesa: zasada, zgodnie z którą przy szacowaniu parametru należy wstępnie założyć, że każda możliwa wartość ma równe prawdopodobieństwo (jednorodny rozkład a priori).”
= " Bayesowska teoria decyzji : Matematyczna teoria podejmowania decyzji, która zakłada funkcje użyteczności i prawdopodobieństwa, i zgodnie z którą aktem do wyboru jest akt Bayesa, tj. taki, który ma najwyższą subiektywną oczekiwaną użyteczność. moc, z jaką można podejmować każdą decyzję, ta procedura byłaby najlepszym sposobem na podjęcie jakiejkolwiek decyzji”.
= „ Epistemologia bayesowska : teoria filozoficzna, która utrzymuje, że epistemiczny status zdania (tj. jak dobrze jest udowodnione lub dobrze ugruntowane) najlepiej mierzyć prawdopodobieństwem i że właściwy sposób rewizji tego prawdopodobieństwa jest podany przez warunkowość bayesowską lub podobną. Bayesowski epistemolog wykorzystałby prawdopodobieństwo do zdefiniowania i zbadania relacji między pojęciami, takimi jak status epistemiczny, wsparcie lub moc wyjaśniająca”.
Niech zbiór terminów będzie następujący:
Następnie zestaw dokumentów wygląda następująco:
gdzie
Niech zapytanie będzie:
- W pierwszej kolejności uzyskuje się (odzyskiwane) następujące komplety i dokumenty :
- Wreszcie, następujące dokumenty są pobierane w odpowiedzi na:
Oznacza to, że oryginalny dokument (odpowiadający ) jest odpowiedzią na .
Oczywiście, jeśli istnieje więcej niż jeden dokument z tą samą reprezentacją, każdy taki dokument jest pobierany. Takie dokumenty są nie do odróżnienia w BIR (innymi słowy równoważne).
Zalety
- Czysty formalizm
- Łatwy do wdrożenia
- Intuicyjna koncepcja
- Jeśli wynikowy zestaw dokumentów jest albo za mały, albo za duży, jest bezpośrednio jasne, którzy operatorzy wytworzą odpowiednio większy lub mniejszy zestaw.
- Daje (ekspertom) użytkownikom poczucie kontroli nad systemem. Natychmiast staje się jasne, dlaczego dokument został pobrany z powodu zapytania.
Niedogodności
- Dokładne dopasowanie może spowodować pobranie za mało lub za dużo dokumentów
- Trudno przetłumaczyć zapytanie na wyrażenie logiczne
- Wszystkie terminy mają jednakową wagę
- Bardziej przypomina pobieranie danych niż wyszukiwanie informacji
- Pobieranie oparte na binarnych kryteriach decyzyjnych bez pojęcia częściowego dopasowania
- Brak rankingu dokumentów (brak skali ocen)
- Potrzeba informacji musi zostać przetłumaczona na wyrażenie logiczne, które większość użytkowników uważa za niewygodne
- Zapytania logiczne formułowane przez użytkowników są najczęściej zbyt uproszczone
- Model często zwraca za mało lub za dużo dokumentów w odpowiedzi na zapytanie użytkownika
Struktury danych i algorytmy
Z czysto formalnego matematycznego punktu widzenia BIR jest prosty. Z praktycznego punktu widzenia należy jednak rozwiązać kilka dalszych problemów, które dotyczą algorytmów i struktur danych, takich jak np. wybór terminów (wybór ręczny lub automatyczny lub oba), stemming , tablice haszujące , odwrócona struktura
plików , i tak dalej.Zestawy haszujące
Inną możliwością jest użycie zestawów skrótów . Każdy dokument jest reprezentowany przez tablicę mieszającą, która zawiera każdy pojedynczy termin tego dokumentu. Ponieważ rozmiar tablicy mieszającej zwiększa się i zmniejsza w czasie rzeczywistym wraz z dodawaniem i usuwaniem terminów, każdy dokument zajmie znacznie mniej miejsca w pamięci. Spowoduje jednak spowolnienie wydajności, ponieważ operacje są bardziej złożone niż w przypadku wektorów bitowych . W najgorszym przypadku wydajność może spaść z O( n ) do O( n 2 ). W przeciętnym przypadku spowolnienie wydajności nie będzie dużo gorsze niż wektorów bitowych, a wykorzystanie przestrzeni jest znacznie bardziej efektywne.
Plik podpisu
Każdy dokument może być podsumowany przez filtr Bloom reprezentujący zestaw słów w tym dokumencie, przechowywany w ciągu bitów o stałej długości, zwanym podpisem. Plik podpisu zawiera jeden taki nałożony ciąg bitów
kodu dla każdego dokumentu w kolekcji. Każde zapytanie może być również podsumowane przez filtr Bloom reprezentujący zestaw słów w zapytaniu, przechowywany w ciągu bitów o tej samej stałej długości. Ciąg bitów zapytania jest testowany pod kątem każdej sygnatury.Podany plik podpisu jest używany w BitFunnel .
Odwrócony plik
Plik indeksu odwróconego składa się z dwóch części: słownika zawierającego wszystkie terminy użyte w kolekcji oraz dla każdego odrębnego terminu indeks odwrócony, który zawiera listę wszystkich dokumentów, w których występuje ten termin.
Bibliografia
- Laszkari, AH; Mahdavi, F.; Ghomi, V. (2009), "A Boolean Model in Information Retrieval for Search Engines", 2009 Międzynarodowa Konferencja Zarządzania Informacją i Inżynierii , s. 385-389, doi : 10.1109/ICIME.2009.101 , ISBN 978-0-7695-3595-1