Rozszerzony Boolean modelu - Extended Boolean model

Rozszerzony modelu Boolean została opisana w artykule Komunikacji ACM zawartym w 1983 roku Gerard Salton, Edward A. Fox i Harry Wu. Celem rozszerzonego modelu logicznego jest przezwyciężenie wad logicznego modelu, który został użyty w wyszukiwaniu informacji . Boolean model nie bierze pod uwagę utrzymujące ciężarów w zapytaniach, a wynik zestaw Boolean zapytania jest często zbyt małe lub zbyt duże. Pomysł rozszerzonego modelu jest wykorzystanie częściowych dopasowywania i terminowych ciężarami jak w modelu przestrzeni wektorowej. Łączy w sobie cechy wektora przestrzeni modelu z właściwościami algebry Boole'a i plasuje się podobieństwa między zapytaniami i dokumentów. W ten sposób dokument może być nieco istotne czy pasuje niektóre poszukiwana warunkach i będą zwracane w wyniku, natomiast w modelu Standardowy Boolean tak nie było.

Zatem, rozszerzony Boolean model można traktować jako uogólnienie obu modeli logicznych i przestrzeni wektorowej; te dwa są szczególne przypadki, gdy stosowane są odpowiednie ustawienia i definicje. Dalsze badania wykazały skuteczność poprawia względem, że dla operacji przetwarzania zapytań. Inne badania wykazały, że trafność feedback i ekspansja zapytania mogą być zintegrowane z rozszerzonym logicznego przetwarzania zapytań.

definicje

W rozszerzonym modelu logicznego , dokument jest reprezentowana jako wektor (podobnie jak w modelu wektorowym). Każda i wymiar odpowiada odrębnej terminu związanego z dokumentem.

Masa określenie K x związany z dokumentem d J mierzy jego znormalizowanej częstotliwości Term i może być zdefiniowany jako:

gdzie Idf x jest odwrotnością częstotliwości dokument .

Wektor ciężar związany z dokumentem d j można przedstawić jako:

Przykład W 2 Wymiary

Figura 1
Figura 1: Podobieństwa q = ( K xK y ) z dokumentów d j i d j +1 .
Rysunek 2
Figura 2: Podobieństwa q = ( K xK y ) z dokumentów d j i d j +1 .

Biorąc pod uwagę miejsca składa się z dwóch określeń K X i K y tylko, odpowiednie ciężary określony są w 1 i w 2 . Tak więc, na zapytanie Q lub = ( K xK y ) , można obliczyć podobieństwo do wzoru:

W przypadku zapytania q i = ( K xK y ) , można użyć:

Uogólniając pomysł i p-normy

Możemy uogólnić poprzednia 2D rozszerzony przykład Boolean modelu do wyższej przestrzeni t-wymiarowej przy użyciu odległości euklidesowych.

Można to zrobić za pomocą P-normy , która rozszerza pojęcie odległości do obejmują p-dystanse, gdzie 1 ≤ p ≤ ∞ to nowy parametr.

  • Uogólniony zapytania koniunktywna jest dana przez:
  • Podobieństwo i może być zdefiniowany jako:

:

  • Uogólniony zapytania dysjunktywny jest dana przez:
  • Podobieństwo i może być zdefiniowany jako:

Przykłady

Rozważmy zapytania Q = ( K 1K 2 ) ∨ K 3 . Podobieństwo zapytania Q i dokument D można obliczyć stosując następujący wzór:

Ulepszeń w stosunku do standardowego modelu logicznego

Lee i Fox w porównaniu z standardowym i rozszerzonym logicznych modeli z kolekcji trzy testy, CISI, Ameryki Środkowej i INSPEC. Stosując p-normy uzyskali średnią poprawę dokładności 79%, 106% i 210% w stosunku do standardowego modelu dla zbiorów CISI, CACM i Inspec, odpowiednio.
Model P-norma jest kosztowne obliczeniowo, ze względu na liczbę operacji potęgowania, że wymaga to jednak osiąga znacznie lepsze wyniki niż w modelu standardowym, a nawet Fuzzy pobierania technik. Model standardowy Boolean jest nadal najbardziej efektywne.

Dalsza lektura

  • Metody adaptacyjne Feedback w rozszerzonym modelu logicznego przez Dr.Jongpill Choi
  • Interpolacja rozszerzonego modelu logicznego odzyskiwania
  • Fox, E .; Betrabet, S .; Koushik, M .; Lee, W. (1992), wyszukiwania informacji: Algorytmy i struktury danych; Rozszerzony model logiczny , Prentice Hall, Inc.
  • Skorkovská, Lucie; Ircing Pavel (2009) Eksperymenty z automatycznym Formułowanie zapytań w rozszerzonym modelu logicznego , Springer Berlin / Heidelberg

Zobacz też

Referencje