Rozszerzony Boolean modelu - Extended Boolean model

Rozszerzony modelu Boolean została opisana w artykule Komunikacji ACM zawartym w 1983 roku Gerard Salton, Edward A. Fox i Harry Wu. Celem rozszerzonego modelu logicznego jest przezwyciężenie wad logicznego modelu, który został użyty w wyszukiwaniu informacji . Boolean model nie bierze pod uwagę utrzymujące ciężarów w zapytaniach, a wynik zestaw Boolean zapytania jest często zbyt małe lub zbyt duże. Pomysł rozszerzonego modelu jest wykorzystanie częściowych dopasowywania i terminowych ciężarami jak w modelu przestrzeni wektorowej. Łączy w sobie cechy wektora przestrzeni modelu z właściwościami algebry Boole'a i plasuje się podobieństwa między zapytaniami i dokumentów. W ten sposób dokument może być nieco istotne czy pasuje niektóre poszukiwana warunkach i będą zwracane w wyniku, natomiast w modelu Standardowy Boolean tak nie było.

Zatem, rozszerzony Boolean model można traktować jako uogólnienie obu modeli logicznych i przestrzeni wektorowej; te dwa są szczególne przypadki, gdy stosowane są odpowiednie ustawienia i definicje. Dalsze badania wykazały skuteczność poprawia względem, że dla operacji przetwarzania zapytań. Inne badania wykazały, że trafność feedback i ekspansja zapytania mogą być zintegrowane z rozszerzonym logicznego przetwarzania zapytań.

Zawartość

1 Definicje
2 W 2 Wymiary Przykład
3 Uogólniając pomysł i p-normy
4 Przykładami
5 ulepszeń w stosunku do standardowego modelu logicznego
6 Ponadto odczytu
7 Zobacz też
8 Odniesienia

definicje

W rozszerzonym modelu logicznego , dokument jest reprezentowana jako wektor (podobnie jak w modelu wektorowym). Każda i wymiar odpowiada odrębnej terminu związanego z dokumentem.

Masa określenie $K x$ związany z dokumentem $d J$ mierzy jego znormalizowanej częstotliwości Term i może być zdefiniowany jako:

${\ Displaystyle W_ {x, J F_} = {X J} * {\ Frac {Idf_ {x}} {max_ {i} Idf_ {i}}}}$

gdzie $Idf x$ jest odwrotnością częstotliwości dokument .

Wektor ciężar związany z dokumentem $d j$ można przedstawić jako:

${\ Displaystyle \ mathbf {v} _ {d_ {j}} = [W_ {1, j} W_ {2} j, \ ldots, w_ {i, j}]}$

Przykład W 2 Wymiary

Figura 1: Podobieństwa

q = (K x \lor K y)

z dokumentów

d j

i

d j +1

.

Figura 2: Podobieństwa

q = (K x \land K y)

z dokumentów

d j

i

d j +1

.

Biorąc pod uwagę miejsca składa się z dwóch określeń $K X$ i $K y$ tylko, odpowiednie ciężary określony są $w 1$ i $w 2$ . Tak więc, na zapytanie $Q lub = (K x \lor K y)$ , można obliczyć podobieństwo do wzoru:

${\ Displaystyle SIM (Q_ {i}, d) = {\ sqrt {\ Frac {W_ {1} ^ {2} + W_ {2} ^ {2}, {2}}}}}$

W przypadku zapytania $q i = (K x \land K y)$ , można użyć:

${\ Displaystyle SIM (Q_ {i}, d) = 1 - {\ sqrt {\ Frac {(1-W_ {1}) ^ {2} + (1-W_ {2}) ^ {2}} {2 }}}}$

Uogólniając pomysł i p-normy

Możemy uogólnić poprzednia 2D rozszerzony przykład Boolean modelu do wyższej przestrzeni t-wymiarowej przy użyciu odległości euklidesowych.

Można to zrobić za pomocą P-normy , która rozszerza pojęcie odległości do obejmują p-dystanse, gdzie $1 \leq p \leq \infty$ to nowy parametr.

Uogólniony zapytania koniunktywna jest dana przez:

{\ Displaystyle Q_ {i} = {1} n_ \ lor ^ {s} K_ {2} \ lor ^ {s} .... \ lor ^ {s} K_ {t}}

Podobieństwo i może być zdefiniowany jako: ${\ Displaystyle Q_ {i}}$ ${\ Displaystyle d_ {j}}$

: ${\ Displaystyle SIM (Q_ {i} d_ {j}) = {\ sqrt [{s}] {\ Frac {W_ {1} ^ P {} + W_ {2} ^ {s} + .... + W_ {T} ^ P {{t}}}}}}$

Uogólniony zapytania dysjunktywny jest dana przez:

{\ Displaystyle Q_ {i} = {1} n_ \ ziemi ^ {s} K_ {2} \ ziemi ^ {s} .... \ ziemi ^ {s} K_ {t}}

Podobieństwo i może być zdefiniowany jako: ${\ Displaystyle Q_ {i}}$ ${\ Displaystyle d_ {j}}$

{\ Displaystyle SIM (Q_ {i} d_ {j}) = 1 - {\ sqrt [{s}] {\ Frac {(1-W_ {1}) ^ {s} + (1-W_ {2} ) ^ {s} + .... + (1-W_ {T}) ^ {P {t}}}}}}

Przykłady

Rozważmy zapytania $Q = (K 1 \land K 2) \lor K 3$ . Podobieństwo zapytania $Q$ i dokument $D$ można obliczyć stosując następujący wzór:

${\ Displaystyle SIM (Q, D) = {\ sqrt [{s}] {\ Frac {(1 - {\ sqrt [{s}] {({\ Frac {(1-W_ {1}) ^ {P } + (1-W_ {2}) ^ {s}} {2}}}})) ^ {s} + W_ {3} ^ P {{2}}}}}}$

Ulepszeń w stosunku do standardowego modelu logicznego

Lee i Fox w porównaniu z standardowym i rozszerzonym logicznych modeli z kolekcji trzy testy, CISI, Ameryki Środkowej i INSPEC. Stosując p-normy uzyskali średnią poprawę dokładności 79%, 106% i 210% w stosunku do standardowego modelu dla zbiorów CISI, CACM i Inspec, odpowiednio.
Model P-norma jest kosztowne obliczeniowo, ze względu na liczbę operacji potęgowania, że wymaga to jednak osiąga znacznie lepsze wyniki niż w modelu standardowym, a nawet Fuzzy pobierania technik. Model standardowy Boolean jest nadal najbardziej efektywne.

Dalsza lektura

Metody adaptacyjne Feedback w rozszerzonym modelu logicznego przez Dr.Jongpill Choi
Interpolacja rozszerzonego modelu logicznego odzyskiwania
Fox, E .; Betrabet, S .; Koushik, M .; Lee, W. (1992), wyszukiwania informacji: Algorytmy i struktury danych; Rozszerzony model logiczny , Prentice Hall, Inc.
Skorkovská, Lucie; Ircing Pavel (2009) Eksperymenty z automatycznym Formułowanie zapytań w rozszerzonym modelu logicznego , Springer Berlin / Heidelberg

Zobacz też

Wyszukiwanie informacji

Languages

In other projects