Model przestrzeni wektorowej — Vector space model

Model przestrzeni wektorowej lub model wektora terminów to model algebraiczny do przedstawiania dokumentów tekstowych (i ogólnie dowolnych obiektów) jako wektorów identyfikatorów (takich jak terminy indeksowe). Jest on stosowany w filtrowania informacji , wyszukiwania informacji , indeksowania i rankingu trafności. Jego pierwsze zastosowanie miało miejsce w SMART Information Retrieval System .

Definicje

Dokumenty i zapytania są reprezentowane jako wektory.

{\ Displaystyle d_ {j} = (w_ {1, j}, w_ {2, j}, \ kropki, w_ {t, j})}

{\ Displaystyle q = (w_ {1, q}, w_ {2, q}, \ kropki, w_ {n, q})}

Każdy wymiar odpowiada osobnemu pojęciu. Jeśli w dokumencie występuje termin, jego wartość w wektorze jest niezerowa. Opracowano kilka różnych sposobów obliczania tych wartości, znanych również jako wagi (terminowe). Jednym z najbardziej znanych schematów jest ważenie tf-idf (patrz przykład poniżej).

Definicja terminu zależy od aplikacji. Zazwyczaj terminy to pojedyncze słowa, słowa kluczowe lub dłuższe wyrażenia. Jeśli słowa są wybrane jako terminy, wymiarowością wektora jest liczba słów w słowniku (liczba odrębnych słów występujących w korpusie ).

Operacje wektorowe mogą służyć do porównywania dokumentów z zapytaniami.

Aplikacje

Rankingi istotności dokumentów w wyszukiwaniu słów kluczowych można obliczyć, korzystając z założeń teorii podobieństwa dokumentów , porównując odchylenia kątów między każdym wektorem dokumentu a oryginalnym wektorem zapytania, gdzie zapytanie jest reprezentowane jako wektor o tym samym wymiarze co wektory, które reprezentować inne dokumenty.

W praktyce łatwiej jest obliczyć cosinus kąta między wektorami niż sam kąt:

{\ Displaystyle \ cos {\ theta} = {\ Frac {\ mathbf {d_ {2}} \ cdot \ mathbf {q}} {\ po lewej \ | \ mathbf {d_ {2}} \ po prawej \ | \ po lewej \ |\mathbf {q} \right\|}}}

Gdzie jest przecięciem (tj. iloczyn skalarny ) dokumentu (d ₂ na rysunku po prawej) i zapytania (q na rysunku) wektorów, jest normą wektora d ₂ , a normą wektora q. Normą wektora jest obliczana w następujący sposób: ${\ Displaystyle \ mathbf {d_ {2}} \ cdot \ mathbf {q}}$ ${\ Displaystyle \ lewo \ | \ mathbf {d_ {2}} \ prawo \ |}$ ${\ Displaystyle \ lewo \ | \ mathbf {q} \ prawo \ |}$

{\ Displaystyle \ lewo \ | \ mathbf {q} \ prawo \ | = {\ sqrt {\ suma _ {i = 1} ^ {n} q_ {i} ^ {2}}}}

Używając cosinusa podobieństwo między dokumentem d _j a zapytaniem q można obliczyć jako:

{\ Displaystyle \ operatorname {cos} (d_ {j}, q) = {\ Frac {\ mathbf {d_ {j}} \ cdot \ mathbf {q}} {\ lewo \ | \ mathbf {d_ {j}} \right\|\left\|\mathbf {q} \right\|}}={\frac {\sum _{i=1}^{N}w_{i,j}w_{i,q}}{ {\sqrt {\sum _{i=1}^{N}w_{i,j}^{2}}}{\sqrt {\sum _{i=1}^{N}w_{i,q} ^{2}}}}}}

Ponieważ wszystkie wektory rozważane przez ten model są nieujemne pod względem elementów, wartość cosinusa równa zero oznacza, że wektor zapytania i dokumentu są ortogonalne i nie pasują do siebie (tj. termin zapytania nie istnieje w rozważanym dokumencie). Zobacz podobieństwo cosinus w celu uzyskania dalszych informacji.

Termin odwrotność częstotliwości dokumentu wagi częstotliwości

W klasycznym modelu przestrzeni wektorowej zaproponowanym przez Saltona , Wonga i Yanga wagi terminów w wektorach dokumentu są iloczynami parametrów lokalnych i globalnych. Model ten jest znany jako termin odwrotny częstotliwościowo model częstotliwości dokumentu . Wektor wagowy dla dokumentu d to , gdzie ${\ Displaystyle \ mathbf {v} _ {d} = [w_ {1, d}, w_ {2, d}, \ ldots, w_ {N, d}] ^ {T}}$

{\ Displaystyle w_ {t, d} = \ operatorname {tf} _ {t, d} \ cdot \ log {\ Frac {| D |} {| \ {d' \ w D \, | \, t \ w d'\}|}}}

oraz

${\ Displaystyle \ operatorname {tf} _ {t, d}}$ jest częstością termu t w dokumencie d (parametr lokalny)
${\ Displaystyle \ log {\ Frac {| D |} {| \ {d'\ w D \, | \, t \ w d' \} |}}}$ jest odwrotną częstotliwością dokumentu (parametr globalny). to łączna liczba dokumentów w zestawie dokumentów; to liczba dokumentów zawierających termin t . $|D|$ $|\{d'\w d\,|\,t\w d'\}|$

Zalety

Model przestrzeni wektorowej ma następujące zalety w porównaniu ze standardowym modelem boolowskim :

Prosty model oparty na algebrze liniowej
Wagi terminów nie binarne
Umożliwia obliczanie ciągłego stopnia podobieństwa między zapytaniami a dokumentami
Umożliwia ranking dokumentów według ich możliwej trafności
Umożliwia częściowe dopasowanie

Większość z tych zalet jest konsekwencją różnicy w gęstości reprezentacji kolekcji dokumentów między podejściem boolowskim a terminowym podejściem częstości występowania dokumentów z odwrotnością częstotliwości. W przypadku używania wag logicznych każdy dokument leży w wierzchołku n-wymiarowego hipersześcianu . Dlatego możliwe są reprezentacje dokumentów, a maksymalna odległość euklidesowa między parami wynosi . Gdy dokumenty są dodawane do kolekcji dokumentów, region zdefiniowany przez wierzchołki hipersześcianu staje się bardziej zaludniony, a tym samym gęstszy. W przeciwieństwie do Boolean, gdy dokument jest dodawany przy użyciu odwróconych wag częstości występowania terminów w dokumencie, odwrotne częstotliwości występowania terminów w dokumencie w nowym dokumencie zmniejszają się, podczas gdy w przypadku pozostałych terminów wzrastają. Średnio wraz z dodawaniem dokumentów rozszerza się region, w którym znajdują się dokumenty, regulując gęstość reprezentacji całej kolekcji. To zachowanie odzwierciedla pierwotną motywację Saltona i jego współpracowników, że kolekcja dokumentów reprezentowana w regionie o niskiej gęstości może dać lepsze wyniki wyszukiwania. ${\ Displaystyle 2 ^ {n}}$ ${\sqrt {n}}$

Ograniczenia

Model przestrzeni wektorowej ma następujące ograniczenia:

Długie dokumenty są słabo reprezentowane, ponieważ mają słabe wartości podobieństwa (mały iloczyn skalarny i duża wymiarowość )
Wyszukiwane słowa kluczowe muszą dokładnie odpowiadać terminom w dokumencie; podciągi słów mogą skutkować „ fałszywie pozytywnym dopasowaniem”
Czułość semantyczna; dokumenty o podobnym kontekście, ale innym słownictwie terminów nie będą skojarzone, co spowoduje „ fałszywe dopasowanie negatywne ”.
Kolejność, w jakiej terminy pojawiają się w dokumencie, zostaje utracona w reprezentacji przestrzeni wektorowej.
Teoretycznie zakłada się, że terminy są statystycznie niezależne.
Ważenie jest intuicyjne, ale niezbyt formalne.

Wiele z tych trudności można jednak przezwyciężyć poprzez integrację różnych narzędzi, w tym technik matematycznych, takich jak dekompozycja według wartości osobliwych i leksykalnych baz danych, takich jak WordNet .

Modele oparte i rozszerzające model przestrzeni wektorowej

Modele oparte na modelu przestrzeni wektorowej i rozszerzające go obejmują:

Oprogramowanie implementujące model przestrzeni wektorowej

Poniższe pakiety oprogramowania mogą zainteresować osoby, które chcą eksperymentować z modelami wektorowymi i wdrażać oparte na nich usługi wyszukiwania.

Darmowe oprogramowanie open source

Apache Lucene . Apache Lucene to wydajna, otwarta, w pełni funkcjonalna biblioteka tekstowa wyszukiwarki napisana w całości w Javie.
Elasticsearch i Solr : 2 najbardziej znane programy do wyszukiwania (istnieje wiele mniejszych) oparte na Lucene.
Gensim to framework Python+ NumPy do modelowania przestrzeni wektorowej. Zawiera przyrostowe (wydajne pamięciowo) algorytmy dla terminów częstotliwości dokumentu odwrotnej do częstotliwości , ukrytego indeksowania semantycznego , losowych projekcji i utajonego przydziału Dirichleta .
Weka . Weka to popularny pakiet do eksploracji danych dla Javy, zawierający modele WordVectors i Bag Of Words .
Word2vec . Word2vec używa przestrzeni wektorowych do osadzania słów.

Dalsza lektura

G. Salton (1962), „ Niektóre eksperymenty w generowaniu skojarzeń słów i dokumentów ” Proceeding AFIPS '62 (jesień) Proceedings of the 4-6 grudnia 1962, jesienna wspólna konferencja komputerowa , s. 234-250. (Wczesny artykuł Saltona wykorzystujący formalizację macierzy termin-dokument)
G. Salton , A. Wong i CS Yang (1975), „ A Vector Space Model for Automatic Indexing ” Communications of the ACM , vol. 18, nr. 11, strony 613–620. (Artykuł, w którym przedstawiono model przestrzeni wektorowej)
David Dubin (2004), The Most Influential Paper Gerard Salton Never Wrote (Wyjaśnia historię modelu przestrzeni wektorowej i nieistnienie często cytowanej publikacji)
Opis modelu przestrzeni wektorowej
Opis klasycznego modelu przestrzeni wektorowej autorstwa dr E. Garcia
Związek przeszukiwania przestrzeni wektorowej z przeszukiwaniem "k-Nearest Neighbor"

Languages

In other projects