Model przestrzeni wektorowej — Vector space model

Model przestrzeni wektorowej lub model wektora terminów to model algebraiczny do przedstawiania dokumentów tekstowych (i ogólnie dowolnych obiektów) jako wektorów identyfikatorów (takich jak terminy indeksowe). Jest on stosowany w filtrowania informacji , wyszukiwania informacji , indeksowania i rankingu trafności. Jego pierwsze zastosowanie miało miejsce w SMART Information Retrieval System .

Definicje

Dokumenty i zapytania są reprezentowane jako wektory.

Każdy wymiar odpowiada osobnemu pojęciu. Jeśli w dokumencie występuje termin, jego wartość w wektorze jest niezerowa. Opracowano kilka różnych sposobów obliczania tych wartości, znanych również jako wagi (terminowe). Jednym z najbardziej znanych schematów jest ważenie tf-idf (patrz przykład poniżej).

Definicja terminu zależy od aplikacji. Zazwyczaj terminy to pojedyncze słowa, słowa kluczowe lub dłuższe wyrażenia. Jeśli słowa są wybrane jako terminy, wymiarowością wektora jest liczba słów w słowniku (liczba odrębnych słów występujących w korpusie ).

Operacje wektorowe mogą służyć do porównywania dokumentów z zapytaniami.

Aplikacje

Model przestrzeni wektorowej.jpg

Rankingi istotności dokumentów w wyszukiwaniu słów kluczowych można obliczyć, korzystając z założeń teorii podobieństwa dokumentów , porównując odchylenia kątów między każdym wektorem dokumentu a oryginalnym wektorem zapytania, gdzie zapytanie jest reprezentowane jako wektor o tym samym wymiarze co wektory, które reprezentować inne dokumenty.

W praktyce łatwiej jest obliczyć cosinus kąta między wektorami niż sam kąt:

Gdzie jest przecięciem (tj. iloczyn skalarny ) dokumentu (d 2 na rysunku po prawej) i zapytania (q na rysunku) wektorów, jest normą wektora d 2 , a normą wektora q. Normą wektora jest obliczana w następujący sposób:

Używając cosinusa podobieństwo między dokumentem d j a zapytaniem q można obliczyć jako:

Ponieważ wszystkie wektory rozważane przez ten model są nieujemne pod względem elementów, wartość cosinusa równa zero oznacza, że ​​wektor zapytania i dokumentu są ortogonalne i nie pasują do siebie (tj. termin zapytania nie istnieje w rozważanym dokumencie). Zobacz podobieństwo cosinus w celu uzyskania dalszych informacji.

Termin odwrotność częstotliwości dokumentu wagi częstotliwości

W klasycznym modelu przestrzeni wektorowej zaproponowanym przez Saltona , Wonga i Yanga wagi terminów w wektorach dokumentu są iloczynami parametrów lokalnych i globalnych. Model ten jest znany jako termin odwrotny częstotliwościowo model częstotliwości dokumentu . Wektor wagowy dla dokumentu d to , gdzie

oraz

  • jest częstością termu t w dokumencie d (parametr lokalny)
  • jest odwrotną częstotliwością dokumentu (parametr globalny). to łączna liczba dokumentów w zestawie dokumentów; to liczba dokumentów zawierających termin t .

Zalety

Model przestrzeni wektorowej ma następujące zalety w porównaniu ze standardowym modelem boolowskim :

  1. Prosty model oparty na algebrze liniowej
  2. Wagi terminów nie binarne
  3. Umożliwia obliczanie ciągłego stopnia podobieństwa między zapytaniami a dokumentami
  4. Umożliwia ranking dokumentów według ich możliwej trafności
  5. Umożliwia częściowe dopasowanie

Większość z tych zalet jest konsekwencją różnicy w gęstości reprezentacji kolekcji dokumentów między podejściem boolowskim a terminowym podejściem częstości występowania dokumentów z odwrotnością częstotliwości. W przypadku używania wag logicznych każdy dokument leży w wierzchołku n-wymiarowego hipersześcianu . Dlatego możliwe są reprezentacje dokumentów, a maksymalna odległość euklidesowa między parami wynosi . Gdy dokumenty są dodawane do kolekcji dokumentów, region zdefiniowany przez wierzchołki hipersześcianu staje się bardziej zaludniony, a tym samym gęstszy. W przeciwieństwie do Boolean, gdy dokument jest dodawany przy użyciu odwróconych wag częstości występowania terminów w dokumencie, odwrotne częstotliwości występowania terminów w dokumencie w nowym dokumencie zmniejszają się, podczas gdy w przypadku pozostałych terminów wzrastają. Średnio wraz z dodawaniem dokumentów rozszerza się region, w którym znajdują się dokumenty, regulując gęstość reprezentacji całej kolekcji. To zachowanie odzwierciedla pierwotną motywację Saltona i jego współpracowników, że kolekcja dokumentów reprezentowana w regionie o niskiej gęstości może dać lepsze wyniki wyszukiwania.

Ograniczenia

Model przestrzeni wektorowej ma następujące ograniczenia:

  1. Długie dokumenty są słabo reprezentowane, ponieważ mają słabe wartości podobieństwa (mały iloczyn skalarny i duża wymiarowość )
  2. Wyszukiwane słowa kluczowe muszą dokładnie odpowiadać terminom w dokumencie; podciągi słów mogą skutkować „ fałszywie pozytywnym dopasowaniem”
  3. Czułość semantyczna; dokumenty o podobnym kontekście, ale innym słownictwie terminów nie będą skojarzone, co spowoduje „ fałszywe dopasowanie negatywne ”.
  4. Kolejność, w jakiej terminy pojawiają się w dokumencie, zostaje utracona w reprezentacji przestrzeni wektorowej.
  5. Teoretycznie zakłada się, że terminy są statystycznie niezależne.
  6. Ważenie jest intuicyjne, ale niezbyt formalne.

Wiele z tych trudności można jednak przezwyciężyć poprzez integrację różnych narzędzi, w tym technik matematycznych, takich jak dekompozycja według wartości osobliwych i leksykalnych baz danych, takich jak WordNet .

Modele oparte i rozszerzające model przestrzeni wektorowej

Modele oparte na modelu przestrzeni wektorowej i rozszerzające go obejmują:

Oprogramowanie implementujące model przestrzeni wektorowej

Poniższe pakiety oprogramowania mogą zainteresować osoby, które chcą eksperymentować z modelami wektorowymi i wdrażać oparte na nich usługi wyszukiwania.

Darmowe oprogramowanie open source

Dalsza lektura

Zobacz też

Bibliografia