Model przestrzeni wektorowej oparty na temacie - Topic-based vector space model

Wątek, wektora opartego na przestrzeni modelu (TVSM) (Literatura: [1] ) rozciąga się wektor obszaru modelu o pobierania informacji usuwając ograniczeniu, że termin-wektory są ortogonalne. Założenie o terminach ortogonalnych jest nieprawidłowe w odniesieniu do języków naturalnych, co powoduje problemy z synonimami i silnymi terminami pokrewnymi. Ułatwia to korzystanie z list pomijanych, słów kluczowych i tezaurusa w programie TVSM. W przeciwieństwie do uogólnionego modelu przestrzeni wektorowej, TVSM nie zależy od podobieństw opartych na współbieżności między terminami.

Definicje

Podstawową przesłanką TVSM jest istnienie d czasoprzestrzeni R tylko z pozytywnych przecięcia osi, to znaczy R w R + i D w N + . Każdy wymiar R reprezentuje podstawowy temat. Termin wektor T ma ciężar właściwy dla pewnego R . Przy obliczaniu tych wag przyjęto założenia biorąc pod uwagę treść dokumentu. Idealnie ważne terminy będą miały dużą wagę, a pomijane słowa, a terminy nieistotne w temacie będą miały niską wagę. Model dokumentu TVSM jest sumą wektorów terminów reprezentujących terminy w dokumencie. Podobieństwo między dwoma dokumentami Di i Dj definiuje się jako iloczyn skalarny wektorów dokumentów.

Ulepszony model przestrzeni wektorowej oparty na temacie

Udoskonalenie modelu eTVSM (Enhanced Topic-based Vector Space Model) (literatura: [2] ) jest propozycją wyprowadzania wektorów terminów z ontologii . Używanie synonimu Ontology stworzonego z WordNet Kuropka daje dobre wyniki w zakresie podobieństwa dokumentów. Jeśli używana jest trywialna ontologia, wyniki są podobne do modelu przestrzeni wektorowej.

Wdrożenia

Bibliografia