System wyszukiwania informacji SMART — SMART Information Retrieval System

SMART (System Analizy Mechanicznej i wyszukiwanie tekstu) system wyszukiwania informacji jest wyszukiwanie informacji system opracowany w Cornell University w 1960 roku. W ramach badań nad systemem SMART opracowano wiele ważnych koncepcji związanych z wyszukiwaniem informacji, w tym model przestrzeni wektorowej , sprzężenie zwrotne istotności i klasyfikację Rocchio .

Gerard Salton kierował grupą, która opracowała SMART. Inni współpracownicy to Mike Lesk .

System SMART zapewnia również zestaw korpusów, zapytań i rankingów referencyjnych, zaczerpniętych z różnych podmiotów, w szczególności

Do spuścizny systemu SMART należy tzw. potrójna notacja SMART, schemat mnemoniczny do oznaczania wariantów ważenia tf-idf w modelu przestrzeni wektorowej. Mnemonik reprezentujący kombinację wag ma postać ddd.qqq, gdzie pierwsze trzy litery reprezentują wagę terminu w wektorze dokumentu kolekcji, a kolejne trzy litery reprezentują wagę terminu dla wektora dokumentu zapytania. Na przykład ltc.lnnreprezentuje ltcwagę stosowaną do dokumentu kolekcji i lnnwagę stosowaną do dokumentu zapytania.

Poniższe tabele określają notację SMART:

Symbole i notacja
reprezentuje wektor dokumentu, gdzie jest wagą terminu w i jest liczbą unikalnych terminów w . Cechy dodatnie charakteryzują terminy występujące w dokumencie, a waga zero jest używana dla terminów nieobecnych w dokumencie.
Częstotliwość występowania terminu w dokumencie Liczba unikalnych terminów w dokumencie
Liczba dokumentów inkasowych Średnia liczba unikalnych terminów w dokumencie
Liczba dokumentów z obecnym terminem Liczba znaków w dokumencie
Częstotliwość występowania najczęstszego terminu w dokumencie Średnia liczba znaków w dokumencie
Średnia częstotliwość występowania terminu w dokumencie Globalne statystyki kolekcji
Nachylenie w kontekście obróconej normalizacji długości dokumentu
Inteligentna potrójna notacja ważona termicznie
Termin częstotliwość Częstotliwość dokumentów Normalizacja długości dokumentu
b Waga binarna x n Ignoruje częstotliwość zbierania x n Brak normalizacji długości dokumentu
t n Częstotliwość surowego terminu f Odwrotna częstotliwość zbierania c Normalizacja cosinus
a Rozszerzona znormalizowana częstotliwość terminu t Odwrotna częstotliwość zbierania u Obrócona unikalna normalizacja
l Logarytm p Probabilistyczna częstotliwość zbierania odwrotnego b Normalizacja długości znaków obrotowych
L Normalizacja na podstawie średniej-okresowej częstotliwości
d Podwójny logarytm

Szare litery w pierwszej, piątej i dziewiątej kolumnie to schemat zastosowany przez Saltona i Buckleya w ich pracy z 1988 roku. Pogrubione litery w drugiej, szóstej i dziesiątej kolumnie to schemat stosowany w późniejszych eksperymentach.

Bibliografia

Linki zewnętrzne