System wyszukiwania informacji SMART — SMART Information Retrieval System
SMART (System Analizy Mechanicznej i wyszukiwanie tekstu) system wyszukiwania informacji jest wyszukiwanie informacji system opracowany w Cornell University w 1960 roku. W ramach badań nad systemem SMART opracowano wiele ważnych koncepcji związanych z wyszukiwaniem informacji, w tym model przestrzeni wektorowej , sprzężenie zwrotne istotności i klasyfikację Rocchio .
Gerard Salton kierował grupą, która opracowała SMART. Inni współpracownicy to Mike Lesk .
System SMART zapewnia również zestaw korpusów, zapytań i rankingów referencyjnych, zaczerpniętych z różnych podmiotów, w szczególności
- ADI : publikacje z przeglądów informatycznych
- Informatyka
- Kolekcja Cranfield : publikacje z przeglądów lotniczych aero
- Kryminalistyka : bibliotekoznawstwo
- Kolekcja MEDLARS : publikacje z przeglądów medycznych
- Zbiór czasopisma „Time” : archiwum ogólnego przeglądu „ Czas w 1963 roku”
Do spuścizny systemu SMART należy tzw. potrójna notacja SMART, schemat mnemoniczny do oznaczania wariantów ważenia tf-idf w modelu przestrzeni wektorowej. Mnemonik reprezentujący kombinację wag ma postać ddd.qqq
, gdzie pierwsze trzy litery reprezentują wagę terminu w wektorze dokumentu kolekcji, a kolejne trzy litery reprezentują wagę terminu dla wektora dokumentu zapytania. Na przykład ltc.lnn
reprezentuje ltc
wagę stosowaną do dokumentu kolekcji i lnn
wagę stosowaną do dokumentu zapytania.
Poniższe tabele określają notację SMART:
reprezentuje wektor dokumentu, gdzie jest wagą terminu w i jest liczbą unikalnych terminów w . Cechy dodatnie charakteryzują terminy występujące w dokumencie, a waga zero jest używana dla terminów nieobecnych w dokumencie. | |||
Częstotliwość występowania terminu w dokumencie | Liczba unikalnych terminów w dokumencie | ||
Liczba dokumentów inkasowych | Średnia liczba unikalnych terminów w dokumencie | ||
Liczba dokumentów z obecnym terminem | Liczba znaków w dokumencie | ||
Częstotliwość występowania najczęstszego terminu w dokumencie | Średnia liczba znaków w dokumencie | ||
Średnia częstotliwość występowania terminu w dokumencie | Globalne statystyki kolekcji | ||
Nachylenie w kontekście obróconej normalizacji długości dokumentu |
Termin częstotliwość | Częstotliwość dokumentów | Normalizacja długości dokumentu | |||||||||
---|---|---|---|---|---|---|---|---|---|---|---|
b
|
Waga binarna |
x
|
n
|
Ignoruje częstotliwość zbierania |
x
|
n
|
Brak normalizacji długości dokumentu | ||||
t
|
n
|
Częstotliwość surowego terminu |
f
|
Odwrotna częstotliwość zbierania |
c
|
Normalizacja cosinus | |||||
a
|
Rozszerzona znormalizowana częstotliwość terminu |
t
|
Odwrotna częstotliwość zbierania |
u
|
Obrócona unikalna normalizacja | ||||||
l
|
Logarytm |
p
|
Probabilistyczna częstotliwość zbierania odwrotnego |
b
|
Normalizacja długości znaków obrotowych | ||||||
L
|
Normalizacja na podstawie średniej-okresowej częstotliwości | ||||||||||
d
|
Podwójny logarytm |
Szare litery w pierwszej, piątej i dziewiątej kolumnie to schemat zastosowany przez Saltona i Buckleya w ich pracy z 1988 roku. Pogrubione litery w drugiej, szóstej i dziesiątej kolumnie to schemat stosowany w późniejszych eksperymentach.
Bibliografia
Linki zewnętrzne