System wyszukiwania informacji SMART — SMART Information Retrieval System

SMART (System Analizy Mechanicznej i wyszukiwanie tekstu) system wyszukiwania informacji jest wyszukiwanie informacji system opracowany w Cornell University w 1960 roku. W ramach badań nad systemem SMART opracowano wiele ważnych koncepcji związanych z wyszukiwaniem informacji, w tym model przestrzeni wektorowej , sprzężenie zwrotne istotności i klasyfikację Rocchio .

Gerard Salton kierował grupą, która opracowała SMART. Inni współpracownicy to Mike Lesk .

System SMART zapewnia również zestaw korpusów, zapytań i rankingów referencyjnych, zaczerpniętych z różnych podmiotów, w szczególności

ADI : publikacje z przeglądów informatycznych
Informatyka
Kolekcja Cranfield : publikacje z przeglądów lotniczych aero
Kryminalistyka : bibliotekoznawstwo
Kolekcja MEDLARS : publikacje z przeglądów medycznych
Zbiór czasopisma „Time” : archiwum ogólnego przeglądu „ Czas w 1963 roku”

Do spuścizny systemu SMART należy tzw. potrójna notacja SMART, schemat mnemoniczny do oznaczania wariantów ważenia tf-idf w modelu przestrzeni wektorowej. Mnemonik reprezentujący kombinację wag ma postać ddd.qqq, gdzie pierwsze trzy litery reprezentują wagę terminu w wektorze dokumentu kolekcji, a kolejne trzy litery reprezentują wagę terminu dla wektora dokumentu zapytania. Na przykład ltc.lnnreprezentuje ltcwagę stosowaną do dokumentu kolekcji i lnnwagę stosowaną do dokumentu zapytania.

Poniższe tabele określają notację SMART:

Symbole i notacja
${\textstyle D_{i}=\{w_{i_{1}},w_{i_{2}},\ldots ,w_{i_{t}}\}}$ reprezentuje wektor dokumentu, gdzie jest wagą terminu w i jest liczbą unikalnych terminów w . Cechy dodatnie charakteryzują terminy występujące w dokumencie, a waga zero jest używana dla terminów nieobecnych w dokumencie. ${\textstyle w_{i_{k}}}$ ${\textstyle T_{k}}$ ${\textstyle D_{i}}$ $t$ ${\textstyle D_{i}}$
${\textstyle f_{i_{k}}}$	Częstotliwość występowania terminu w dokumencie ${\textstyle T_{k}}$ ${\textstyle D_{i}}$	${\textstyle u_{i}}$	Liczba unikalnych terminów w dokumencie ${\textstyle D_{i}}$
${\ Displaystyle N}$	Liczba dokumentów inkasowych	$\operatorname {średnia} (u)$	Średnia liczba unikalnych terminów w dokumencie
${\textstyle n_{k}}$	Liczba dokumentów z obecnym terminem ${\textstyle T_{k}}$	$b_{t}$	Liczba znaków w dokumencie $D_{i}$
${\ Displaystyle \ max (f_ {i_ {k}})}$	Częstotliwość występowania najczęstszego terminu w dokumencie $D_{i}$	${\textstyle \operatorname {średnia} (b)}$	Średnia liczba znaków w dokumencie
${\ Displaystyle \ operatorname {średnia} (f_ {i_ {k}})}$	Średnia częstotliwość występowania terminu w dokumencie $D_{i}$	${\textstyle G}$	Globalne statystyki kolekcji
$s$	Nachylenie w kontekście obróconej normalizacji długości dokumentu

Inteligentna potrójna notacja ważona termicznie
Termin częstotliwość ${\textstyle {\text{tf}}(f_{i_{k}})}$				Częstotliwość dokumentów ${\textstyle {\text{df}}(N,n_{k})}$				Normalizacja długości dokumentu ${\textstyle g(G,D_{i})}$
	`b`	${\textstyle 1}$	Waga binarna	`x`	`n`	${\textstyle 1}$	Ignoruje częstotliwość zbierania	`x`	`n`	${\textstyle 1}$	Brak normalizacji długości dokumentu
`t`	`n`	${\textstyle f_{i_{k}}}$	Częstotliwość surowego terminu	`f`		${\ Displaystyle \ log _ {2} \ po lewej ({\ Frac {N} {n_ {k}}} \ po prawej)}$	Odwrotna częstotliwość zbierania		`c`	${\ Displaystyle {\ sqrt {\ suma _ {k = 1} ^ {t} w_ {i_ {k}} ^ {2}}}}$	Normalizacja cosinus
	`a`	${\textstyle 0.5+0.5{\frac {f_{i_{k}}}{\max(f_{i_{k}})}}}$	Rozszerzona znormalizowana częstotliwość terminu		`t`	${\ Displaystyle \ log _ {2} \ lewo ({\ Frac {N + 1} {n_ {k}}} \ po prawej)}$	Odwrotna częstotliwość zbierania		`u`	$1-s+s{\frac {u_{i}}{\operator {średnia} (u)}}$	Obrócona unikalna normalizacja
	`l`	${\ Displaystyle 1+ \ log _ {2} f_ {i_ {k}}}$	Logarytm	`p`		${\ Displaystyle \ log _ {2} \ lewo ({\ Frac {N-n_ {k}} {n_ {k}}} \ po prawej)}$	Probabilistyczna częstotliwość zbierania odwrotnego		`b`	$1-s+s{\frac {b_{i}}{\operator {średnia} (b)}}$	Normalizacja długości znaków obrotowych
	`L`	${\ Displaystyle {\ Frac {1 + \ log _ {2} (f_ {i_ {k}}}) {1 + \ log _ {2} (\ operatorname {średnia} (f_ {i_ {k}}})) }}}$	Normalizacja na podstawie średniej-okresowej częstotliwości
	`d`	${\ Displaystyle 1+ \ log _ {2} (1+ \ log _ {2} (f_ {i_ {k}}}))}$	Podwójny logarytm

Szare litery w pierwszej, piątej i dziewiątej kolumnie to schemat zastosowany przez Saltona i Buckleya w ich pracy z 1988 roku. Pogrubione litery w drugiej, szóstej i dziesiątej kolumnie to schemat stosowany w późniejszych eksperymentach.

Bibliografia

Linki zewnętrzne

Ten artykuł dotyczący inżynierii oprogramowania jest skrótem . Możesz pomóc Wikipedii, rozwijając ją .

Languages

In other projects

System wyszukiwania informacji SMART — SMART Information Retrieval System

Bibliografia

Linki zewnętrzne