Okapi BM25 - Okapi BM25

W wyszukiwaniu informacji , Okapi BM25 ( BM jest skrótem od najlepszego dopasowania ) jest ranking funkcja wykorzystywana przez wyszukiwarki , aby oszacować znaczenie dokumentów do danego zapytania. Opiera się na probabilistycznej strukturze wyszukiwania opracowanej w latach 70. i 80. XX wieku przez Stephena E. Robertsona , Karen Spärck Jones i innych.

Nazwa rzeczywistej funkcji rankingu to BM25 . Pełniejsze nazwa, Okapi BM25 , zawiera nazwę pierwszego systemu do korzystania z niego, która była Okapi systemu pozyskiwania informacji, realizowany w London „s City University w latach 1980 i 1990. BM25 i jego nowsze warianty, np. BM25F (wersja BM25, która może uwzględniać strukturę dokumentu i tekst zakotwiczenia), reprezentują najnowocześniejsze funkcje pobierania podobne do TF-IDF , używane w odzyskiwaniu dokumentów.

Funkcja rankingu

BM25 to funkcja wyszukiwania worka słów, która klasyfikuje zestaw dokumentów na podstawie terminów zapytania pojawiających się w każdym dokumencie, niezależnie od ich bliskości w dokumencie. Jest to rodzina funkcji scoringowych o nieco innych składowych i parametrach. Oto jedna z najbardziej znanych instancji funkcji.

Biorąc pod uwagę zapytanie $Q$ , zawierające słowa kluczowe , wynik BM25 dokumentu $D$ wynosi: ${\ displaystyle q_ {1}, ..., q_ {n}}$

{\ Displaystyle {\ tekst {wynik}} (d, p) = \ suma _ {i = 1} ^ {n} {\ tekst {IDF}} (q_ {i}) \ cdot {\ frac {f (q_ {i}, D) \ cdot (k_ {1} +1)} {f (q_ {i}, D) + k_ {1} \ cdot \ left (1-b + b \ cdot {\ frac {| D |} {\ text {avgdl}}} \ right)}}}

gdzie to jest częstotliwość określenie w dokumencie $D$ , to długość dokumentu $D$ w słowach, a $avgdl$ jest średnia długość dokumentu w kolekcji tekstu, z którego dokumenty zostały sporządzone. oraz $b$ są dowolnymi parametrami, zwykle wybieranymi, przy braku zaawansowanej optymalizacji, jak i . jest wagą IDF ( odwrotna częstotliwość dokumentu ) zapytania . Zwykle jest obliczany jako: ${\ displaystyle f (q_ {i}, D)}$ ${\ displaystyle q_ {i}}$ ${\ displaystyle | D |}$ ${\ displaystyle k_ {1}}$ ${\ Displaystyle k_ {1} \ in [1.2,2.0]}$ ${\ displaystyle b = 0,75}$ ${\ displaystyle {\ text {IDF}} (q_ {i})}$ ${\ displaystyle q_ {i}}$

{\ Displaystyle {\ tekst {IDF}} (q_ {i}) = \ ln \ lewo ({\ Frac {Nn (q_ {i}) + 0,5} {n (q_ {i}) + 0,5}} + 1 \dobrze)}

gdzie $N$ to całkowita liczba dokumentów w kolekcji, a to liczba dokumentów zawierających . ${\ Displaystyle n (q_ {i})}$ ${\ displaystyle q_ {i}}$

Istnieje kilka interpretacji IDF i niewielkie różnice w jego formule. W oryginalnym wyprowadzeniu BM25 komponent IDF pochodzi z Binary Independence Model .

Teoretyczna interpretacja informacji IDF

Oto interpretacja z teorii informacji. Załóżmy, że w dokumentach pojawia się zapytanie . Następnie losowo wybrany dokument będzie zawierał termin z prawdopodobieństwem (gdzie znowu jest moc zbioru dokumentów w kolekcji). Dlatego treść informacyjna wiadomości „ zawiera ” jest następująca: ${\ displaystyle q}$ ${\ Displaystyle n (q)}$ ${\ displaystyle D}$ ${\ Displaystyle {\ Frac {n (q)} {N}}}$ ${\ displaystyle N}$ ${\ displaystyle D}$ ${\ displaystyle q}$

{\ Displaystyle - \ log {\ Frac {n (q)} {N}} = \ log {\ Frac {N} {n (q)}}.}

Załóżmy teraz, że mamy dwa terminy zapytania i . Jeśli te dwa terminy występują w dokumentach całkowicie niezależnie od siebie, to prawdopodobieństwo ich zobaczenia oraz w losowo wybranym dokumencie wynosi: ${\ displaystyle q_ {1}}$ ${\ displaystyle q_ {2}}$ ${\ displaystyle q_ {1}}$ ${\ displaystyle q_ {2}}$ ${\ displaystyle D}$

{\ Displaystyle {\ Frac {n (q_ {1})} {N}} \ cdot {\ Frac {n (q_ {2})} {N}},}

a treść informacyjna takiego wydarzenia to:

{\ Displaystyle \ sum _ {i = 1} ^ {2} \ log {\ Frac {N} {n (q_ {i})}}.}

Z niewielkimi odchyleniami jest to dokładnie to, co wyraża komponent IDF BM25.

Modyfikacje

Przy skrajnych wartościach współczynnika $b$ BM25 zamienia się w funkcje rankingowe znane jako BM11 (za ) i BM15 (za ). ${\ displaystyle b = 1}$ ${\ displaystyle b = 0}$
BM25F to modyfikacja BM25, w której uznaje się, że dokument składa się z kilku pól (takich jak nagłówki, tekst główny, tekst kotwicy) o możliwie różnych stopniach ważności, nasyceniu znaczenia terminów i normalizacji długości.
BM25 + jest rozszerzeniem BM25. BM25 + został opracowany w celu rozwiązania jednego z braków standardu BM25, w którym składnik normalizacji częstotliwości terminów według długości dokumentu nie jest odpowiednio ograniczony dolną granicą; w wyniku tego braku, długie dokumenty, które nie pasują do zapytania, mogą być często oceniane nieuczciwie przez BM25 jako mające podobne znaczenie do krótszych dokumentów, które w ogóle nie zawierają zapytania. Formuła oceny BM25 + ma tylko jeden dodatkowy wolny parametr (wartość domyślna to $1,0$ w przypadku braku danych treningowych) w porównaniu z BM25: ${\ displaystyle \ delta}$

{\ Displaystyle {\ tekst {wynik}} (d, p) = \ suma _ {i = 1} ^ {n} {\ tekst {IDF}} (q_ {i}) \ cdot \ lewo [{\ frac { f (q_ {i}, D) \ cdot (k_ {1} +1)} {f (q_ {i}, D) + k_ {1} \ cdot \ left (1-b + b \ cdot {\ frac {| D |} {\ text {avgdl}}} \ right)}} + \ delta \ right]}

Bibliografia

Ogólne odniesienia

Stephen E. Robertson; Steve Walker; Susan Jones; Micheline Hancock-Beaulieu & Mike Gatford (listopad 1994). Okapi w TREC-3 . Materiały z trzeciej konferencji Text REtrieval (TREC 1994) . Gaithersburg, Stany Zjednoczone.
Stephen E. Robertson; Steve Walker i Micheline Hancock-Beaulieu (listopad 1998). Okapi w TREC-7 . Materiały z siódmej konferencji Text REtrieval . Gaithersburg, Stany Zjednoczone.
Spärck Jones, K .; Walker, S .; Robertson, SE (2000). „Probabilistyczny model wyszukiwania informacji: eksperymenty rozwojowe i porównawcze: część 1”. Przetwarzanie i zarządzanie informacjami . 36 (6): 779–808. CiteSeerX 10.1.1.134.6108 . doi : 10.1016 / S0306-4573 (00) 00015-7 .
Spärck Jones, K .; Walker, S .; Robertson, SE (2000). „Probabilistyczny model wyszukiwania informacji: eksperymenty rozwojowe i porównawcze: część 2”. Przetwarzanie i zarządzanie informacjami . 36 (6): 809–840. doi : 10.1016 / S0306-4573 (00) 00016-9 .
Stephen Robertson i Hugo Zaragoza (2009). „The Probabilistic Relevance Framework: BM25 and Beyond” . Podstawy i trendy w wyszukiwaniu informacji . 3 (4): 333–389. CiteSeerX 10.1.1.156.5282 . doi : 10.1561 / 1500000019 .

Zewnętrzne linki

Robertson, Stephen ; Saragossa, Hugo (2009). Ramy istotności probabilistycznej: BM25 i nie tylko (PDF) . ISBN NOW Publishers, Inc. 978-1-60198-308-4 .

Languages

In other projects