Okapi BM25 - Okapi BM25
W wyszukiwaniu informacji , Okapi BM25 ( BM jest skrótem od najlepszego dopasowania ) jest ranking funkcja wykorzystywana przez wyszukiwarki , aby oszacować znaczenie dokumentów do danego zapytania. Opiera się na probabilistycznej strukturze wyszukiwania opracowanej w latach 70. i 80. XX wieku przez Stephena E. Robertsona , Karen Spärck Jones i innych.
Nazwa rzeczywistej funkcji rankingu to BM25 . Pełniejsze nazwa, Okapi BM25 , zawiera nazwę pierwszego systemu do korzystania z niego, która była Okapi systemu pozyskiwania informacji, realizowany w London „s City University w latach 1980 i 1990. BM25 i jego nowsze warianty, np. BM25F (wersja BM25, która może uwzględniać strukturę dokumentu i tekst zakotwiczenia), reprezentują najnowocześniejsze funkcje pobierania podobne do TF-IDF , używane w odzyskiwaniu dokumentów.
Funkcja rankingu
BM25 to funkcja wyszukiwania worka słów, która klasyfikuje zestaw dokumentów na podstawie terminów zapytania pojawiających się w każdym dokumencie, niezależnie od ich bliskości w dokumencie. Jest to rodzina funkcji scoringowych o nieco innych składowych i parametrach. Oto jedna z najbardziej znanych instancji funkcji.
Biorąc pod uwagę zapytanie Q , zawierające słowa kluczowe , wynik BM25 dokumentu D wynosi:
gdzie to jest częstotliwość określenie w dokumencie D , to długość dokumentu D w słowach, a avgdl jest średnia długość dokumentu w kolekcji tekstu, z którego dokumenty zostały sporządzone. oraz b są dowolnymi parametrami, zwykle wybieranymi, przy braku zaawansowanej optymalizacji, jak i . jest wagą IDF ( odwrotna częstotliwość dokumentu ) zapytania . Zwykle jest obliczany jako:
gdzie N to całkowita liczba dokumentów w kolekcji, a to liczba dokumentów zawierających .
Istnieje kilka interpretacji IDF i niewielkie różnice w jego formule. W oryginalnym wyprowadzeniu BM25 komponent IDF pochodzi z Binary Independence Model .
Teoretyczna interpretacja informacji IDF
Oto interpretacja z teorii informacji. Załóżmy, że w dokumentach pojawia się zapytanie . Następnie losowo wybrany dokument będzie zawierał termin z prawdopodobieństwem (gdzie znowu jest moc zbioru dokumentów w kolekcji). Dlatego treść informacyjna wiadomości „ zawiera ” jest następująca:
Załóżmy teraz, że mamy dwa terminy zapytania i . Jeśli te dwa terminy występują w dokumentach całkowicie niezależnie od siebie, to prawdopodobieństwo ich zobaczenia oraz w losowo wybranym dokumencie wynosi:
a treść informacyjna takiego wydarzenia to:
Z niewielkimi odchyleniami jest to dokładnie to, co wyraża komponent IDF BM25.
Modyfikacje
- Przy skrajnych wartościach współczynnika b BM25 zamienia się w funkcje rankingowe znane jako BM11 (za ) i BM15 (za ).
- BM25F to modyfikacja BM25, w której uznaje się, że dokument składa się z kilku pól (takich jak nagłówki, tekst główny, tekst kotwicy) o możliwie różnych stopniach ważności, nasyceniu znaczenia terminów i normalizacji długości.
- BM25 + jest rozszerzeniem BM25. BM25 + został opracowany w celu rozwiązania jednego z braków standardu BM25, w którym składnik normalizacji częstotliwości terminów według długości dokumentu nie jest odpowiednio ograniczony dolną granicą; w wyniku tego braku, długie dokumenty, które nie pasują do zapytania, mogą być często oceniane nieuczciwie przez BM25 jako mające podobne znaczenie do krótszych dokumentów, które w ogóle nie zawierają zapytania. Formuła oceny BM25 + ma tylko jeden dodatkowy wolny parametr (wartość domyślna to 1,0 w przypadku braku danych treningowych) w porównaniu z BM25:
Bibliografia
Ogólne odniesienia
- Stephen E. Robertson; Steve Walker; Susan Jones; Micheline Hancock-Beaulieu & Mike Gatford (listopad 1994). Okapi w TREC-3 . Materiały z trzeciej konferencji Text REtrieval (TREC 1994) . Gaithersburg, Stany Zjednoczone.
- Stephen E. Robertson; Steve Walker i Micheline Hancock-Beaulieu (listopad 1998). Okapi w TREC-7 . Materiały z siódmej konferencji Text REtrieval . Gaithersburg, Stany Zjednoczone.
- Spärck Jones, K .; Walker, S .; Robertson, SE (2000). „Probabilistyczny model wyszukiwania informacji: eksperymenty rozwojowe i porównawcze: część 1”. Przetwarzanie i zarządzanie informacjami . 36 (6): 779–808. CiteSeerX 10.1.1.134.6108 . doi : 10.1016 / S0306-4573 (00) 00015-7 .
- Spärck Jones, K .; Walker, S .; Robertson, SE (2000). „Probabilistyczny model wyszukiwania informacji: eksperymenty rozwojowe i porównawcze: część 2”. Przetwarzanie i zarządzanie informacjami . 36 (6): 809–840. doi : 10.1016 / S0306-4573 (00) 00016-9 .
- Stephen Robertson i Hugo Zaragoza (2009). „The Probabilistic Relevance Framework: BM25 and Beyond” . Podstawy i trendy w wyszukiwaniu informacji . 3 (4): 333–389. CiteSeerX 10.1.1.156.5282 . doi : 10.1561 / 1500000019 .
Zewnętrzne linki
- Robertson, Stephen ; Saragossa, Hugo (2009). Ramy istotności probabilistycznej: BM25 i nie tylko (PDF) . ISBN NOW Publishers, Inc. 978-1-60198-308-4 .