Model niezależności binarnej - Binary Independence Model

Binary Independence modelu (BIM) jest probabilistyczny wyszukiwanie informacji technika sprawia, że kilka prostych założeń, aby oszacować dokument / zapytań podobieństwa prawdopodobieństwem wykonalne.

Definicje

Założenie binarnej niezależności zakłada, że ​​dokumenty są wektorami binarnymi . Oznacza to, że rejestrowana jest tylko obecność lub brak terminów w dokumentach. Terminy są niezależnie rozpowszechniane w zbiorze odpowiednich dokumentów, a także są niezależnie rozpowszechniane w zbiorze nieistotnych dokumentów. Reprezentacja jest uporządkowanym zestawem zmiennych logicznych . Oznacza to, że reprezentacja dokumentu lub zapytania jest wektorem z jednym elementem logicznym dla każdego rozważanego terminu. Dokładniej, dokument jest reprezentowany przez wektor d = ( x 1 , ..., x m ), gdzie x t = 1, jeśli termin t występuje w dokumencie d i x t = 0, jeśli go nie ma. Dzięki temu uproszczeniu wiele dokumentów może mieć tę samą reprezentację wektorową. Zapytania są przedstawiane w podobny sposób. „Niezależność” oznacza, że ​​terminy w dokumencie są rozpatrywane niezależnie od siebie i nie jest modelowany żaden związek między terminami. To założenie jest bardzo ograniczające, ale wykazano, że daje wystarczająco dobre wyniki w wielu sytuacjach. Ta niezależność jest „naiwnym” założeniem klasyfikatora Naive Bayes , w którym właściwości, które implikują się nawzajem, są mimo wszystko traktowane jako niezależne ze względu na prostotę. To założenie pozwala traktować reprezentację jako wystąpienie modelu przestrzeni wektorowej poprzez traktowanie każdego terminu jako wartości 0 lub 1 wzdłuż wymiaru prostopadłego do wymiarów użytych dla innych terminów.

Prawdopodobieństwo, że dokument jest istotny, wynika z prawdopodobieństwa istotności wektora terminów tego dokumentu . Stosując regułę Bayesa otrzymujemy:

gdzie i są odpowiednio prawdopodobieństwa odzyskania odpowiedniego lub nieistotnego dokumentu. Jeśli tak, to reprezentacja tego dokumentu to x . Dokładnych prawdopodobieństw nie można wcześniej poznać, dlatego należy posłużyć się szacunkami ze statystyk dotyczących gromadzenia dokumentów.

i wskaż poprzednie prawdopodobieństwo odzyskania odpowiedniego lub nieistotnego dokumentu odpowiednio dla zapytania q . Gdybyśmy na przykład znali procent odpowiednich dokumentów w kolekcji, moglibyśmy na jego podstawie oszacować te prawdopodobieństwa. Ponieważ dokument jest istotny lub nieistotny dla zapytania, mamy to:

Ważenie warunków zapytania

Biorąc pod uwagę zapytanie binarne i iloczyn skalarny jako funkcję podobieństwa między dokumentem a zapytaniem, problem polega na przypisaniu wag do terminów w zapytaniu tak, aby efektywność wyszukiwania była wysoka. Niech i będzie prawdopodobieństwo, że odnośny dokument oraz nieistotny dokument ma I th termin odpowiednio. Yu i Salton , którzy jako pierwsi wprowadzili BIM, sugerują, że waga i- tego terminu jest rosnącą funkcją . Tak więc, jeśli jest wyższa niż , waga członu i będzie wyższa niż waga członu j . Yu i Salton wykazali, że takie przypisanie wagi do zapytań daje lepszą skuteczność wyszukiwania, niż gdyby terminy zapytania miały taką samą wagę. Robertson i Spärck Jones później pokazał, że jeśli ja th termin przypisano wagę , to optymalne odzyskiwanie skuteczność uzyskuje się pod Binary Independence NMP.

Binarny model niezależności został wprowadzony przez Yu i Saltona. Nazwa Binary Independence Model została wymyślona przez Robertsona i Spärcka Jonesów.

Zobacz też

Dalsza lektura

  • Christopher D. Manning; Prabhakar Raghavan; Hinrich Schütze (2008), Wprowadzenie do wyszukiwania informacji , Cambridge University Press
  • Stefan Büttcher; Charles LA Clarke; Gordon V. Cormack (2010), Information Retrieval: Implementing and Evaluating Search Engines , MIT Press

Bibliografia