Środki oceny (pobieranie informacji) - Evaluation measures (information retrieval)

Miary oceny dla systemu wyszukiwania informacji służą do oceny, w jakim stopniu wyniki wyszukiwania spełniły intencję zapytania użytkownika. Takie metryki są często podzielone na rodzaje: metryki online dotyczą interakcji użytkowników z systemem wyszukiwania, podczas gdy metryki offline mierzą trafność, innymi słowy, jak prawdopodobne jest, że każdy wynik lub strona wyników wyszukiwania (SERP) jako całość potrzeby informacyjne użytkownika.

Notacja

Symbole matematyczne użyte w poniższych wzorach oznaczają:

Wskaźniki online

Metryki online są zazwyczaj tworzone na podstawie dzienników wyszukiwania. Metryki są często używane do określenia powodzenia testu A/B .

Współczynnik porzucania sesji

Współczynnik porzucania sesji to stosunek sesji wyszukiwania, które nie skutkują kliknięciem.

Współczynnik klikalności

Współczynnik klikalności (CTR) to stosunek użytkowników, którzy kliknęli określony link, do łącznej liczby użytkowników, którzy oglądali stronę, wiadomość e-mail lub reklamę. Jest powszechnie używany do mierzenia sukcesu kampanii reklamowej online dla określonej witryny internetowej, a także skuteczności kampanii e-mailowych.

Wskaźnik powodzenia sesji

Wskaźnik sukcesu sesji mierzy stosunek sesji użytkowników, które prowadzą do sukcesu. Definiowanie „sukcesu” często zależy od kontekstu, ale w przypadku wyszukiwania pomyślny wynik jest często mierzony na podstawie czasu przebywania jako głównego czynnika wraz z drugorzędną interakcją użytkownika, na przykład użytkownik kopiujący adres URL wyniku jest uważany za udany wynik, podobnie jak kopia /wklejanie z fragmentu.

Zerowy wskaźnik wyników

Zerowy wskaźnik wyników ( ZRR ) to stosunek SERP, które zwróciły z zerowymi wynikami. Miernik wskazuje albo na problem z wycofaniem , albo na to, że poszukiwanych informacji nie ma w indeksie.

Dane offline

Wskaźniki offline są zazwyczaj tworzone na podstawie sesji oceny trafności, podczas których sędziowie oceniają jakość wyników wyszukiwania. Do oceny każdego dokumentu zwróconego w odpowiedzi na zapytanie można użyć zarówno skali binarnej (istotne/nieistotne), jak i wielopoziomowej (np. trafność od 0 do 5). W praktyce zapytania mogą być źle ustawione i mogą mieć różne odcienie trafności. Na przykład w zapytaniu „mars” występuje niejednoznaczność: sędzia nie wie, czy użytkownik szuka planety Mars , batonika Mars , czy piosenkarza Bruno Marsa .

Precyzja

Precyzja to ułamek pobranych dokumentów, które są istotne dla potrzeb informacyjnych użytkownika.

W klasyfikacji binarnej precyzja jest analogiczna do dodatniej wartości predykcyjnej . Precyzja uwzględnia wszystkie pobrane dokumenty. Można go również ocenić, biorąc pod uwagę tylko najwyższe wyniki zwrócone przez system za pomocą Precision@k .

Należy zauważyć, że znaczenie i użycie „precyzji” w dziedzinie wyszukiwania informacji różni się od definicji dokładności i precyzji w innych dziedzinach nauki i statystyki .

Przypomnienie sobie czegoś

Przypomnij to ułamek dokumentów, które są istotne dla zapytania, które zostały pomyślnie pobrane.

W klasyfikacji binarnej przypominanie jest często nazywane wrażliwością . Można więc traktować to jako prawdopodobieństwo, że zapytanie wyszuka odpowiedni dokument .

Osiągnięcie 100% wycofania poprzez zwrócenie wszystkich dokumentów w odpowiedzi na jakiekolwiek zapytanie jest trywialne. Dlatego samo wycofanie nie wystarczy, ale trzeba również zmierzyć liczbę nieistotnych dokumentów, na przykład obliczając precyzję.

Opad

Odsetek odzyskanych nieistotnych dokumentów spośród wszystkich dostępnych nieistotnych dokumentów:

W klasyfikacji binarnej opad jest ściśle związany ze specyficznością i jest równy . Można to traktować jako prawdopodobieństwo pobrania przez zapytanie nieistotnego dokumentu .

Osiągnięcie spadku na poziomie 0% przez zwrócenie zero dokumentów w odpowiedzi na dowolne zapytanie jest trywialne.

F-score / F-miara

Ważona średnia harmoniczna precyzji i przywołania, tradycyjna miara F lub zrównoważona wartość F to:

Nazywa się to również miarą, ponieważ odwołanie i precyzja są ważone równomiernie.

Ogólny wzór na nieujemną liczbę rzeczywistą to:

Dwie inne powszechnie używane miary F to miara, której wagi przypominają dwa razy więcej niż precyzja, oraz miara, która waży precyzję dwa razy bardziej niż pamięć.

Miara F została wyprowadzona przez van Rijsbergena (1979), aby „mierzyć skuteczność wyszukiwania w odniesieniu do użytkownika, który przywiązuje tyle samo znaczenia do przywołania, co precyzji”. Opiera się na mierniku efektywności van Rijsbergena . Ich związek to:

gdzie

Miara F może być lepszym pojedynczym miernikiem w porównaniu z precyzją i przywoływaniem; zarówno precyzja, jak i przypomnienie dają różne informacje, które w połączeniu mogą się uzupełniać. Jeśli jeden z nich wyróżnia się bardziej niż drugi, miara F to odzwierciedli.

Średnia precyzja

Precyzja i przypomnienie to metryki jednowartościowe oparte na całej liście dokumentów zwracanych przez system. W przypadku systemów, które zwracają uszeregowaną sekwencję dokumentów, pożądane jest również uwzględnienie kolejności, w jakiej prezentowane są zwracane dokumenty. Obliczając precyzję i przywoływanie w każdej pozycji w uporządkowanej sekwencji dokumentów, można wykreślić krzywą precyzji-odwołania, wykreślając precyzję jako funkcję przywołania . Średnia precyzja oblicza średnią wartość z przedziału od do :

To jest obszar pod krzywą precyzji-przywołania. Całka ta jest w praktyce zastępowana skończoną sumą po każdej pozycji w uszeregowanym ciągu dokumentów:

gdzie to pozycja w sekwencji wyszukanych dokumentów, liczba wyszukanych dokumentów, dokładność przy odcięciu na liście, zmiana przywoływania z pozycji na .

Ta skończona suma jest równoważna:

gdzie jest funkcją wskaźnika równą 1, jeśli pozycja w rankingu jest odpowiednim dokumentem, zero w przeciwnym razie. Zwróć uwagę, że średnia przekracza wszystkie istotne dokumenty, a odpowiednie dokumenty, które nie zostały pobrane, uzyskują wynik precyzji równy zero.

Niektórzy autorzy decydują się na interpolację funkcji, aby zmniejszyć wpływ „ruchów” na krzywej. Na przykład, wyzwanie PASCAL Visual Object Classes (wzorzec dla wykrywania obiektów widzenia komputerowego) do 2010 r. obliczało średnią precyzję, uśredniając precyzję w zestawie równomiernie rozmieszczonych poziomów przypominania {0, 0,1, 0,2, ... 1,0}:

gdzie jest interpolowaną precyzją, która przyjmuje maksymalną precyzję wszystkich odwołań większą niż :

.

Alternatywą jest wyprowadzenie funkcji analitycznej przez założenie określonego rozkładu parametrycznego dla podstawowych wartości decyzyjnych. Na przykład dwunormalną krzywą precyzji-przywoływania można uzyskać, zakładając, że wartości decyzyjne w obu klasach są zgodne z rozkładem Gaussa.

Dokładność w k

W przypadku nowoczesnego wyszukiwania informacji (w skali internetowej) przywoływanie nie jest już miarą sensowną, ponieważ wiele zapytań zawiera tysiące odpowiednich dokumentów, a niewielu użytkowników będzie zainteresowanych przeczytaniem ich wszystkich. Dokładność przy k dokumentów (P@k) jest nadal przydatną miarą (np. P@10 lub „Dokładność przy 10” odpowiada liczbie odpowiednich wyników wśród 10 najczęściej wyszukiwanych dokumentów), ale nie uwzględnia pozycji odpowiednie dokumenty w czołówce k. Inną wadą jest to, że w zapytaniu z mniejszą liczbą trafnych wyników niż k, nawet doskonały system będzie miał wynik mniejszy niż 1. Łatwiej jest oceniać ręcznie, ponieważ tylko k najlepszych wyników musi zostać zbadanych, aby określić, czy są one istotne, czy nie .

R-precyzja

R-precyzja wymaga znajomości wszystkich dokumentów, które są istotne dla zapytania. Liczba odpowiednich dokumentów, , jest używana jako granica do obliczeń i różni się w zależności od zapytania. Na przykład, jeśli w korpusie znajduje się 15 dokumentów związanych z „czerwonym” (R=15), R-precyzja dla „czerwonego” sprawdza 15 zwróconych dokumentów, zliczając liczbę, która ma znaczenie, zamieniając to w ułamek trafności: .

Precyzja R jest równa przywołaniu na R -tej pozycji.

Empirycznie, miara ta jest często silnie skorelowana ze średnią precyzją.

Średnia średnia precyzja

Średnia średnia precyzja (MAP) dla zestawu zapytań to średnia ze średnich wyników precyzji dla każdego zapytania.

gdzie Q to liczba zapytań.

Zdyskontowany skumulowany zysk

Terminologia i wyprowadzenia
z macierzy pomyłek
stan pozytywny (P)
liczba rzeczywistych pozytywnych przypadków w danych
stan ujemny (N)
liczba rzeczywistych negatywnych przypadków w danych

prawdziwy pozytywny (TP)
równ. z hitem
prawdziwie ujemny (TN)
równ. z prawidłowym odrzuceniem
fałszywie pozytywny (FP)
równ. z fałszywym alarmem , błędem typu I lub niedoszacowaniem
fałszywie ujemny (FN)
równ. z chybieniem, błędem typu II lub przeszacowaniem

czułość , przypominanie , wskaźnik trafień lub wskaźnik prawdziwie dodatnich (TPR)
swoistość , selektywność lub współczynnik prawdziwie ujemnych (TNR)
precyzja lub dodatnia wartość predykcyjna (PPV)
ujemna wartość predykcyjna (NPV)
współczynnik chybień lub współczynnik fałszywie ujemnych (FNR)
wskaźnik wypadania lub fałszywie dodatnich (FPR)
współczynnik fałszywych odkryć (FDR)
współczynnik fałszywych pominięć (DLA)
próg chorobowości (PT)
wskaźnik zagrożenia (TS) lub krytyczny wskaźnik sukcesu (CSI)

dokładność (ACC)
zrównoważona dokładność (BA)
Wynik F1
jest średnią harmoniczną z precyzją i wrażliwością :
Współczynnik korelacji Matthewsa (MCC)
Indeks Fowlkesa-Mallowsa (FM)
świadomość lub świadomość bukmachera (BM)
zaznaczenie (MK) lub deltaP (Δp)

Źródła: Fawcett (2006), Piryonesi i El-Diraby (2020), Powers (2011), Ting (2011), CAWCR, D. Chicco i G. Jurman (2020, 2021) , Tharwat (2018).

DCG wykorzystuje stopniowaną skalę trafności dokumentów z zestawu wyników, aby ocenić użyteczność lub zysk dokumentu na podstawie jego pozycji na liście wyników. Założeniem DCG jest to, że wysoce istotne dokumenty znajdujące się niżej na liście wyników wyszukiwania powinny być karane, ponieważ oceniona wartość trafności jest zmniejszana logarytmicznie proporcjonalnie do pozycji wyniku.

DCG zgromadzone na określonej pozycji w rankingu definiuje się jako:

Ponieważ zestaw wyników może różnić się rozmiarem w zależności od różnych zapytań lub systemów, do porównania wydajności znormalizowana wersja DCG używa idealnego DCG. W tym celu sortuje dokumenty z listy wyników według trafności, tworząc idealny DCG na pozycji p ( ), co normalizuje wynik:

Wartości nDCG dla wszystkich zapytań można uśrednić w celu uzyskania miary średniej wydajności algorytmu rankingu. Zauważ, że w idealnym algorytmie rankingu będzie to takie samo, jak przy wytwarzaniu nDCG o wartości 1.0. Wszystkie obliczenia nDCG są zatem wartościami względnymi w przedziale od 0,0 do 1,0, a więc są porównywalne z zapytaniami krzyżowymi.

Inne środki

Wyobrażanie sobie

Wizualizacje wydajności wyszukiwania informacji obejmują:

Niemetryki

Lista najpopularniejszych zapytań

Najczęstsze zapytania odnotowuje najczęstsze zapytania w ustalonym okresie czasu. Lista najpopularniejszych zapytań pomaga poznać styl zapytań wprowadzanych przez użytkowników.

Wskaźniki nietrafności

Zapytania na czas

Pomiar liczby zapytań wykonywanych w systemie wyszukiwania na (miesiąc/dzień/godzinę/minutę/sek) śledzi wykorzystanie systemu wyszukiwania. Może służyć do diagnostyki, aby wskazać nieoczekiwany wzrost liczby zapytań lub po prostu jako punkt odniesienia podczas porównywania z innymi metrykami, takimi jak opóźnienie zapytania. Na przykład gwałtowny wzrost liczby zapytań może być użyty do wyjaśnienia gwałtownego wzrostu opóźnień zapytań.

Zobacz też

Bibliografia