METEOR - METEOR

METEOR ( Metric Ewaluacji słowami z wyraźnymi zamawiania ) jest metryka dla oceny wydajności tłumaczenia maszynowego . Metryka jest oparta na średniej harmonicznej precyzji unigramu i odwołania , przy czym odwołanie jest ważone wyżej niż precyzja. Posiada również kilka funkcji, które nie występują w innych wskaźników, takich jak wynikające i synonimia dopasowanie wraz ze standardowym dokładnego dopasowania tekstu. Miernik został zaprojektowany, aby rozwiązać niektóre problemy występujące w bardziej popularnej metryce BLEU , a także zapewnić dobrą korelację z ludzką oceną na poziomie zdania lub segmentu. Różni się to od metryki BLEU tym, że BLEU szuka korelacji na poziomie korpusu.

Przykładowe wyrównanie (a).

Przedstawiono wyniki, które dają korelację do 0,964 z oceną człowieka na poziomie korpusu, w porównaniu z osiągnięciem BLEU wynoszącym 0,817 na tym samym zestawie danych. Na poziomie zdania maksymalna korelacja z oceną człowieka wyniosła 0,403.

Przykładowe wyrównanie (b).

Algorytm

Podobnie jak w przypadku BLEU , podstawową jednostką oceny jest zdanie, algorytm najpierw tworzy wyrównanie (patrz ilustracje) między dwoma zdaniami , ciągiem tłumaczenia kandydata i ciągiem tłumaczenia odniesienia. Wyrównanie to zbiór odwzorowań między unigrams . Mapowanie można traktować jako linię między unigramem w jednym ciągu a unigramem w innym ciągu. Ograniczenia są następujące; każdy unigram w tłumaczeniu kandydata musi być odwzorowany na zero lub jeden unigram w odwołaniu. Odwzorowania są wybierane w celu utworzenia linii trasowania, jak określono powyżej. Jeśli istnieją dwie linie trasowania z taką samą liczbą odwzorowań, linia trasowania jest wybierana z najmniejszą liczbą krzyży , to znaczy z mniejszą liczbą przecięć dwóch odwzorowań. Z dwóch pokazanych linii trasowania, linia (a) zostanie wybrana w tym miejscu. Etapy są uruchamiane po kolei, a każdy etap dodaje do wyrównania tylko te unigramy, które nie zostały dopasowane w poprzednich etapach. Po obliczeniu ostatecznego wyrównania wynik jest obliczany w następujący sposób: Precyzja Unigramu P jest obliczana jako:

Przykłady par słów, które będą mapowane przez każdy moduł
Moduł Kandydat Odniesienie Mecz
Dokładny Dobrze Dobrze tak
Stemmer Dobra Dobrze tak
Synonimia dobrze Dobrze tak

Gdzie m jest liczbą unigramów w tłumaczeniu kandydata, które znajdują się również w tłumaczeniu odniesienia, i jest liczbą unigramów w tłumaczeniu kandydata. Przywołanie Unigramu R jest obliczane jako:

Gdzie m jest jak powyżej i jest liczbą unigramów w tłumaczeniu odniesienia. Precyzja i przywracanie są łączone przy użyciu średniej harmonicznej w następujący sposób, przy czym przywracanie jest ważone 9 razy więcej niż precyzja:

Wprowadzone do tej pory środki uwzględniają zgodność tylko w odniesieniu do pojedynczych słów, ale nie w odniesieniu do większych segmentów, które pojawiają się zarówno w odwołaniu, jak i zdaniu kandydującym. Aby wziąć to pod uwagę, do obliczenia kary p za wyrównanie używane są dłuższe dopasowania n- gramów . Im więcej jest odwzorowań, które nie sąsiadują ze sobą w odwołaniu i zdaniu kandydującym, tym wyższa będzie kara.

Aby obliczyć tę karę, unigramy są grupowane w najmniejszą możliwą liczbę porcji , przy czym porcja jest definiowana jako zbiór unigramów sąsiadujących w hipotezie i w odwołaniu. Im dłuższe sąsiednie mapowania między kandydatem a referencją, tym mniej jest fragmentów. Tłumaczenie identyczne z referencją da tylko jeden fragment. Kara p jest obliczana w następujący sposób:

Gdzie c jest liczbą porcji i jest liczbą zmapowanych unigramów. Ostateczny wynik segmentu jest obliczany jako M poniżej. Kara skutkuje zmniejszeniem nawet o 50% w przypadku braku bigramu lub dłuższych meczów.

Aby obliczyć wynik dla całego korpusu lub zbioru segmentów, zbierane są zagregowane wartości P , R i p , a następnie łączone przy użyciu tego samego wzoru. Algorytm działa również w celu porównania tłumaczenia kandydującego z więcej niż jednym tłumaczeniem referencyjnym. W tym przypadku algorytm porównuje kandydata z każdym z referencji i wybiera najwyższy wynik.

Przykłady

Odniesienie the kot sat na the mata
Hipoteza na the mata sat the kot
Wynik
Fmean
Rzut karny
Podział
Odniesienie the kot sat na the mata
Hipoteza the kot sat na the mata
Wynik
Fmean
Rzut karny
Podział
Odniesienie the kot sat na the mata
Hipoteza the kot był sat na the mata
Wynik
Fmean
Rzut karny
Podział

Zobacz też

Uwagi

  1. ^ Banerjee, S. i Lavie, A. (2005)

Bibliografia

  • Banerjee, S. i Lavie, A. (2005) „METEOR: automatyczny miernik oceny MT z ulepszoną korelacją z osądami ludzkimi” w materiałach warsztatowych na temat wewnętrznych i zewnętrznych środków oceny MT i/lub podsumowania na 43. dorocznym spotkaniu the Association of Computational Linguistics (ACL-2005), Ann Arbor, Michigan, czerwiec 2005
  • Lavie, A., Sagae, K. i Jayaraman, S. (2004) „The Significance of Recall in Automatic Metrics for MT Evaluation” w Proceedings of AMTA 2004, Washington DC. wrzesień 2004

Linki zewnętrzne