METEOR - METEOR

METEOR ( Metric Ewaluacji słowami z wyraźnymi zamawiania ) jest metryka dla oceny wydajności tłumaczenia maszynowego . Metryka jest oparta na średniej harmonicznej precyzji unigramu i odwołania , przy czym odwołanie jest ważone wyżej niż precyzja. Posiada również kilka funkcji, które nie występują w innych wskaźników, takich jak wynikające i synonimia dopasowanie wraz ze standardowym dokładnego dopasowania tekstu. Miernik został zaprojektowany, aby rozwiązać niektóre problemy występujące w bardziej popularnej metryce BLEU , a także zapewnić dobrą korelację z ludzką oceną na poziomie zdania lub segmentu. Różni się to od metryki BLEU tym, że BLEU szuka korelacji na poziomie korpusu.

Przykładowe wyrównanie (a).

Przedstawiono wyniki, które dają korelację do 0,964 z oceną człowieka na poziomie korpusu, w porównaniu z osiągnięciem BLEU wynoszącym 0,817 na tym samym zestawie danych. Na poziomie zdania maksymalna korelacja z oceną człowieka wyniosła 0,403.

Przykładowe wyrównanie (b).

Algorytm

Podobnie jak w przypadku BLEU , podstawową jednostką oceny jest zdanie, algorytm najpierw tworzy wyrównanie (patrz ilustracje) między dwoma zdaniami , ciągiem tłumaczenia kandydata i ciągiem tłumaczenia odniesienia. Wyrównanie to zbiór odwzorowań między unigrams . Mapowanie można traktować jako linię między unigramem w jednym ciągu a unigramem w innym ciągu. Ograniczenia są następujące; każdy unigram w tłumaczeniu kandydata musi być odwzorowany na zero lub jeden unigram w odwołaniu. Odwzorowania są wybierane w celu utworzenia linii trasowania, jak określono powyżej. Jeśli istnieją dwie linie trasowania z taką samą liczbą odwzorowań, linia trasowania jest wybierana z najmniejszą liczbą krzyży , to znaczy z mniejszą liczbą przecięć dwóch odwzorowań. Z dwóch pokazanych linii trasowania, linia (a) zostanie wybrana w tym miejscu. Etapy są uruchamiane po kolei, a każdy etap dodaje do wyrównania tylko te unigramy, które nie zostały dopasowane w poprzednich etapach. Po obliczeniu ostatecznego wyrównania wynik jest obliczany w następujący sposób: Precyzja Unigramu $P$ jest obliczana jako:

Przykłady par słów, które będą mapowane przez każdy moduł
Moduł	Kandydat	Odniesienie	Mecz
Dokładny	Dobrze	Dobrze	tak
Stemmer	Dobra	Dobrze	tak
Synonimia	dobrze	Dobrze	tak

{\ Displaystyle P = {\ Frac {m} {w_ {t}}}}

Gdzie $m$ jest liczbą unigramów w tłumaczeniu kandydata, które znajdują się również w tłumaczeniu odniesienia, i jest liczbą unigramów w tłumaczeniu kandydata. Przywołanie Unigramu $R$ jest obliczane jako: $w_{t}$

{\ Displaystyle R = {\ Frac {m} {w_ {R}}}}

Gdzie $m$ jest jak powyżej i jest liczbą unigramów w tłumaczeniu odniesienia. Precyzja i przywracanie są łączone przy użyciu średniej harmonicznej w następujący sposób, przy czym przywracanie jest ważone 9 razy więcej niż precyzja: $w_{r}$

{\ Displaystyle F_ {średnia} = {\ Frac {10PR} {R + 9P}}}

Wprowadzone do tej pory środki uwzględniają zgodność tylko w odniesieniu do pojedynczych słów, ale nie w odniesieniu do większych segmentów, które pojawiają się zarówno w odwołaniu, jak i zdaniu kandydującym. Aby wziąć to pod uwagę, do obliczenia kary $p$ za wyrównanie używane są dłuższe dopasowania n- gramów . Im więcej jest odwzorowań, które nie sąsiadują ze sobą w odwołaniu i zdaniu kandydującym, tym wyższa będzie kara.

Aby obliczyć tę karę, unigramy są grupowane w najmniejszą możliwą liczbę porcji , przy czym porcja jest definiowana jako zbiór unigramów sąsiadujących w hipotezie i w odwołaniu. Im dłuższe sąsiednie mapowania między kandydatem a referencją, tym mniej jest fragmentów. Tłumaczenie identyczne z referencją da tylko jeden fragment. Kara $p$ jest obliczana w następujący sposób:

{\ Displaystyle p = 0,5 \ lewo ({\ Frac {c} {u_ {m}}} \ po prawej) ^ {3}}

Gdzie c jest liczbą porcji i jest liczbą zmapowanych unigramów. Ostateczny wynik segmentu jest obliczany jako $M$ poniżej. Kara skutkuje zmniejszeniem nawet o 50% w przypadku braku bigramu lub dłuższych meczów. ${\ Displaystyle u_ {m}}$ $F_{średni}$

{\ Displaystyle M = F_ {średnia} (1-p)}

Aby obliczyć wynik dla całego korpusu lub zbioru segmentów, zbierane są zagregowane wartości $P$ , $R$ i $p$ , a następnie łączone przy użyciu tego samego wzoru. Algorytm działa również w celu porównania tłumaczenia kandydującego z więcej niż jednym tłumaczeniem referencyjnym. W tym przypadku algorytm porównuje kandydata z każdym z referencji i wybiera najwyższy wynik.

Przykłady

Odniesienie	the	kot	sat	na	the	mata
Hipoteza	na	the	mata	sat	the	kot
Wynik	${\ Displaystyle 0.5000 = {\ Underset {\ Text {Fmean}} {1.0000}} \ razy (1-{\ Underset {\ Text {Kara}} {0.5000}})}$
Fmean	${\ Displaystyle 1.0000 = 10 \ razy {\ zaniżony {\ tekst {precyzja}} {1.0000}} \ raz {\ Frac {\ przesunięty {\ tekst {przypomnij}} {1.0000}} {{\ zaniżony {\ tekst {przypomnij }}{1.0000}}+9\times {\underset {\text{Precyzja}}{1.0000}}}}}$
Rzut karny	${\ Displaystyle 0.5000 = 0.5 \ razy {\ underset {\ tekst {fragmentacja}} {1.0000 ^ {3}}}}$
Podział	${\ Displaystyle 1.0000 = {\ Frac {\ przesunięty {\ tekst {kawałki}}{6.0000}}}} {\ zaniżony {\ tekst {mecze}}{6.0000}}}}$

Odniesienie	the	kot	sat	na	the	mata
Hipoteza	the	kot	sat	na	the	mata
Wynik	${\ Displaystyle 0.9977 = {\ underset {\ text {fmean}} {1.0000}} \ razy (1- {\ underset {\ text {kara}} {0.0023}})}$
Fmean	${\ Displaystyle 1.0000 = 10 \ razy {\ zaniżony {\ tekst {precyzja}} {1.0000}} \ raz {\ Frac {\ przesunięty {\ tekst {przypomnij}} {1.0000}} {{\ zaniżony {\ tekst {przypomnij }}{1.0000}}+9\times {\underset {\text{Precyzja}}{1.0000}}}}}$
Rzut karny	${\ Displaystyle 0,0023 = 0,5 \ razy {\ zaniżone {\ tekst {fragmentacja}} {0,1667 ^ {3}}}}$
Podział	${\ Displaystyle 0.1667 = {\ Frac {\ przesunięty {\ tekst {kawałki}} {1.0000}}} {\ zaniżony {\ tekst {mecze}}{6.0000}}}}$

Odniesienie	the	kot		sat	na	the	mata
Hipoteza	the	kot	był	sat	na	the	mata
Wynik	${\ Displaystyle 0.9654 = {\ underset {\ tekst {fmean}} {0,9836}} \ razy (1- {\ underset {\ text {kara}} {0.0185}})}$
Fmean	${\ Displaystyle 0.9836 = 10 \ razy {\ zaniżony {\ tekst {precyzja}} {0,8571}} \ razy {\ Frac {\ przesunięty {\ tekst {przypomnij}} {1.0000}} {{\ zaniżony {\ tekst {przypomnij }}{1.0000}}+9\times {\underset {\text{Precyzja}}{0.8571}}}}}$
Rzut karny	${\ Displaystyle 0,0185 = 0,5 \ razy {\ zaniżony {\ tekst {fragmentacja}} {0,333 ^ {3}}}}$
Podział	${\ Displaystyle 0.3333 = {\ Frac {\ przesunięty {\ tekst {kawałki}} {2.0000}}}} {\ zaniżony {\ tekst {mecze}}{6.0000}}}}$

Zobacz też

Uwagi

^ Banerjee, S. i Lavie, A. (2005)

Bibliografia

Banerjee, S. i Lavie, A. (2005) „METEOR: automatyczny miernik oceny MT z ulepszoną korelacją z osądami ludzkimi” w materiałach warsztatowych na temat wewnętrznych i zewnętrznych środków oceny MT i/lub podsumowania na 43. dorocznym spotkaniu the Association of Computational Linguistics (ACL-2005), Ann Arbor, Michigan, czerwiec 2005
Lavie, A., Sagae, K. i Jayaraman, S. (2004) „The Significance of Recall in Automatic Metrics for MT Evaluation” w Proceedings of AMTA 2004, Washington DC. wrzesień 2004

Linki zewnętrzne

System automatycznej oceny tłumaczeń maszynowych METEOR (w tym link do pobrania)

Languages

In other projects