雙語替換評測

雙語替換評測（英語：bilingual evaluation understudy，縮寫：BLEU）是用於評估自然語言的字句用機器翻譯出來的品質的一種演算法。雙語替換評測的核心概念是翻譯的品質取決於機器翻譯的輸出與人工翻譯之間的對應關係，「若機器翻譯越接近專業人士的翻譯結果，則機器翻譯的表現越好」。雙語替換評測是第一個宣稱，其與人工判斷翻譯品質方式呈高度相關的度量，且目前仍是最流行的自動化與低成本的度量之一。

透過將各個譯文片段（通常是句子）與一組翻譯品質好的參考譯文進行比較，計算出各個片段的分數。接著這些分數平均於整個語料庫，估算翻譯的整體品質。此算法不考慮字句的可理解性或語法的正確性。

雙語替換評測的輸出分數始終為0到1之間的數字。該輸出值意味著候選譯文與参考譯文之間的相似程度，越接近1的值表示文本相似度越高。人工翻譯少有能達到數值1，因为數值1表示候選文本與參考文本完全相同。由於這個原因，没有必要要求候選的翻譯片段要獲得1分。而也因为有更多可以匹配的機會，增加其他参考的譯文文本將增加此評測得分。

演算法

雙語替換評測使用改良的测量精度形式將候選的翻譯文本與多個参考翻譯進行比較。此度量標準改良了簡單的測量精度，原因是因為已知機器翻譯系統會生成比參考譯文文本更多的單詞。以下圖例說明演算法（Papineni et al, 2002）。

高精度分數的機器翻譯結果不佳的例子
候選文本	the	the	the	the	the	the	the
参考文本1	the	cat	is	on	the	mat
参考文本2	there	is	a	cat	on	the	mat

在候選翻譯文本的七個單詞，全部都出現在參考翻譯文本中。因此，候選文本的字母組合測量精度分數為

P={\frac {m}{w_{t}}}={\frac {7}{7}}=1

$~m$ 是候選單詞有在参考文本中的數量， $~w_{t}$ 是候選文本的單詞總數。從上述可知，儘管候選譯文文本幾乎沒有保留任何參考文本的內容，但還是有完美的分數。

雙語替換評測所做的修改非常直觀。對於候選譯文中的每個候選單詞，在任何參考譯文中，算法改採用其最大總數 $~m_{max}$ 。上述例子中，單詞「the」在参考文本1中出現兩次，在参考文本2中出現一次，因此 $~m_{max}=2$ 。

P={\frac {2}{7}}

效能

雙語替換評測雖然常被指稱與人判斷翻譯品質的能力有很好的關聯，且仍是用於評估任何新的評估指標的基準，但是也有許多批評聲音出現。儘管從原則上來說，雙語替換評測能夠評估任何語言之間的翻譯，但該度量方式被注意到，以目前的度量形式無法處理缺少單詞邊界的語言。

參見

参考文獻