Google 翻譯的“漢譯英”錯誤率降低 60%，是怎麼算出來的？精選

由雷鋒網於 01/10/2016 發表收藏文章

第一步。

http://static.leiphone.com/uploads/new/article/740_740/201609/57ee271b67aaa.jpg?imageMogr2/format/jpg/quality/90

圖片來源：static.leiphone.com

從維基百科和新聞網站上，隨機選取 500 個中文句子，作為被評估內容。

第二步。

http://static.leiphone.com/uploads/new/article/740_740/201609/57ee27f9ce8d2.jpg?imageMogr2/format/jpg/quality/90

圖片來源：static.leiphone.com

找人工翻譯，將500個句子翻譯為英文。

第三步。

http://static.leiphone.com/uploads/new/article/740_740/201609/57ee280f50dc8.png?imageMogr2/format/jpg/quality/90

圖片來源：static.leiphone.com

將舊的機器翻譯結果、新的機器翻譯結果（神經網絡）、人工翻譯的結果、，這三份“考卷”，拿給熟練使用中英雙語的真人判卷員。

第四步。

http://static.leiphone.com/uploads/new/article/740_740/201609/57ee282ed3b21.png?imageMogr2/format/jpg/quality/90

圖片來源：static.leiphone.com

熟練使用中英雙語的真人判卷員，給每張考卷的每個句子，進行打分。分數為 0~6 的整數，0代表翻譯結果“狗屁不通”，6代表翻譯結果“精彩絕倫”。

第五步。

http://static.leiphone.com/uploads/new/article/740_740/201609/57ee284b3984c.png?imageMogr2/format/jpg/quality/90

圖片來源：static.leiphone.com

出成績了，舊機器翻譯每個句子平均得分 3.694，新機器翻譯得到 4.263 分，人工翻譯得分 4.636 分。別忘了滿分是 6 分哦。
第六步。

分別計算，跟人工翻譯的水平相比，“誤差率”（錯誤率）是多少。

引用
舊機器翻譯：(4.636-3.694) / 4.636 = 20%
新機器翻譯：(4.636-4.263) / 4.636 = 8%

第七步。

算“錯誤率”降低了多少。

引用（20%-8%）/ 20% = 12% / 20%= 60%

第八步。

算算“準確率”提升了多少。

引用(4.263-3.694)/3.694 = 15%

第九步。

http://static.leiphone.com/uploads/new/article/740_740/201609/57ee2b390d197.png?imageMogr2/format/jpg/quality/90

圖片來源：static.leiphone.com

為什麼用户興奮，媒體興奮，專家沒那麼興奮？翻譯公司商鵲網CTO魏勇鵬告訴雷鋒網(搜索“雷鋒網”公眾號關注)：

這裏面兩個主要的“陷阱”：

引用1、從3.6提升到4.2，和從4.2提升到4.6，這兩個所需要付出的努力程度，後者可能是前者的10倍以上都不止，但Google就簡單的線性計算為縮小了60%的差距。

2、中英的人工翻譯，得到的評分也就只是4.6，比英西的人要低得多，這點説明用來作為基準的“人”，未必是靠譜的，以它為基準來評估，也未必是靠譜的。

其實還有第三點，別忘了卷子是 Google 自己出的。

引用注意用於做評測的數據是：500 randomly sampled sentences from Wikipedia and news websites。這些都是互聯網上語料最充足的內容類型。也就是機器最擅長的內容。

第十步。

http://static.leiphone.com/uploads/new/article/740_740/201609/57ee2996bb98c.png?imageMogr2/format/jpg/quality/90

圖片來源：static.leiphone.com

行業認可的一種機器翻譯成績評估，是 WMT 的 BLEU Score 比賽。Google 這次發佈的論文，也用了 BLEU Score 的分數。雷鋒網沒找到漢譯英的部分，但是有英譯法的數據，從 37 分提升到 41.16 分。

第十一步。

很多人類患上“圍棋”恐慌症了。

Google 首次將神經網絡技術，成功應用到翻譯產品上，上線後使得翻譯質量有了明顯提升。但是媒體報道中的標題“錯誤率降低 60%”，甚至某種語言是 “85%”，很容易讓普通人以為蒸汽機革命來了……事實上，微軟、百度等大公司之前也在翻譯產品中使用神經網絡技術，但沒有引起大的傳播。

究其原因。一位不具名的評論者告訴雷鋒網，之前很多人看到 Google 的電腦在圍棋上戰勝了人類，心理上受到了衝擊，自然而然認為 Google 強大的人工智能技術，會顛覆很多行業。尤其是那些當初認為機器在圍棋上戰勝不了人類的人類，現在又對“人工智能”過於樂觀了。
第十二步。

北京時間9月29日早上，論文作者之一，Google Brain 團隊的陳智峰，通過遠程視頻接受了 3 家中國媒體的採訪。他告訴雷鋒網，這次 Google 比較特別的地方在於，訓練過程利用了大量的分佈式計算，所以才能把語言模型很快訓練出來。“差不多一星期才能處理一個方向的語言模型。但是Google有大概一萬個語言的模型需要訓練，既需要我們有巨大的資源投入，也在不停地改進算法。 ”

對於機器翻譯取代人工翻譯的問題。陳智峰認為，規則的文本，比如醫學論文，比如時事新聞，大家更注重信息的傳達，在修辭方面或情感方面的傳達可以弱化一些。“機器翻譯就能夠很快地幫助你獲得信息，這是機器翻譯目前對人類的主要幫助。”
他説，“目前來講，我覺得人與人之間的自然的溝通，通過機器翻譯還是有很大的工作需要做。做到真正能夠讓你感覺到跟你説話的是個人，而不是機器，還是有很多年需要努力的。”

資料來源：雷鋒網
作者/編輯：郝曉茹

留言

我要評論
請按此登錄後留言。未成為會員? 立即註冊

專欄簡介

雷鋒網雷鋒網創辦於 2011 年，從起始的科技博客，逐步發展成一個科技信息與產品服務平台。雷鋒網擁有三大業務單元，深入移動互聯網與智能硬件行業，為廠商及用戶提供了涵蓋媒體資訊、社...

編輯簡介

雷鋒網雷鋒網創辦於 2011 年，從起始的科技博客，逐步發展成一個科技信息與產品服務平台。雷鋒網擁有三大業務單元，深入移動互聯網與智能硬件行業，為廠商及用戶提供了涵蓋媒體資訊、社會化傳播、產品改進和預售等多...

快捷鍵：←

快捷鍵：→

Google 翻譯的“漢譯英”錯誤率降低 60%，是怎麼算出來的？ 精選

留言

專欄簡介

編輯簡介

下載 FanPiece 手機 App

Google 翻譯的“漢譯英”錯誤率降低 60%，是怎麼算出來的？精選