在AI科學家、翻譯家眼裏，Google翻譯其實沒那麼神？精選

由 36氪於 21/10/2016 發表收藏文章

圖片來源：pic.36krcnd.com

採訪：加辰
編輯：季星

製圖：加辰

歡迎轉載，如需授權，請聯繫微信號：miniDeeperBlue

Google 經歷了一個進擊的初秋。除了轟轟烈烈浩浩蕩蕩的秋季發佈會，Google 還用它具有重大突破的翻譯系統點燃了人們。

《連線》雜誌的編輯 Cade Metz 記錄了他所經歷的一件趣事。今年三月，《連線》編輯部花了一整個月做了 Alapha Go 與李世石人機大戰的封面報道，就在雜誌下印刷廠之前，編輯部收到了一封激動人心的韓語郵件。

郵件的大意是這樣：李世石在與 Alapha Go 敗戰之後已連贏五場世界頂級對戰。正是人工智能將人類推向了新的巔峰。在與 Alapha Go 對弈之後，李世石表示正是機器開發了他對這古老對弈遊戲的新理解。
編輯部差不多看懂的時候，當即決定把這一段很好的材料放進文章裏去。但難題來了，新聞是用韓語寫的，更多的細節需要精密翻譯，而編輯部裏面沒有任何一個人懂韓語。於是，編輯們嘗試用 Google 翻譯來識別這則新聞，但網頁上被翻譯出來的英文只有零散的、毫無意義的病句。

沒有辦法，只好緊急蒐羅韓語翻譯。“如果我們能夠等到新的 Google 翻譯就萬事大吉了。” Mets 在文中這樣寫道。這個故事巧合的地方是，正是 Alapha Go 背後的科技—— 深度神經網絡 —— 在 Google 翻譯中扮演着重要的角色。

圖片來源：pic.36krcnd.com

深度神經網絡仿照人類大腦神經的相互連接系統，與Android手機指令接收及臉書圖像人臉識別系統一樣，來自同一種人工智能技術分支。 Google 隨後在論文《Google's Neural Machine Translation System: Bridging the Gap between Human and Machine Translation》上表示， Google 神經機器翻譯（GNMT）能夠減少 60% 的翻譯錯誤。

目前 Google 神經機器翻譯系統已經支持中譯英功能，可以看得出來 Google 對於未來的野心與規劃。

Google 新的翻譯系統用的是深度神經網絡中一種叫 LSTM 的技術，即 “長短記憶型遞歸神經網絡（long short-term memory）”。區別於之前的“階段式機器學習” 翻譯，LSTM 可以保持短期與長期的信息，就像人的記憶系統。這使得計算機分析一個句子的時候，在句子結束時仍能夠記住開頭的內容。
但 LSTM 系統最大的問題就是：慢。對於一個在線服務，要是一句話的翻譯得等個一分鐘，就不具備用户粘性了。Google 最大的功績在於，用了許多的算法去改進模型，改進 LSTM 系統。

深度神經網絡由層層數理計算（即線性代數）組成，每一層的算法結果都會輔助下一層的計算。Google採納的一種技巧是在第一層完成的時候才啟動第二層的計算。

圖片來源：pic.36krcnd.com

但不少圈內人認為，Google 翻譯速度的提升主要是因為擁有了強大的芯片技術支持，指的就是 TPU（Tensor Processing Unit）。有了 TPU，原本要處理 10 秒時間的句子只需要 300 毫秒便可完成。

不僅僅是 Google，所有的互聯網巨頭都在一個方向上賽跑，戰爭一觸即發。從微軟到百度，有能力的選手都入場了。如果説 Google 在芯片上表現卓著，那麼微軟也在運用其可編程芯片 FPGA 來執行神經網絡，而百度正在開發不同類型的硅片。
深藍 Deeper Blue 今天邀請了 5 位不同領域的代表人來一起聊一聊 Google 神經機器翻譯的突破與侷限，聊一聊機器翻譯的未來。

他們中有來自學界的科研人員，有來自業界的從業人員，還有來自翻譯一線的翻譯家，雖然領域各自不同，但他們都關注着人工智能對翻譯的影響。

圖片來源：pic.36krcnd.com

引用Google發佈了Google神經機器翻譯（GNMT：Google Neural Machine Translation）系統，將機器翻譯誤差降低了 55%-85% 以上。可以認為Google神經機器翻譯系統是一項顛覆性的突破嗎？

圖片來源：pic.36krcnd.com

專業翻譯對多個語言間翻譯結果進行評估，最低分為 0，表示「完全沒有意義的翻譯」，滿分為 6 表示「完美的翻譯」。

計算機科學家孫茂松：早已不是新鮮事

Google 兩三年前率先使用這個模型的時候，還是具有革命性的。但現在來看，這就不是新鮮事了，比較恰當的説法是：這是近幾年機器翻譯領域發展趨勢的自然延伸。

事實上，如果我們去看機器翻譯領域的頂級國際會議（比如 ACL），兩三年前都有若干篇論文在使用這個模型做機器翻譯。另外，百度早在去年就利用神經網絡改進了自己的機器翻譯系統。

計算機專家劉洋：媒體報道有誇張，遠不是 “顛覆”。
Google 做的其實是把目前學術界的一些技術集成在一起。Google 本身的數據、運算能力，還有工程師水平都非常高，所以他們通過集成做了一個非常強的系統，這個系統和傳統方法相比有比較顯著的提高。

但媒體的報道有點誇張，並不能説機器翻譯已經接近人的水平，或者完全取代人。Google 這項工作還達不到 “顛覆性突破” 這種程度。

自然語言處理專家呂正東：工程上更成功的商業化項目。

如果從機器翻譯代際更新的角度來看，這確實是一個突破，這次Google發佈的Google神經機器翻譯是從統計翻譯到神經網絡翻譯的里程碑式事件。之前，除了百度之外，世界上一直沒有一個可以這麼大規模生產的翻譯系統，而且它在技術上、控制上比百度更完善。
但其實Google神經機器翻譯最早大概出現在 2014 年底，到現在快兩年的時間裏，有很多科研工作者都在推動整個技術的發展。Google 做出的這個系統是集成了這兩年的很多工作。所以從這個層面來説，它只能被認為是工程上出現的一個能夠更好地商業化的項目。

AI 專家、投資人丁曉誠：

如果説深度學習的成功是一次真正顛覆性的突破，那麼這次就不算！

翻譯家專家高興：“顛覆性突破”，説法有失妥當。

僅憑翻譯誤差率降低就説它是一項顛覆性突破，顯然不妥。誤差率降低僅僅是技術改進，算不上顛覆性的突破。
2

引用機器翻譯適用於哪些場景，哪些地方可能可以勝過人類翻譯？機器翻譯未來會消滅翻譯嗎？

圖片來源：pic.36krcnd.com

出境旅機器翻譯已經相當普及。
計算機科學家孫茂松：機器與人，各有優勢。

如果是跟專業翻譯去比較，那機器翻譯在翻譯精度上有一定距離。

但在其他一些場景，機器翻譯肯定比普通人強。比如，一種我們完全不了解的語言，阿拉伯語，機器翻譯這時候就可以為我們提供基本信息。在情報處理領域，機器翻譯的優勢不可替代。

哪怕與翻譯水平較高的專業翻譯相比，機器翻譯也有一定的長處。專業翻譯可能在一般通用領域文本翻譯上更出眾，但如果換到特定的專業方向上，比如電子通訊領域，專業翻譯可能就沒法勝任了，而機器翻譯在跨方向翻譯上有優勢。
此外，還有一個顯著的好處就是機器翻譯速度快。

計算機專家劉洋：離全自動、高質量翻譯還有距離。

機器翻譯目前難度還是非常大的，雖然新技術出現了，但是離大家理想中的水平——全自動、高質量翻譯，還是有很大距離。所以現在機器翻譯主要是用在一些翻譯精度要求沒有那麼高的場合，比如説有的時候只是想了解一下這個網站大意，點一個按鈕將阿拉伯文的網頁翻譯成中文。

自然語言處理專家呂正東：兩種條件下，機器翻譯會更成功。

現在的所謂神經網絡機器翻譯，包括之前的機器翻譯都不是基於理解的，也就是説目前的機器翻譯沒有一個機制是對源語言（即待翻譯的語言）有基於語意的表示和理解。
於是，你可以發現在滿足這兩個條件的情況下，機器翻譯比較容易成功：第一是説翻譯的兩個主體間有意義上比較清晰的對應關係，比如 “北京” 能明確對應 “Beijing”，另一個是説相似結構的句子有出現比較多的樣例，比如 “小明喜歡狗” 這類 xx 喜愛xx（xx love/like xx）的結構，無論在中文還是英文裏都非常常見。

AI 專家、投資人丁曉誠：

機器翻譯適用於實用文體翻譯。機器翻譯是機器去學習人類的翻譯內容、檢索規律並進行效仿，和普通內容的翻譯者做的事情是一模一樣的，機器翻譯將使這部分工作失去必要性。

翻譯專家高興：簡單交流可以，深入靈魂不行。
機器翻譯可能適合於旅遊、貿易、購物、國際交往中簡單溝通等場景。但學術和文學等深刻交流絕對不能指望機器翻譯。在某些領域，也許未來會 “消滅翻譯”，但在社科人文領域，不太可能。

3

引用有人認為機器翻譯可能會導致翻譯腔氾濫、語言匱乏；也有人認為，機器翻譯無法完成詩歌、小説等文學性強的內容；除此之外，機器翻譯現在還有哪些侷限？

圖片來源：pic.36krcnd.com

熱愛工作，工作使其快樂的 Google 翻譯也難免犯迷糊。

計算機科學家孫茂松：機器翻譯的強大與侷限都來自於模型。

對於文學性強的語言，機器翻譯不一定處理得不好。其實機器翻譯的原理就是從大量的人工翻譯好的語料中去學習訓練。如果有大量文學作品給機器，那機器對文學作品的翻譯能力也就越強。文學作品中寫作風格比較靈活，但只要訓練語料裏面有充分多的類似語料，機器翻譯便可以捕捉到寫作模型。

在我看來，機器翻譯的強大之處和侷限都是因為它所使用的模型：機器並不像人一樣真正理解某句話，而是歸功於大量的訓練。也就是説，機器的翻譯知識其實來源於人類，它可以從數以億計的人類翻譯好的文本中學習。這種模型本身並不創造知識，只是把人類的翻譯知識放進去，機器想辦法學會。
於是這帶來了問題。如果你提供的句子，機器沒有看到過也沒有學習過，可能就處理不好。比如網上網友的測試，讓機器翻譯一句 “我不想上課”，假設訓練語料裏面沒有類似 “我下課了” 的表述，機器可能會犯糊塗，這就不一定能翻好。總而言之，翻譯模型的原理是基於統計的，在訓練語料中如果沒有出現過，機器就有可能會去猜，於是會出錯。

計算機專家劉洋：最大的難點——如何讓機器真正擁有智能

機器翻譯的難點其實是整個人工智能的難點——如何讓機器真正有智能，像人一樣有智能行為。語言翻譯是智能行為的一種，還有很多其他類似的行為。現在的計算機模型、方法、數據支持還不足以讓計算機真正達到人的智能。
機器翻譯現在完全是一個數據驅動的方法，取決於我給計算機提供哪些數據，那麼很大的問題就是現在數據比較稀缺。最多的翻譯數據來自於政府文檔，比如聯合國有多種官方語言，每出一個文件都會有多語種版本。而有的領域基本沒有數據，比如娛樂、體育，因為我們不可能把網上每一篇體育新聞都翻譯成另一種語言。

至於文學類型的翻譯，倒不是説機器一定翻不好，而是大家暫時覺得沒有商用價值，所有受關注不高。商用價值比較高的，像專利、旅遊、法律文書、專業手冊這類。機器翻譯的應用比較多。

自然語言處理專家呂正東：更多的數據或許可以彌補缺憾。

到具體的應用場景上，機器翻譯不太能成功的地方可能會在：需要對句子的引申含義進行翻譯；翻譯要求較高的場景，比如對文學作品的翻譯；還有就是對於邏輯非常複雜的句子，機器翻譯很難搞定，因為它的原理不是基於理解，而是利用某種意義上待翻譯語言和目標語言的對齊。
其實所有上述問題，理論上來説都可以靠更多的數據來彌補，但是我們數據是有限的。

AI 專家、投資人丁曉誠：機器不能替代人產生情感與好惡。

機器翻譯的優勢是對字面結構在統計意義上的發現、模仿、對應變換能力，其侷限是不理解字面背後的意思，對特定場景的適應能力會有不足（而人類不僅僅認識語言，還理解意思）。

機器無法理解翻譯的語言背後的意義，它不能代替人產生情感與好惡，從而產生對文字的意義上的判斷（機器沒有人的認知意義上的 “理解力” 與 “判斷力”）。雖然機器翻譯依然最終能夠相當好的解決絕大部分實用文本翻譯，但不能勝任真正具有創造性的工作，比如詩歌的翻譯。
翻譯專家高興：創造、創作，機器還無法勝任。

機器翻譯肯定不能替代文學藝術翻譯。文學藝術翻譯要體現情感、色彩、語調、温度、韻致、字裏行間的意味等種種幽微之處。要傳達出這些，譯者的水準、敏感、境界和心靈力量尤為重要。此外，文學藝術在某種程度上就是創造，就是打破常規。而這些恰恰是標準化、程序化和統一化的機器翻譯難以適應、難以做到的。

4

引用機器翻譯未來可能在哪些地方取得突破？

圖片來源：pic.36krcnd.com

關於機器翻譯，還有很多值得想象。

計算機科學家孫茂松：稀有語言翻譯難度較大，值得關注。

現在對某些訓練語料很少的語言，機器翻譯甚至可能完全不能用，比如説漢語-維吾爾語，維吾爾語-藏語。世界語言好幾千種，幾千種之間的互譯，其中絕大多數語言之間都沒有足夠語料。所以這方面的翻譯還有很多工作需要去做，包括一些模型的探索。

計算機專家劉洋：和 “知識” 深度結合。

最近二十年，機器翻譯的發展趨勢是數據驅動，從大量互聯網文本中自動學習，主要還是受機器學習、人工智能整體潮流的影響，所使用的很多方法都是機器學習領域的。
我個人認為，未來，機器翻譯應該和更多的 “知識” 聯合在一起，和一些知識圖譜，知識庫相結合，因為現在主要都是從數據文本中學習，缺乏知識上的智能。

另外，現在機器翻譯並沒有和認知、腦科學結合起來，純粹是一個數學方法。機器翻譯是一個交叉學科，取決於很多方向的進展：數學、語言學、計算機科學、神經認知科學、工程學，每個學科的發展都有可能推動它向前走。

自然語言處理專家呂正東：

未來我覺得機器翻譯要做好的事情，是對於某些出現頻率不那麼高的詞、句的處理上。這些詞、句對人來説是很容易掌握的，但對機器翻譯的特點來説，需要它們重複/出現足夠多次才能學習到。這是一個需要去突破的地方，而且我相信能比較快取得突破的地方，因為這在商業上有很強的需求。
而比較難突破的地方，我覺得是語言中那些委婉的對應關係，和不規範的地方。因為不規範，某種意義上對應着例外，我們可能會需要相當長的時間才能搞定，需要真正去理解語意，這是非常非常困難的任務。

AI 專家、投資人丁曉誠：

機器翻譯會更好的解決 “常規問題”，把陳詞濫調翻譯得更流暢，比如混合語言（比如中文、英文、符號夾雜）、混合通道（比如文字、語音切換）的翻譯。

翻譯專家高興：

我想機器翻譯未來主要會在日常生活中取得突破，會明顯地改變日常生活的面貌。

深藍本期專家介紹：
孫茂松清華大學計算機系教授，前系主任

國家 973 計劃項目首席科學家，國家社會科學基金重大項目首席專家。研究方向為自然語言理解、社會計算等。他曾主持完成信息處理用分詞國際標準2項，在自然語言處理和人工智能領域重要國際刊物 Computational Linguistics 和會議 ACL 等上發表論文數十篇。

劉洋，清華大學計算機系副研究員

研究方向為自然語言處理，機器翻譯。在自然語言處理和人工智能領域重要國際刊物 Computational Linguistics 和會議 ACL 等上發表論文 40 餘篇。

呂正東，華為諾亞方舟實驗室資深研究員
領導自然語言處理中的深度學習研究項目，研究方向研究方向包括機器學習，自然語言處理，深度學習及數據挖掘。他曾任得克薩斯大學奧斯汀分校博士後研究員，微軟亞洲研究院副研究員。目前，呂正東博士已發表 30 多篇頂級會議和期刊論文，並且長期擔任多個國際會議（NIPS, ICML和IEEE transaction on PAMI）的審稿人。

丁曉誠，創客總部兼職合夥人

專注於智能服務與機器人產業的研究、諮詢、孵化、投資。他曾參與創辦 Face++，研發世界級照片/視頻人臉識別雲引擎。丁曉誠擁有北京大學計算機碩士學位，畢業後歷任IBM、中國移動、百度、Symbian、惠普等公司技術研發與產品管理工作。

高興，著名翻譯家。
現任中國社會科學院外國文學研究所編審，《世界文學》主編。參與過米蘭昆德拉、索勒斯庫等國外文學家專輯作品的編輯，發表過1百多萬字及數百首詩歌的翻譯，代表翻譯作品有《凡高》、《安娜·布蘭迪亞娜詩選》、《我的初戀》、《搭車遊戲》、《野姑娘》。

資料來源：36Kr

留言

我要評論
請按此登錄後留言。未成為會員? 立即註冊

專欄簡介

36氪 36氪（36Kr.com）是中國領先的科技新媒體，我們報導最新的互聯網科技新聞以及最有潛力的互聯網創業企業。我們的目標是，通過對互聯網行業及最新創業企業的關注，為中文互聯網...

編輯簡介

36氪 36氪（36Kr.com）是中國領先的科技新媒體，我們報導最新的互聯網科技新聞以及最有潛力的互聯網創業企業。我們的目標是，通過對互聯網行業及最新創業企業的關注，為中文互聯網讀者提供一個最佳的了解互聯網...

快捷鍵：←

快捷鍵：→

在AI科學家、翻譯家眼裏，Google翻譯其實沒那麼神？ 精選

留言

專欄簡介

編輯簡介

下載 FanPiece 手機 App

在AI科學家、翻譯家眼裏，Google翻譯其實沒那麼神？精選