那些説Google讓專業翻譯丟飯碗的人,肯定沒用過

TECH2IPO 於 16/12/2016 發表 收藏文章

當一款新的技術,不,應該説當一個技術出現了一丁點欣喜的進步時,現在科技圈裏就立刻往它的身上貼上各種「顛覆」的標籤。

如果你是一位科技新聞的讀者,想必已經對「顛覆」這個字眼感到些許的麻木甚至噁心了吧?那天翻地覆的變化似乎就要出現在明天。

科技媒體善於吸引人們目光,這固然是從業人員的一種必備本領,但如今所有人都左顧右盼,像是熱鍋上的螞蟻一樣焦躁不安,這真的是正常現象嗎?科技媒體眼中。科技創新把世界世界攪的天翻地覆。沒事兒三天一創新,五天一顛覆,未來我們在這個世界站穩腳跟的着力點又是在哪裏呢?

在這其中,尤其是以圍繞着「人工智能」的呼聲最為洶湧澎湃。前不久,Google 推出了基於神經網絡而開發的全新的 Google Translate,引起業界的一片驚呼。不少人甚至都建議國家完全沒有必要在開設外語專業了,翻譯就此在機器學習的帶動下徹底消失了!

然而事實上,如果我們站的遠一些去看它,如果還模糊不清就再在額頭上貼個冰塊兒,你就會發現任何有關「機器將取代人工翻譯」的言論都是無稽之談。今天,五十度硅會好好地跟大家掰扯掰扯為什麼機器代替不了人工的翻譯,並由此我們可以稍微聊一聊人與機器究竟應該保持這樣的一種關係。

Google 的神經網絡翻譯究竟是怎麼一回事?

事實上,十年之前網絡上就已經提供在線翻譯服務了,而其實在很早以前,關於「機器即將替代人類進行翻譯」的論調就不絕於耳。而之所以如今大家的目光再次回到這上面,完全是因為 Google 將自己的在線翻譯服務進行了升級換代,推出了一款名為基於「神經網絡」的機器翻譯系統。

咱們先説説什麼是「神經網絡」?

自打有了計算機以來,努力讓機器智能逐漸向人類大腦過渡成為了很多科研人員的一個夢想。但直到如今,在這方面的進展幾乎可以用紋絲不動來形容。人們都清楚,機器和人類的側重點不一樣。在機器眼中不費吹灰之力的運算,邏輯判斷,這在人類來看是需要大量腦力才能完成的事,而對於人類來説,那些輕而易舉就能辦到的事,比如辨識物體,人們的身份,自由流暢的語言溝通,迅速地學習並適應某一種方言,這些對於機器來説簡直是不可能完成的任務。

在好幾次向「人腦」發起衝鋒未果之後,研究人員提出設想,為什麼我們不搭建一個類似於人腦一樣的神經網絡呢?讓計算機運算單位之間的關係搭建,就完全按照人腦來設計。雖然,

人類至今尚未明白人腦的工作原理,不過這沒關係,我們可以先複製出一個人腦的計算模型:一件事情並非像計算機程序那樣輸入指令輸出結果,而是在人腦的多個神經元傳遞,每個神經元都對信息進行自己的加工,最後輸出的結果。計算機科學家用同樣的方式,在輸入和輸出之間,加入了非常多的「節點」,每個節點會對前一個節點傳來的數據,按照自己擁有的一個權重係數進行加工,有時候節點還會分層。這就是「人工神經網絡」(Artificial Neural Networks,ANN)。

那麼,Google 搞得這次基於神經網絡的機器翻譯系統又是怎麼一回事呢?

之前我們經常用到的翻譯服務,其實是基於「詞組」來進行的。也就是説,一段文字出現之後,系統會直接把這段文字給拆散了,最小單位就是「詞組」,然後將每個詞組找到相對應的翻譯版本,再進行次序的調整,最後出來一篇譯文。這是一個有着明確的先後次序的翻譯工作,即:打散、找對應的詞組、排序、其中包括了標點符號的重新分割,整理等多個環節。

按道理來説它其實不怎麼容易出錯,但是每一個環節雖然準確率還蠻高,但是架不住環節多啊,一旦有一個地方出現了偏差,後面就如倒掉的積木一樣全部都散了架了,最後出來的翻譯內容當然不忍猝讀。
而基於神經網絡的翻譯系統,直接跳過了這麼多繁瑣的步驟,它直接直接依靠「海量數據」來獲勝,也就是説它直接建立起來了兩個對應着的平行語言庫,然後讓機器自己去學習如何進行對應。這樣的法子其實很早就出現了,但是它也有一定的技術難題沒有攻破,比如説機器學習起來速度實在非常慢,而且稍微碰上一些沒怎麼見過的話,它就不知道該怎麼辦了,但是 Google 這次通過技術創新,讓它無論在翻譯的準確性和速度上都獲得了大大的提升。

由此,翻譯再也不是簡單的詞與詞,詞組與詞組的對應,而是能夠從一段文章的角度去把握全文,這樣出來的譯文更加流暢自然。





那麼,這是不是就意味着人類翻譯在此下崗了呢?

既然我們現在知道了 Google 翻譯在此取得的重大進展,那麼現在是時候把機器和人類放在翻譯的天平上稱稱斤兩,比較一下孰輕孰重了!

首先第一點:翻譯是一件非常困難的工作,有些翻譯甚至是極具翻譯才華的人都無法勝任。

機器之所以無法取代專業譯員,其實道理很簡單:現在在國外生活,能夠自由使用兩國語言的人那麼多,但並不意味着他們就能提供專業的翻譯服務。

對於很多翻譯工作來説,翻譯所要求的並不僅僅是你需要熟悉兩國國家的語言文字。很多人覺得翻譯無非就是將兩種語言字對字,詞對詞,句對句的對應起來,其實並非如此。譯員也不是一本會行走的「活字典」。

更準確的説,他們是兩種文化之間的橋樑,在他們大腦對信息的消化、加工、過濾之後,語言不僅僅是從形式上變得熟悉,而在文化上面也儘可能地貼近。有些時候,他們甚至會發明創造一些説法,使得人們更容易接受,有些譯員有可能傾其一生,將在兩個不同的國家的生活經驗灌注到翻譯工作中,使得兩種文化能夠更好的交融。而機器,是無法做到這一些的。

2. 翻譯質量沒有單一標準。

就算是機器通過了上面這一道關卡的考驗,能夠輕鬆承擔起各項翻譯工作,但是它的翻譯質量是否有一個標準進行衡量呢?顯然是沒有的。你將一段文本交給 100 個人類譯員,他們會給你一百種不同的版本,哪種翻譯質量高?哪種低?有的也許在行文造句上極為優美流暢,有的則是在邏輯論證上面十分的嚴謹正式,在面對不同的對象,不同的環境時,考量的標準是不一樣的。而人與人之間的交流效果,是無法通過機器來實現單一標準劃定的。

它並不是一場象棋比賽,擁有非常客觀的邏輯推理。之所以有多個翻譯版本,影響因素除了語法上的考量,還有語言深意的側重點,哪怕是同樣一句話,在不同的人那裏讀起來,因為語調、語氣等原因,也會呈現微妙的區別。

3. 世界上的語言種類太多了,遠超過你的想象。

現在的 Google Translat 支持翻譯 80 種語言,但是如今在我們的世界上,還存在着 6000 到 7000 種語言,其中 2000 種雖然瀕臨滅絕,但我們就算是拿保守估計來算,這其中有 1000 種語言在經濟層面具有重要影響力,那麼 Google 即還得去征服 920 種語言,就算是每年 Google 的翻譯能力擴張 10 種語言,那麼 92 年之後,Google 翻譯才算是勉強覆蓋了人類的語言圖譜。

4. 語境是關鍵。

就拿英語來舉例子好了,幾乎沒人知道,一個單一的詞彙會有幾百種的意思,這完全取決於當時説話的語境是什麼。事實上,牛津英語詞典中光是「Run」這一個單詞,就至少有 645 種不同的意思。一台電腦真的不僅僅能在一種語言中識別這麼多的意思,而且還能在兩種語言中找到一一對應關係嗎?

換句話説,詞與詞對應的翻譯是不現實的,真正的翻譯不是從「字詞」去着眼,而是將「語境」和「意義」兩者結合起來。而這兩者結合起來的方式還在不斷地發生着變化,這種變化背後的動因,則是來源於人們大腦無限的創意。機器,在短時間內是無法跟得上這個步伐的。

5. 商業開發領域,語言真的是太重要了,其重要程度決定了翻譯必須依賴於人類。
你的公司在描述你的產品和服務的時候,你知道你所採用的語言扮演多麼重要的角色嗎?顧客們在做購買決策的時候,與這些話之間會產生千絲萬縷的聯繫。在商業宣傳的翻譯領域,機器是否能夠達到俘獲人心的作用呢?

一家大公司在施展自己的全球化戰略時,勢必要進行很多本土化的營銷工作,這些翻譯工作必須依賴於人來完成,因為只有人,才能説出貼合人心的話。(這個判斷至少在我們有生之年是成立的。)

所以,鑑於以上的幾點原因,機器翻譯在短時間內是不會顛覆翻譯這個領域,那麼為什麼每次科技界有一點點的動靜,全世界的人都在慶賀,好像明天翻譯就被機器取代了似的?

最後的話
請各位親愛的讀者朋友記得,所有沒有給出時間期限的科技預測那都是在耍流氓。在沒有時間框架的制約下,科技小編們的想象力就像是蝴蝶一樣紛飛,這樣的場景固然美麗,但是蝴蝶所到之處灑下來的,卻是不必要的恐慌和焦慮。

「顛覆」和「取代」,這樣的詞內含着一種非此即彼,簡單粗暴的邏輯,它描繪起來快速省事兒,直接刺激大腦皮層的快感;但是現實往往是影響,融合,改變,這樣的過程複雜且充滿變數,而我們所面對的世界往往總是如此,人與機器如何能夠更好的協作分工,這才是每個人應該思考的問題以及努力的方向。

最後,還是説回到我們這片文章的主題:機器是否能夠替代人工翻譯?其實「不能替代」的核心原因只有一個:文化與文化相互之間的學習,融合,只有通過「人」這個媒介才能完成。機器只是翻譯領域一個更加趁手的工具而已。正如電子商務的出現無法替代人工銷售。哪怕是持有同樣一種語言的人,銷售有時候還是憑藉人本身才能完成的。

本文作者花滿樓,文章首發於今日頭條、微信:50度硅-面向上層精英的早午餐讀物。未經直接授權禁止轉載(標註出處也不可以),如需轉載,請與微信號t2ipo001聯繫,並註明來意。


資料來源:TECH2IPO

留言


請按此登錄後留言。未成為會員? 立即註冊
    快捷鍵:←
    快捷鍵:→