微軟最新的語音識別系統的準確度比人還高精選

由愛範兒於 20/10/2016 發表收藏文章

http://ifanr-cdn.b0.upaiyun.com/wp-content/uploads/2016/10/microsoft.jpg

圖片來源：b0.upaiyun.com

在最近大熱的 HBO 電視劇《西部世界》中，工程師們在和真假難辯的機器人交互時就是直接通過一般的語言實現，雖然時不時還是會出現特定的系統口令，但總體而言，還算溝通得非常自然。

http://ifanr-cdn.b0.upaiyun.com/wp-content/uploads/2016/10/ww-1.jpg

圖片來源：b0.upaiyun.com

《西部世界》中工程師與機器人交互，出自 HBO官網

但環顧現有的帶語音識別能力的系統，無論是蘋果的 Siri、亞馬遜的 Alexa 還是微軟的 Cortana，用户在使用起來多少還是經常想砸手機，因為它們經常擅自“自動糾正”用户話，可見要簡單地做個好的“聽寫員”實在是不容易。
10 月 17 日的時候，微軟發佈了一份名為《達到與人類具備同等交流對話水平》（Achieving Human Parity in Conversational Speech）的論文。該論文宣稱，他們在語音識別上的技術已經高於專業的人工速記員了。

http://ifanr-cdn.b0.upaiyun.com/wp-content/uploads/2016/10/ms-research-team.jpg

圖片來源：b0.upaiyun.com

微軟研究團隊，圖片來自微軟官網
為了能夠進行比較，微軟的研究人員找來了一段它們具有正確腳本的音頻片段，並請來了一家第三方公司來進行語音轉文本處理。這個第三方公司的操作方式分為兩部分：一名謄寫員邊聽音頻邊將內容打出來，而另一名則一邊聽音頻一邊修正第一人提供的文本。隨後，根據和標準的正確文本對比，第三方公司的錯誤率分別是 5.9% 和 11.3%。

而微軟的識別系統，在經過 2000 小時對人類交談素材的學習後，針對同一份音頻材料進行了語音識別，錯誤率分別為 5.9% 和 11.1%，數量上來看，比人類對照組少了十來個錯誤。

http://ifanr-cdn.b0.upaiyun.com/wp-content/uploads/2016/10/speech-recognition-20161019-1.gif

圖片來源：b0.upaiyun.com

圖片來自微軟官網

雖然這次測試的成績不錯，但畢竟處理的音頻材料與真實生活場景的貼近性還是比較遙遠。而微軟的研究人員也表明，下一步會將該系統放在帶有部分背景噪音的場景中，例如在派對或是在高速公路上行駛的汽車上。同時，人類對照組的可參考性也還需要考究。但無論如何，希望這次的針對語音識別的研究突破不會成為那種被報道一次之後就消失的信息。

題圖來自 QUARTZ

資料來源：愛範兒（ifanr）

留言

我要評論
請按此登錄後留言。未成為會員? 立即註冊

專欄簡介

愛範兒愛範兒（ifanr）成立於 2008 年 10 月，依託於國內移動互聯網的發展大潮，用敏銳的觸覺，出色的內容，聚焦 TMT 領域資訊，迅速成為國內最為出色的新銳科技媒體。...

編輯簡介

愛範兒愛範兒（ifanr）成立於 2008 年 10 月，依託於國內移動互聯網的發展大潮，用敏銳的觸覺，出色的內容，聚焦 TMT 領域資訊，迅速成為國內最為出色的新銳科技媒體。2009 年，愛範兒獲得搜狐...

快捷鍵：←

快捷鍵：→

微軟最新的語音識別系統的準確度比人還高 精選

留言

專欄簡介

編輯簡介

下載 FanPiece 手機 App

微軟最新的語音識別系統的準確度比人還高精選