作為元宇宙最堅定的支持者之一,Facebook 在上個月宣佈改名 Meta,此後便新動作不斷,先是推出了一個觸覺手套,試圖讓人們在 VR 世界中也能體驗到觸覺變化。
觸覺之後,Meta 又盯上了語言,它要讓人們在虛擬世界中也可以無障礙溝通,哪怕雙方使用的語言不同,你説英語,我説中文都能互相理解。
就這樣 XLS-R 來了,它是 Meta 最近發佈的一個 AI 語言處理模型,最高能識別 128 種語言,目前已經公佈了網頁體驗版。
▲ XLS-R 網頁體驗版僅支持語音輸入
體驗版的功能有一定缺失,僅支持將 22 種語言翻譯為 16 種語言,我試了下最常見的英譯中,一段 7 秒左右英文語音,XLS-R 還是能相對準確地識別,中文翻譯和英文識別都基本正確,兩者耗時都在 1.4 秒 左右,並不算短。
▲XLS-R 識別同一段語音的英文和中文翻譯結果
對比市面上常見語音翻譯應用,這個速度和轉譯表現其實中規中矩,都對口語清晰度有要求,一旦語速稍微快一些,就比較難理解,轉譯會出錯。
XLS-R 的潛力體現在多語言通用 AI 模型上,據 Meta 該技術基於 wac2vec 2.0 預訓練模型,能將語音拆成拆成 25 毫秒的基本單元來分析,利用上下文轉換語音內容,提升識別準確度。
之後 Meta 又對 wac2vec 2.0 技術進行了多次調整,嘗試處理多種語言,轉換準確率提升了不少,經過通過 436000 小時的公開錄音訓練後,才有如今的 XLS-R。
▲XLS-R 識別單詞錯誤率更低
XLS-R 僅僅用一種語言模型就可以轉換 128 種語言,和特殊領域使用特殊模型的常見做法不同,極大地提升了通用性。在官方博客中,Meta 表示它們的目標是用單一模型識別全球 7000 多種語言,從而改進轉換算法。
這是一個新的開始,離真正成為 Meta 所設想的虛擬世界基礎組成部分還比較難,這不僅僅和技術有關,設備算力也是限制。
作為同在在自然語言識別領域擁有大量技術儲備的 Google,其實比 Meta 更早在消費級設備上支持多語種翻譯功能,Pixel 6 系列支持 live Translate 功能,可以在聊天軟件中進行翻譯,無障礙地與外語朋友交流。
只是 live Translate 功能支持的語言並不算多,主要還是英語、德語、日語之間的翻譯,哪怕 Pixel 6 所使用的 Tensor 芯片在 AI 性能方面已經是冠絕全球,達到了驍龍 888+ 的三倍。
只有聯網 live Translate 功能才能做到支持 48 種語言,而使用雲計算技術的 Google 翻譯也僅支持 108 種語言,離 7000 種語言很遠。
元宇宙離我們仍然有一段距離,不過 XLS-R 等技術作為 Meta 口中虛擬世界的基礎建設之一,或許能在其他領域發揮作用,現在它已經發布了 XLS-R 預訓練模型的微調教程,讓業內人士可以基於它進行微調以便應用到具體的工作當中。
或許不久之後,我們能看到越來越多的應用支持更多語種的語音轉譯功能。
題圖來自:unsplash
資料來源:愛範兒(ifanr)
觸覺之後,Meta 又盯上了語言,它要讓人們在虛擬世界中也可以無障礙溝通,哪怕雙方使用的語言不同,你説英語,我説中文都能互相理解。
就這樣 XLS-R 來了,它是 Meta 最近發佈的一個 AI 語言處理模型,最高能識別 128 種語言,目前已經公佈了網頁體驗版。
▲ XLS-R 網頁體驗版僅支持語音輸入
體驗版的功能有一定缺失,僅支持將 22 種語言翻譯為 16 種語言,我試了下最常見的英譯中,一段 7 秒左右英文語音,XLS-R 還是能相對準確地識別,中文翻譯和英文識別都基本正確,兩者耗時都在 1.4 秒 左右,並不算短。
▲XLS-R 識別同一段語音的英文和中文翻譯結果
對比市面上常見語音翻譯應用,這個速度和轉譯表現其實中規中矩,都對口語清晰度有要求,一旦語速稍微快一些,就比較難理解,轉譯會出錯。
XLS-R 的潛力體現在多語言通用 AI 模型上,據 Meta 該技術基於 wac2vec 2.0 預訓練模型,能將語音拆成拆成 25 毫秒的基本單元來分析,利用上下文轉換語音內容,提升識別準確度。
之後 Meta 又對 wac2vec 2.0 技術進行了多次調整,嘗試處理多種語言,轉換準確率提升了不少,經過通過 436000 小時的公開錄音訓練後,才有如今的 XLS-R。
▲XLS-R 識別單詞錯誤率更低
XLS-R 僅僅用一種語言模型就可以轉換 128 種語言,和特殊領域使用特殊模型的常見做法不同,極大地提升了通用性。在官方博客中,Meta 表示它們的目標是用單一模型識別全球 7000 多種語言,從而改進轉換算法。
這是一個新的開始,離真正成為 Meta 所設想的虛擬世界基礎組成部分還比較難,這不僅僅和技術有關,設備算力也是限制。
作為同在在自然語言識別領域擁有大量技術儲備的 Google,其實比 Meta 更早在消費級設備上支持多語種翻譯功能,Pixel 6 系列支持 live Translate 功能,可以在聊天軟件中進行翻譯,無障礙地與外語朋友交流。
只是 live Translate 功能支持的語言並不算多,主要還是英語、德語、日語之間的翻譯,哪怕 Pixel 6 所使用的 Tensor 芯片在 AI 性能方面已經是冠絕全球,達到了驍龍 888+ 的三倍。
只有聯網 live Translate 功能才能做到支持 48 種語言,而使用雲計算技術的 Google 翻譯也僅支持 108 種語言,離 7000 種語言很遠。
元宇宙離我們仍然有一段距離,不過 XLS-R 等技術作為 Meta 口中虛擬世界的基礎建設之一,或許能在其他領域發揮作用,現在它已經發布了 XLS-R 預訓練模型的微調教程,讓業內人士可以基於它進行微調以便應用到具體的工作當中。
或許不久之後,我們能看到越來越多的應用支持更多語種的語音轉譯功能。
題圖來自:unsplash
資料來源:愛範兒(ifanr)
請按此登錄後留言。未成為會員? 立即註冊