只需 15 分鐘,iPhone 就能「複製」你的聲音

愛範兒 於 05/06/2023 發表 收藏文章
史蒂芬·霍金的「機械電音」,也許是世界上其中一個最有辨識度的聲音。

但那並不是霍金自己的聲音。


在霍金因漸凍症(ALS)失去説話能力的年代,技術還不足以讓他能生成自己聲音。事實上,能用上語音合成器的人都屈指可數。

到了今天,ALS 患者雖然有了更多語音合成的選擇,但總體費用和時間門檻仍然不低,普及度也有限。

最近,蘋果公佈了全新無障礙功能 Personal Voice(暫未上線),不僅讓用户能免費「備份」自己的聲音,同時還在安全地應用 AI 技術上,作出了一次有意思的嘗試。

只需 15 分鐘「調教」,就能生成你的聲音
▲ 圖自 Fastcompany

在生成式 AI 可以模仿一切的時代裏,用 AI 模仿一個人的聲音聽起來已經不算新奇,只是感覺有點安全隱患。

我好奇的,更多是蘋果要怎樣安全和高效地實現 Personal Voice 這一功能。
據介紹,iPhone、iPad 和 Mac 用户只需要根據提示錄製 15 分鐘的音頻,蘋果就會基於設備端的機器學習技術來生成和用户一樣的聲音。

相比之下,為失語羣體提供專業語音合成服務的公司,可能需要採用專業設備,錄製幾小時的語音素材,價格最低都要數百美元。

另一項新無障礙功能 Live Speech,則支持用户打電話、FaceTime 或者是和他人面對面對話的時候,輸入文字即可生成語音內容,為失語或不方便説話的用户提供另一種「發聲」方式。


結合 Personal Voice 和 Live Speech 兩項功能,失語用户就能用接近自己原本聲音的生成聲音和他人溝通。

用起來是方便了,但怎樣避免有人用網上扒的語音素材來生成他人的聲音?

  1. 素材隨機化。

在錄製 15 分鐘語音素材的過程中,蘋果將隨機生成需要用户朗讀的內容,減少他人猜中素材的可能性。


  1. 物理距離屏障。

在錄製過程中,用户需要在距離設備 6-10 英寸(約 15- 25 釐米)的特定空間裏完成錄製。

在生成過程中,所有數據都將通過蘋果的 Neural Engine(神經引擎)在設備本地完成,不必要上傳到雲處理。

語音合成後,第三方應用如果想使用 Personal Voice,都要獲得用户明確授權。


即便第三方應用獲得授權使用時,蘋果也會採用額外的背景保護,確保第三方應用無法獲取 Personal Voice 以及用户之前所錄製的語音素材。

如果是蘋果「全家桶」用户,生成自己的 Personal Voice 後還能通過 iCloud 同步到不同設備上,並以端對端的方式加密。

自己的聲音,失去了才懂多重要


人是感性的生物,而聲音是很強烈的情感觸發器。

有研究指出,當人在聽到母親的聲音時,身體釋放出催產素水平和跟媽媽擁抱時產生的程度很相似。另一個研究則指出,聽到自己的聲音,會增強一個人的自我能動性。

這聽起來有點抽象。

但當我們失去它時,重要性就變得顯而易見了。

2021 年 3 月,Ruth Brunton 被確診 ALS。那年聖誕,她就已經失語了。

ALS 患者中,約有 25% 的人患的是「延髓起病型」肌萎縮側索硬化症,主要表現是説話障礙或吞嚥困難。這類病人説話會逐漸變得含糊、帶有鼻音,甚至失語。

Brunton 的行動很果斷,確診後馬上找公司去做語音生成。

來回花了一個月時間,錄了 3000 多個句子的語料,但最後出來的結果並不理想。

那家公司用的是一種名為「單元選擇(unit selection)」技術。

簡單粗暴來説,它就是通過「拼接」來實現語音生成,把語料拆分為大量小的語音單元,然後按需把元素拼起來。

▲單元選擇技術下,「Bob」這一詞語能被拆分成不同語音元素,圖自《華盛頓郵報》

這種技術生成的語音能聽清,但會有點電音,聽起來不太自然。

結果就是,Brunton 錄製的語料結合了微軟一個名為「Heather」的聲音,不但聲音和自己毫不相似,甚至逼着這英國人「講」起了美語口音。

document.createElement('audio');

https://s3.ifanr.com/wp-content/uploads/2023/06/real-ruth.m4a

▲ Brunton 自己真實的聲音

https://s3.ifanr.com/wp-content/uploads/2023/06/heather.m4a
▲ 合成版 Brunton 的聲音

困在這個聲音裏,Brunton「只會在必要的時候説話,不再是因為想説話而説話」。

從前和丈夫打鬧聊天的心情消失了,Brunton 也不怎麼願意參加多人對話。

即便是説「我愛你」,用一個不像自己的聲音來説,意義也似乎被削弱了。


六個月後, Brunton 和丈夫爭取回了最初錄製的語音素材,找了另一家公司,用 AI 技術合成了一個更像她自己的聲音:

引用這聽起來也許有點傻,但重新獲得自己的聲音讓我更有自信了。

在波士頓兒童醫院負責「增強溝通」項目的 John M. Costello 留意到,那些採用了更真實生成語音的病人,似乎更能夠和親近的人建立深厚的聯結。

2022 年聖誕節,「重獲新聲」的 Brunton 還用語音錄製的一段節日祝語。

https://s3.ifanr.com/wp-content/uploads/2023/06/ruth.m4a
▲ Ruth 覺得新的合成聲音更像自己

然而,聖誕剛過,Brunton 就染上了新冠,最後在今年 2 月離世了。

她離開的那晚,丈夫 David 一整夜都握着她的手:

引用我們有兩年時間來告別。

我們説好了,我們要説盡一切我們想説的。

難以想象,如果 Brunton 後來沒換上更像自己的聲音,她又是否能自在地説出想説的一切。

無障礙思維點亮靈感,AI 燃起生產力


我一直認為,無障礙設計所挖掘的,其實就是人類多樣性創造的想象力資源。

我們去到和自己有着截然不同生活體驗的人面前,聆聽更少被訴説的故事和體驗,創造出我們之前沒想象過,但卻能對更多人友好的的新生活方式。

Personal Voice 能讓失語的 ALS 患者重新獲得自己的聲音;也可以幫助在經歷「刀片嗓」的我用自己的聲音去和其他人對話;甚至,我也很難避免會去想象,是否應該用這為自己「備份」聲音留給親近的人,以免哪天自己會突然離世。

而 AI 技術,就是實現這些想象力生產力。

正如杜編輯之前説的,雖然不趕生成式 AI 的熱鬧,但蘋果一直都把 AI 用來提升用户體驗 —— 提升效率,保護隱私。


提升效率,在於提升本地執行的機器學習算法和模型。

除了 Personal Voice 以外,蘋果這次預覽的另一個無障礙功能 Point and Speak 也採用了本地設備端的機器學習技術。

未來,視障用户在 iPhone 自帶的放大器裏,結合 Point and Speak 和旁白功能,就能憑自己手指把 iPhone 變成「點讀機」—— 點到哪兒,讓 iPhone 給你把文字讀到哪兒。


去年的「門檢測」功能道理也類似,讓設備端的機器學習幫視障用户識別出門,並朗讀出門上面的信息和周圍的標識。


至於隱私,按喬布斯説的,就是 「如果你需要他們(用户)的數據,那就向他們(用户)請求。每一次都如此。」

這在無障礙設計方面也尤其重要 —— 因為這些功能設計起源就是服務被所謂「常規設計」忽略的人,常常都是更弱勢的羣體,因此更有必要確保這些用户的隱私不受侵害。

在這個語境下,我們也可開啓更多關於數據應用權和透明度的討論。

蘋果這次做 Personal Voice 時,和幫助 ALS 患者的非盈利機構 Team Gleason Foundation 合作。

▲ Team Gleason Foundation CEO Blair Casey(右)

該機構的 CEO Blair Casey 一直也在推動語音生成公司設定一套標準錄製素材設定,讓用户能直接錄這部分素材,並體驗不同公司生成出來的語音效果,而不是像現在一樣「盲賭」。

同時,Casey 也主張語音生成公司把用户錄製的語音素材數據提供給用户(因為很多用户可能錄製後就失語了),以免他們未來想把這些數據用在其他技術上:

引用如果更好的技術出來了,你會不想試一試嗎?

如果你沒法拿回自己的語音素材,你就沒法去試。
AI 也許是我們時代最強的生產力。

但是,這力該怎麼使,也許以人為本的無障礙設計能給它不少指引。


資料來源:愛範兒(ifanr)
標籤: iPhone  

留言


請按此登錄後留言。未成為會員? 立即註冊
    快捷鍵:←
    快捷鍵:→