IEEE 院士 Ming C. Lin:VR 中音頻渲染模擬為何這麼難?

雷鋒網 於 17/06/2016 發表 收藏文章
虛擬現實(VR)技術的目的是提供如親臨其境般的沉浸感體驗,而到目前為止,不説尚未能模擬的嗅覺、觸覺,已經能在VR中體驗得到的音頻卻並非如視覺完美。相信體驗過一些VR設備的用户會發現,VR中的音頻失真度較高。這些問題在2000年的時候就被意識到了。然而,為什麼連解決方案都有了,VR音頻的真實感模擬仍這麼難呢?以下是國際數字感知大會上,UNC講席教授、IEEE院士Ming C. Lin的講演摘錄,為了便於理解,部分內容有適當增減:

VR視頻進步了,聲頻還處於80年代水平
剛才袁昱博士也提到了追蹤和延遲的問題,而另外的一個問題就是怎麼樣去創造一種體驗,以及捕捉,很多人都沒解決這個問題。此外,就是人與VR環境的互動。目前,VR/AR領域有很多已經開展的研究都是關於怎麼樣去顯示的——視覺的展示。但是,觸覺的話,就是一個非常有挑戰性的話題,我們的皮膚是可以傳達感官的,但要知道怎麼樣去取樣的話,就可能要運行上千次的。那麼這個標準是怎麼樣的,很多台計算機才可以預算出來。我們嘗試了不同的裝置,在這個領域的研究裏,你是開發者或者是研究者的話,你會深受鼓舞地去研究這個領域的,但如果你是物理學家的話,你會知道這個是非常困難的問題。


而今天要詳細講的是,VR中我們的音頻實時渲染做得並不好。VR視頻進步了,聲頻還處於80年代水平。VR中位置不同、阻礙物不同時,聲音是不一樣的,而目前我們與聲音是沒有任何交互的。在VR系統裏面體驗一些內容的時候,有聲音和沒聲音的體驗差別非常大,這意味着沉浸感是否深刻。想象一下,當我們處於一個交互的VR環境中時,是怎麼樣利用聲音的錄製來製作效果的呢?——聲音控制在哪裏?看視頻如果沒有聽到聲音的話,你都不知道發生了什麼。VR也是一樣的,你聽不到聲音的話,你都不知道他是發生了什麼。AR環境為保證視覺的 逼真度,動態圖象要以每秒20-30幀的頻率進行刷新,單位時間內的刷新率則使圖象具有一維的時間信息。為實現聲音與圖象的較好信息融合,必須使聲音的三維方位信息與圖象顯示的三維信息相融合,圖象的刷新時間與聲音的時間信息相融合。
而重要的是,如果我們人類要去感知這個聲音,就是生理層面去感受空間內的聲音時,如何獲得一個實時的感受呢?如果聲音無法實時渲染,而是依靠外部配音來完成的話,那麼實際的聲音軌跡只能是固定的2D效果,而非像現實一樣能讓我們分辨出聲音的來源、發聲的物質,也就是當視頻畫面能夠移動了,但配音中的聲音聲源是固定的,這就大大降低了VR系統中的真實感。另一方面,採用配音的話,無法百分百模擬每一個場景所能夠產生的聲音,比如當木頭、金屬、流體等一系列複雜元素交錯碰撞時,模擬配音只能是大致地完成;並且,當在虛擬空間中,聲音傳遞會經過一些比如牆壁等的阻礙,那麼這個配音是無法模擬的,所有這些造成的問題是失真度較高。最後,如果每一幀的聲音都需要外部模擬再匹配,那麼千千萬萬幀的內容將需要龐大的配音工程。

而更大的問題的是,其實耳朵的形狀,就決定了每個人聽到的聲音都是不一樣的。所以,我們需要做的是依靠算法來結合人體生理條件自動實時渲染生成場景中的聲頻。需要建模、建立音頻數據庫、建立算法。

難以實現的解決方案

對聲音仿真的目的,就是用計算機生成的聲音能夠非常逼近真實世界中的聲音。從頻域上講,二者的頻譜分量要相當接近。任何真實世界中的聲音都可看作許多幅值、相位唯一的正弦波分量的混合,對聲音的建模,可理解為對聲音的頻譜分析。


我們先了解一下聲音傳播中數學函數和幾何方面是如何表現的:模擬聲音時,需要用方程來計算聲音傳播的壓力波,就是歐姆的4次方——這是非常高的一個頻率,需要超級計算機來完成計算,需要100倍升級CPU。

舉個例子説,在一個教堂中,模仿裏面分散的聲音會用不同的材料,它們會有不同的吸收率。因為材料的質量本質上是不一樣的,不同的材料會有不同的效果。應該怎麼樣做模擬呢?以流體聲音為例,目前的方案是利用許多材料來與一缸水撞擊,然後捕捉起這些單點水珠的聲音素材,並轉化成代碼,那麼日後出現的新環境中,計算機就能利用算法把不同的素材合成為符合場景活動的聲音。這所做的,可以理解為聲音的克隆。那麼有了這樣的模擬能力,VR就可以允許用户感覺在水中進行互動了,否則,用户在VR中游泳一點感覺都沒有。那麼延伸開來,不同的素材可以做不同的聲音模擬,對萬物的模擬也同樣需要海量的素材。


又比如,珠子掉落到木板上時,隨着珠子的體積、形狀、速度、質量的不同,其聲音是不同的。那麼根據以往收集的聲源材料,比如各種木頭之間相互撞擊、鐵塊與木塊撞擊等等,來自動合成這個聲音。


所以説,這面臨的難題有兩個層面:第一是基礎建模的困難,我們有海量的聲源物體需要建模;第二是根據模型生成聲音的算法困難,複雜的邏輯、巨大的計算量。目前,我們所能做到的是水流、滾珠等幾個模型。


此外,在仿真環境中,要想每時每刻觀察到運動中的實體,計算機生成的圖象所對應的視點必須能夠象電影鏡頭不停變焦距那樣實時切換,要達到聲像的良好融合,聽點應跟隨視點變化。聲音的聽點實時切換在頭部跟蹤中是非常必要的,當頭部姿態變化時,為保證生成的虛擬聲源的位置應是不動的,必須反向切換相應的頭部脈衝響應函數。

然而,可以説,所有這些物理當中的聲音,都可以通過模擬來逐個生成。我們可以用這個技術來獲得一個多通道的交互,所以説這是一個多模態的交互 。這個技術已經在展開研究了,未來將是一個突破的關鍵點、難點。


資料來源:雷鋒網
作者/編輯:曉樺

留言


請按此登錄後留言。未成為會員? 立即註冊
    快捷鍵:←
    快捷鍵:→