Google 街景提供了許多發達國家中不少城市的全景視圖,以及沿着人行道的無數美景、商場內部的視圖和周圍的博物館和藝術畫廊。它是現代工程學中的一個非凡壯舉,改變了我們對我們周圍世界的欣賞方式。
將街景變成電影
不過,雖然街景可以向我們展示那些遙遠的地方的樣子,但是一張又一張的圖片並不能讓人身臨其境地感受世界。於是有人想到了一個解決方案:連續播放一系列街景圖像,來創建一部電影。
但這並不能和你所想象的那樣完美的合成,以每秒25幀或以差不多的速度播放這些圖片,會使風景略過的速度太快,產生跳幀;而太慢的話,肉眼又能明顯地看出“卡頓”。當場景沒有什麼變化的時候,或者是在高速公路和風景不變的時候,低速是可以被接受的,但它在繁忙的街道或是藝術畫廊裏就不行了。
因此,Google 已經想出了一個解決方案:讓街景攝像機在記錄的時候,添加額外的幀。但是,這些幀看起來是什麼樣子呢?
如今,John Flynn 和其 Google 的同事一同透露,他們是如何利用公司龐大的機器學習技術來找出,這些丟失的幀看起來應該是怎樣的,機器只是研究圖像兩邊丟失的幀。其結果是一台計算機,可以通過內插丟失的幀,或多或少將一系列的圖像轉變成能流暢播放的影片。
消失的圖像
Flynn 和其同事直面挑戰,給定一組特定地方的圖像,目標是從另一個不同的角度合成同一區域的一張新圖像。這個過程十分的不容易,Flynn 表示,“這需要了解物體的所有幾何圖形,即使在看不見的角度上也要生成完整的3-D圖像”。
實際上,這是一個困擾了計算機科學家幾十年的問題,即給定了兩張或更多張圖像,從而估算出場景的三維形狀。
計算機科學家已經開發出瞭解決這個問題的各種方式,但所有方式都面臨着類似的問題,特別是在一個物體遮擋了另一個物體,造成信息缺乏時。信息缺乏會導致畫面“撕裂”,而且在沒有足夠信息的位置會有不少精緻的細節丟失。
Flynn 的新辦法是訓練機器視覺算法,在經過一個巨大的數據集的連續圖像訓練後,算出新的圖像應該是什麼樣子。計算機的任務是將各張圖像作為一組像素,並確定給定相應像素的深度和顏色,並根據出現前後的圖像給出深度和顏色相符的像素。
他們訓練的算法叫做 DeepStereo,使用了“由一個移動的車輛拍攝的街景圖像。”事實上,他們使用了10萬個這些序列作為訓練數據集。而最終的結果也是令人印象深刻的。Flynn 表示,“總體來説,我們的模型產生了合理的輸出。”
算法成功地再現了一些困難的物體,如樹木和草叢。並且即使算法沒有處理好,也不會有之前的“撕裂”,尤其是算法在處理移動物體上的表現很好。不過,總而言之該方法目前還是並不完美。即使如此,這也是一項令人印象深刻的工作,再一次顯示了深度學習技術的潛力。
希望在不太遙遠的將來,我們能看到Google街景從圖片變成一部旅遊電影,讓用户真正足不出户“走”遍天下。
via technologyreview
資料來源:雷鋒網
作者/編輯:思睿
請按此登錄後留言。未成為會員? 立即註冊