自從扎克伯格把 FaceBook 改名成 Meta 之後,這家公司就徹底和眼鏡較上勁了。
有一個即熱又冷的小知識,Meta 這個名字,取自「metaverse(元宇宙)」的前四個字母,2021 年改名的時候,扎克伯格本人非常自信地表示:
▲ 圖片來自:Google
四年過去了,元宇宙成了科幻小説、創意動畫和影視作品的常客,但離現實世界卻越來越遠,為數不多能引起人們關注的,還是那些時不時爆雷上熱搜、打着元宇宙、虛擬資產的幌子,來招搖撞騙的煩心事兒。
在普及和鋪開元宇宙上,Meta 和四年前一樣沒啥變化,不過他們卻在元宇宙的入口——VR/AR 頭顯設備上,做出了不少有意思的新玩意兒。
定位為新型遊戲機的 Meta Quest,打開了 VR 互動遊戲的新世界,2024年 Meta Quest 系列佔據了 73% 的市場份額,遙遙領先。
成為 AI 時代新潮配件的 Ray-Ban Meta,經過了兩代產品的努力,出貨量在今年 2 月正式突破 200 萬台,集傳統眼鏡、名牌 logo、藍牙耳機、語音助手、Vlog 相機於一身,既做好了一副傳統眼鏡該有的裝飾作用,又讓科技悄無聲息地嵌入了日常生活。
明面上,Meta 在消費者市場推出了幾款成功的產品;私底下,他們也在 toB 的賽道上悄悄發力,而且這些面向企業和專業機構的智能眼鏡起步的時間,甚至比他們改名的時間還早。
五年之約已到,Meta 交卷
2020 年,Meta 推出了其首款實驗性智能眼鏡 Meta Aria Gen 1,和傳統眼鏡比起來,Aria Gen 1 略顯臃腫,特別是兩條加粗的鏡腿,非常顯眼。
▲ 圖片來自:Google
碩大的外觀並不只是擺設,其中包含了非常多的傳感器套件,如配備 RGB 攝像頭、定位追蹤攝像頭、慣性測量單元(IMU)、氣壓計、磁力計等,這些元件的主要功能是用於採集第一人稱視角的視覺、運動和空間數據。
從理論上來説,Aria Gen 1 是專為機器感知系統、人工智能及機器人技術研究設計,它通過集成多模態傳感器,幫助科研人員攻克AR眼鏡的核心技術難題,如環境感知、空間定位等。
落地到實際體驗,Aria Gen 1 則有着非常遙遠也令人期待的使命:
作為這項實驗的原型機,也是第一代產品,Aria Gen 1 並沒有掀起太大的波瀾,沉澱五年後,這周 Meta 正式發佈了 Aria Gen 2。和一代相比,有了全面的升級。
最明顯的變化在傳感器系統上,一代機採用的是最基礎的環境感知元件,只有攝像頭和慣性傳感器,Aria Gen 2 在此基礎上,增加了許多新的配件,包括 RGB 攝像頭、6DOF SLAM 攝像頭、眼動追蹤攝像頭、空間麥克風、IMU、氣壓計、磁力計和 GNSS。
特別是新一代產品在鼻託中嵌入了兩個創新傳感器:用於測量心率的 PPG 傳感器,和用於區分佩戴者聲音和旁觀者聲音的接觸式麥克風。
如果把一代比作「只用眼鏡看世界」,那相比之下 Aria Gen 2 可以説是感官全開,從更多維度感知、觀察以及收集外界信息,就能在同樣的時間裏,獲取數量更多、更準確的數據,機器的運作、學習效率也會更高。
另外,數據處理的方式上,二者也有了質變,Aria Gen 1 依賴於外部設備進行計算,雖説不在本地運算,能一定程度上,減輕設備的重量壓力,但隨之而來的則是反應的遲緩,在雲端算力夠,但網絡不好的時候會有響應尷尬期,經常用智慧助手的朋友應該都有碰到過類似的情況;若是隨身攜帶一個移動計算平台,非常不便攜。
而 Aria Gen 2 則用上了 Meta 的自研芯片,可以把數據放在端側處理,響應速度非常快,不受網絡的限制,交互體驗也有了非常大的進步。
一般來説,多了自研芯片的設備,擁有了端側運算的能力,但同時也會增加設備的重量。不過 Meta 用數據説話,這五年他們真的沒閒着:Aria Gen 1 重 98g,Aria Gen 2 重 75 克。加量不加重,長體驗不長體重。
體驗見長的,還有 Aria Gen 2 的交互方式,在第一代語音交互的基礎上,二代機加入了「眼動追蹤+手勢+接觸式操作」。語音交互很直接,檢索路徑會大幅縮短,但並不是生活中的所有場景都適合,比如高峯期的地鐵站和超安靜的辦公室。
按理來説,傳感器和交互功能變多,續航會受到影響,自研芯片的確影響了 Aria Gen 2 的續航,但是正向的。官方稱其能達到 6-8 個小時使用時間。按照目前無線耳機的使用時長,基本能讓 Aria Gen 2 做到全天候的智慧功能可用。
打好了硬件基礎,後續的使用體驗才會有更多的可能,Aria Gen 2 的升級體現了 Meta 對 AR 技術落地的兩大戰略方向:
一是隱形化集成:通過輕量化設計和傳感器隱藏(如攝像頭指示燈關閉時外觀接近普通眼鏡),降低設備存在感;二來通過開放的生態,提供底層 API 接口和模塊化擴展能力,鼓勵學術界開發定製化工具包,加速技術轉化。
因此,Aria Gen 2 的應用場景,也從先前的室內導航與基礎 AR 研究,轉向了更多維的領域,醫療、工業、城市規劃等,都有可能成為 Aria Gen 2 生長的土壤。
至此,我們來總結一下,Aria Gen 2 的進步與意義:
如果你看完,Meta Aria 的解讀介紹,還是有點對它在消費市場的運用摸不着頭腦,那很正常,因為 Meta 明確表示,這款產品「不會面向消費者銷售」,那你可能想問,它到底有什麼用?要説清楚造它的目的,還得回到十多年前年前。
2014 年,扎克伯格在斯坦福虛擬人類交互實驗室(VHIL)體驗了當時最新的 VR 設備,以及各種遊戲場景,他在 VR 眼鏡裏裏走了獨木橋、飛過城市上空、砍了幾棵樹……
時任 VHIL 實驗室經理的 Cody Woputz 曾經透露過:在體驗高空墜落場景時,他(扎克伯格)甚至嚇到將手放在胸口上。
這次體驗讓扎克伯格留下了很深的印象,一方面由於 VR 還處在早期的研究階段,定位系統不穩定,使得體驗多次被打斷,得停下來重新校準設備;而且當時的 VR 還不是一體機,PC VR 的計算終端在機身外,得用一條又粗又長的線纜連接,以此來傳輸信號和供電。
▲ 圖片來自:Google
另一方面,扎克伯格也看見了這項革命性技術在未來的巨大可能,也正是這次體驗,讓他下定決心,以 20 億美元收購了 Oculus,扎克伯格曾在公告中解釋過收購原因:
之後,扎克伯格就帶着 Facebook 開始了對於 AR/VR/MR 技術以及設備的探索。有了目標和硬件技術的積累,於是在 2020 年,Meta 正式開啓 Aria 項目,其宗旨是「從人的視角加速 AR 和 AI」。
▲ 圖片來自:Google
這麼看有點玄乎,稍微通俗的解釋就是,把眼鏡作為橋樑,讓設備從人的視角來觀察世界、瞭解世界,並學習人和環境的互動關係,以此來推動軟硬件技術的發展,最終讓機器能夠從人出發,並服務於人。
Project Aria 中的眼鏡,可以通過突破性技術幫助研究人員,從用户的角度收集信息,特別是 Aria Gen 2 上新增的傳感器,能夠捕捉佩戴者周身環境的音視頻,以及他們的眼動和位置信息。
從佩戴者的第一視角出發,能讓研究人員更容易弄清楚,AR 到底如何才能在現實世界和日常生活中,發揮真實作用,而不只是停留在花裏胡哨卻不實用的功能上。
而且,從人的視角出發來收集現實世界中的信息,對於多模態 AI 來説非常重要,這樣的訓練方式能模擬人類多模態認知方式。
我們本身就是通過視覺、聽覺、觸覺等多種感官協同感知世界,而多模態 AI 通過整合文本、圖像、音頻、視頻等數據,能夠更貼近人類自然認知模式。況且跨模態信息整合能力是單模態 AI 無法實現的。
多模態的收集和訓練,也能提升 AI 對複雜場景的決策精度,如果不通過多維度的信息來理解世界,那必然會存在「買家秀」和「賣家秀」的分歧,數字世界只有 0 和 1,但現實世界除了黑白,還有那難以理解的灰色地帶。
▲ 圖片來自:Google
交互本身其實也是多模態的,和朋友談話時除了語言,表情、手勢、語氣甚至着裝,都會影響我們的理解。因此多模態 AI 通過同時處理文本、圖像和音頻,可實現更自然的交互體驗。
Meta 也給出了他們在 Project Aria 中的一些研究細節,在 Project Aria 項目中,讓智能眼鏡讀懂世界的方式非常簡單粗暴:數據化。這項被稱為 SceneScript 的技術,是一種使用自迴歸結構化語言模型和端到端學習,來表示和推斷場景幾何的方法。
▲ 圖片來自:Meta
簡單講,所有第一人稱視角看到的場景、物體,都可以被眼鏡變成具體的數字和名稱,桌子有多長、牆上透明且規則窟窿叫「窗户」。
為了讓眼鏡內置的模型不只是看見世界,還要更好地理解世界,Meta 用自研的三維成像技術 EMF3D,把現實世界所有的物體用不同顏色的線段「明碼標價」,把材質、形狀和大小不一的東西統一了度量衡。
▲ 圖片來自:Meta
當眼鏡能讀懂並且記錄環境時,再現一個虛擬的世界,就有了更大的可能。項目中的環境合成技術正是通過大量的數據收集整理,復刻了一個大規模、完全模擬的程序生成的室內場景數據集,也為「數字孿生」設立了新標準,加速了 3D 物體檢測、場景重建和模擬到現實學習等挑戰的研究。
▲ 圖片來自:Meta
這種「養成系」的學習方法有好有壞,好在一旦學成就非常紮實,難在想要紮實就得通過海量、巨量的數據,所以需要非常多的志願者參與到 Project Aria 中,在平時長期佩戴 Meta 的眼鏡。
比起找到人,如何讓人放心地使用才是最關鍵的,因為數據收集和隱私保護,是一對難以調和的冤家。Meta 給出的方案是「自我模糊」新型 AI 模型,通過檢測和模糊圖像中的 PII 來保護隱私,把面部、車牌等敏感信息直接打碼。
▲ 圖片來自:Meta
海量的學習也能讓模型更好地瞭解使用者的意圖,比如通過對使用者每日生活場景的掃描與總結,可以判斷本人在什麼時間點更可能幹什麼事?是去樓下鍛鍊,還是去客廳打遊戲,又或者去廚房做飯。能預判人的行為活動,也就能提前提供更多的便捷功能。
這和我們手機上的智能助手,在特定時間彈窗提醒回家路況,以及明日天氣的功能,有相似之處。
▲ 圖片來自:Meta
自 Project Aria 立項的五年間,他們已經做出了一些成果,例如使用第一代 Aria 眼鏡收集的 Ego-Exo4D 數據集,已成為現代計算機視覺和不斷髮展的機器人領域的基礎工具。
有些企業也已經開始研究,Aria 在他們的工作流程中,到底應該怎麼用?比如寶馬,正在搞清楚如何將增強現實和虛擬現實系統集成到智能汽車中。
▲ 圖片來自:Meta
佐治亞理工學院的研究人員,最近也展示了當 Aria 來到你家以後,會怎樣幫你分攤家務活的壓力。
▲ 圖片來自:Meta
很早之前,我們曾在手機智慧助手的體驗文章中有個論斷:人工智能和各種電子設備的結合,從當下來看,最大的意義應該是幫助老年人和殘障人士,更好地融入新時代和新生活。Aria 也在無障礙技術的開發上,取得了一定的進展:
卡內基梅隆大學在一個項目中,使用了第一代 Aria 眼鏡,該項目旨在開發幫助盲人和視力低下人士進行室內導航的技術。
▲ 圖片來自:Meta
二代 Aria 的 AI 語音功能還被 Envision 公司整合到了自家的 Ally AI 和空間音頻上,來增強室內導航和無障礙體驗。
▲ 圖片來自:Envision
如果要用一句話來形容 Project Aria、Meta 和旗下產品的關係,我覺得很像樹根、樹幹和樹枝。Project Aria 在最下面,平時看不見摸不着,但常年累月積累的技術成果,最終都會以各種各樣的方式,賦能在公司和各類產品上。
去年 9 月底,扎克伯格在發佈會上,從保險箱裏拿出了一個看上去平平無奇,實則是十年絕密項目的智能眼鏡 Meta Orion。從發佈會的演示畫面來看,它能做到和 Vision Pro 高度相似的交互功能,更重要的是 Orion 是一副真全息 AR 眼鏡。
它外觀上比普通眼鏡厚了點,不過戴上之後既能透過鏡片看到真實的世界,也能看到投影圖像。
雖然清晰度比不上傳統的電視和投影,但看圖片與文字綽綽有餘。神奇的是,我們沒發現眼睛上有大塊稜鏡,如此貼近真實、憑空出現的現實效果,其實是通過鏡片周圍的 LED 投影儀,將圖像投影到碳化硅鏡片上。
鏡框周圍的 7 個攝像頭和傳感器,讓 Meta Orion 真正實現了將虛擬投入現實,並將其融入現實的能力。它能將全息圖像精準懸停在半空中,也能識別眼前的物品,例如通過桌面上的食材,它就能給你定製一份食譜。
▲ 圖片來自:Meta
説 Orion 在交互體驗上,有齊平 Vision Pro 之勢並不是誇大其詞,因為它真的支持手部和眼動追蹤,雙手就是手柄,配套的神經腕帶還能把手變成鼠標,通過檢測肌肉電流的變化識別身體的神經信號,並由此區分手指的不同動作:
當時在發佈會現場,我們還看到了 Meta Orion 的實際拆解展示,高度複雜和極其精密的內部構造,最後組合在一起的機身,只有 98g。
不難發現,Meta Aria Gen 2 和 Meta Orion 的關係,就像鏡子裏的彼此。只是扎克伯格在當時的採訪中説,由於造價太過高昂(每台成本約 1 萬美元,約合人民幣 7 萬元),公司不得不叫停了量產計劃,只生產了1000 部提供給內部研發。
不過 Meta 也計劃着,將 Aria 的技術逐步整合到 2026 年後,包括 Orion 在內的消費級 AR 眼鏡中。目標是通過神經接口交互,和全息顯示實現 AR 眼鏡的蜕變,以此迎來智能眼鏡的「iPhone 時刻」。
資料來源:愛範兒(ifanr)
有一個即熱又冷的小知識,Meta 這個名字,取自「metaverse(元宇宙)」的前四個字母,2021 年改名的時候,扎克伯格本人非常自信地表示:
引用元宇宙將在未來十年觸及 10 億人,而元宇宙也將觸及我們開發的每一款產品。
▲ 圖片來自:Google
四年過去了,元宇宙成了科幻小説、創意動畫和影視作品的常客,但離現實世界卻越來越遠,為數不多能引起人們關注的,還是那些時不時爆雷上熱搜、打着元宇宙、虛擬資產的幌子,來招搖撞騙的煩心事兒。
在普及和鋪開元宇宙上,Meta 和四年前一樣沒啥變化,不過他們卻在元宇宙的入口——VR/AR 頭顯設備上,做出了不少有意思的新玩意兒。
定位為新型遊戲機的 Meta Quest,打開了 VR 互動遊戲的新世界,2024年 Meta Quest 系列佔據了 73% 的市場份額,遙遙領先。
成為 AI 時代新潮配件的 Ray-Ban Meta,經過了兩代產品的努力,出貨量在今年 2 月正式突破 200 萬台,集傳統眼鏡、名牌 logo、藍牙耳機、語音助手、Vlog 相機於一身,既做好了一副傳統眼鏡該有的裝飾作用,又讓科技悄無聲息地嵌入了日常生活。
明面上,Meta 在消費者市場推出了幾款成功的產品;私底下,他們也在 toB 的賽道上悄悄發力,而且這些面向企業和專業機構的智能眼鏡起步的時間,甚至比他們改名的時間還早。
五年之約已到,Meta 交卷
2020 年,Meta 推出了其首款實驗性智能眼鏡 Meta Aria Gen 1,和傳統眼鏡比起來,Aria Gen 1 略顯臃腫,特別是兩條加粗的鏡腿,非常顯眼。
▲ 圖片來自:Google
碩大的外觀並不只是擺設,其中包含了非常多的傳感器套件,如配備 RGB 攝像頭、定位追蹤攝像頭、慣性測量單元(IMU)、氣壓計、磁力計等,這些元件的主要功能是用於採集第一人稱視角的視覺、運動和空間數據。
從理論上來説,Aria Gen 1 是專為機器感知系統、人工智能及機器人技術研究設計,它通過集成多模態傳感器,幫助科研人員攻克AR眼鏡的核心技術難題,如環境感知、空間定位等。
落地到實際體驗,Aria Gen 1 則有着非常遙遠也令人期待的使命:
引用設想有一天,我們可以享受聯網帶來的所有好處,而不需要低着頭低着頭看着設備。想象一下,給朋友打電話,和桌子對面栩栩如生的虛擬形象聊天。
想象一下,一個足夠聰明的數字助理可以檢測道路危險,在商務會議期間提供統計數據,甚至幫助你在嘈雜的環境中聽得更清楚。
在這個世界上,設備本身完全消失在日常生活的起起落落中。
作為這項實驗的原型機,也是第一代產品,Aria Gen 1 並沒有掀起太大的波瀾,沉澱五年後,這周 Meta 正式發佈了 Aria Gen 2。和一代相比,有了全面的升級。
最明顯的變化在傳感器系統上,一代機採用的是最基礎的環境感知元件,只有攝像頭和慣性傳感器,Aria Gen 2 在此基礎上,增加了許多新的配件,包括 RGB 攝像頭、6DOF SLAM 攝像頭、眼動追蹤攝像頭、空間麥克風、IMU、氣壓計、磁力計和 GNSS。
特別是新一代產品在鼻託中嵌入了兩個創新傳感器:用於測量心率的 PPG 傳感器,和用於區分佩戴者聲音和旁觀者聲音的接觸式麥克風。
如果把一代比作「只用眼鏡看世界」,那相比之下 Aria Gen 2 可以説是感官全開,從更多維度感知、觀察以及收集外界信息,就能在同樣的時間裏,獲取數量更多、更準確的數據,機器的運作、學習效率也會更高。
另外,數據處理的方式上,二者也有了質變,Aria Gen 1 依賴於外部設備進行計算,雖説不在本地運算,能一定程度上,減輕設備的重量壓力,但隨之而來的則是反應的遲緩,在雲端算力夠,但網絡不好的時候會有響應尷尬期,經常用智慧助手的朋友應該都有碰到過類似的情況;若是隨身攜帶一個移動計算平台,非常不便攜。
而 Aria Gen 2 則用上了 Meta 的自研芯片,可以把數據放在端側處理,響應速度非常快,不受網絡的限制,交互體驗也有了非常大的進步。
一般來説,多了自研芯片的設備,擁有了端側運算的能力,但同時也會增加設備的重量。不過 Meta 用數據説話,這五年他們真的沒閒着:Aria Gen 1 重 98g,Aria Gen 2 重 75 克。加量不加重,長體驗不長體重。
體驗見長的,還有 Aria Gen 2 的交互方式,在第一代語音交互的基礎上,二代機加入了「眼動追蹤+手勢+接觸式操作」。語音交互很直接,檢索路徑會大幅縮短,但並不是生活中的所有場景都適合,比如高峯期的地鐵站和超安靜的辦公室。
按理來説,傳感器和交互功能變多,續航會受到影響,自研芯片的確影響了 Aria Gen 2 的續航,但是正向的。官方稱其能達到 6-8 個小時使用時間。按照目前無線耳機的使用時長,基本能讓 Aria Gen 2 做到全天候的智慧功能可用。
打好了硬件基礎,後續的使用體驗才會有更多的可能,Aria Gen 2 的升級體現了 Meta 對 AR 技術落地的兩大戰略方向:
一是隱形化集成:通過輕量化設計和傳感器隱藏(如攝像頭指示燈關閉時外觀接近普通眼鏡),降低設備存在感;二來通過開放的生態,提供底層 API 接口和模塊化擴展能力,鼓勵學術界開發定製化工具包,加速技術轉化。
因此,Aria Gen 2 的應用場景,也從先前的室內導航與基礎 AR 研究,轉向了更多維的領域,醫療、工業、城市規劃等,都有可能成為 Aria Gen 2 生長的土壤。
至此,我們來總結一下,Aria Gen 2 的進步與意義:
- 感知硬件升級,實現生物數據融合與環境深度理解;
- 搭載自研芯片,提升實時性,支持户外無網絡場景;
- 豐富交互方式,降低聲學干擾,適配複雜實驗環境;
- 續航覆蓋全天,延長連續使用時間,提升佩戴舒適度;
- 應用場景拓展,推動跨學科技術融合與標準化。
如果你看完,Meta Aria 的解讀介紹,還是有點對它在消費市場的運用摸不着頭腦,那很正常,因為 Meta 明確表示,這款產品「不會面向消費者銷售」,那你可能想問,它到底有什麼用?要説清楚造它的目的,還得回到十多年前年前。
2014 年,扎克伯格在斯坦福虛擬人類交互實驗室(VHIL)體驗了當時最新的 VR 設備,以及各種遊戲場景,他在 VR 眼鏡裏裏走了獨木橋、飛過城市上空、砍了幾棵樹……
時任 VHIL 實驗室經理的 Cody Woputz 曾經透露過:在體驗高空墜落場景時,他(扎克伯格)甚至嚇到將手放在胸口上。
這次體驗讓扎克伯格留下了很深的印象,一方面由於 VR 還處在早期的研究階段,定位系統不穩定,使得體驗多次被打斷,得停下來重新校準設備;而且當時的 VR 還不是一體機,PC VR 的計算終端在機身外,得用一條又粗又長的線纜連接,以此來傳輸信號和供電。
▲ 圖片來自:Google
另一方面,扎克伯格也看見了這項革命性技術在未來的巨大可能,也正是這次體驗,讓他下定決心,以 20 億美元收購了 Oculus,扎克伯格曾在公告中解釋過收購原因:
引用移動是當前的平台,收購 Oculus 是為明天的平台做準備。
之後,扎克伯格就帶着 Facebook 開始了對於 AR/VR/MR 技術以及設備的探索。有了目標和硬件技術的積累,於是在 2020 年,Meta 正式開啓 Aria 項目,其宗旨是「從人的視角加速 AR 和 AI」。
▲ 圖片來自:Google
這麼看有點玄乎,稍微通俗的解釋就是,把眼鏡作為橋樑,讓設備從人的視角來觀察世界、瞭解世界,並學習人和環境的互動關係,以此來推動軟硬件技術的發展,最終讓機器能夠從人出發,並服務於人。
Project Aria 中的眼鏡,可以通過突破性技術幫助研究人員,從用户的角度收集信息,特別是 Aria Gen 2 上新增的傳感器,能夠捕捉佩戴者周身環境的音視頻,以及他們的眼動和位置信息。
從佩戴者的第一視角出發,能讓研究人員更容易弄清楚,AR 到底如何才能在現實世界和日常生活中,發揮真實作用,而不只是停留在花裏胡哨卻不實用的功能上。
而且,從人的視角出發來收集現實世界中的信息,對於多模態 AI 來説非常重要,這樣的訓練方式能模擬人類多模態認知方式。
我們本身就是通過視覺、聽覺、觸覺等多種感官協同感知世界,而多模態 AI 通過整合文本、圖像、音頻、視頻等數據,能夠更貼近人類自然認知模式。況且跨模態信息整合能力是單模態 AI 無法實現的。
多模態的收集和訓練,也能提升 AI 對複雜場景的決策精度,如果不通過多維度的信息來理解世界,那必然會存在「買家秀」和「賣家秀」的分歧,數字世界只有 0 和 1,但現實世界除了黑白,還有那難以理解的灰色地帶。
▲ 圖片來自:Google
交互本身其實也是多模態的,和朋友談話時除了語言,表情、手勢、語氣甚至着裝,都會影響我們的理解。因此多模態 AI 通過同時處理文本、圖像和音頻,可實現更自然的交互體驗。
Meta 也給出了他們在 Project Aria 中的一些研究細節,在 Project Aria 項目中,讓智能眼鏡讀懂世界的方式非常簡單粗暴:數據化。這項被稱為 SceneScript 的技術,是一種使用自迴歸結構化語言模型和端到端學習,來表示和推斷場景幾何的方法。
▲ 圖片來自:Meta
簡單講,所有第一人稱視角看到的場景、物體,都可以被眼鏡變成具體的數字和名稱,桌子有多長、牆上透明且規則窟窿叫「窗户」。
為了讓眼鏡內置的模型不只是看見世界,還要更好地理解世界,Meta 用自研的三維成像技術 EMF3D,把現實世界所有的物體用不同顏色的線段「明碼標價」,把材質、形狀和大小不一的東西統一了度量衡。
▲ 圖片來自:Meta
當眼鏡能讀懂並且記錄環境時,再現一個虛擬的世界,就有了更大的可能。項目中的環境合成技術正是通過大量的數據收集整理,復刻了一個大規模、完全模擬的程序生成的室內場景數據集,也為「數字孿生」設立了新標準,加速了 3D 物體檢測、場景重建和模擬到現實學習等挑戰的研究。
▲ 圖片來自:Meta
這種「養成系」的學習方法有好有壞,好在一旦學成就非常紮實,難在想要紮實就得通過海量、巨量的數據,所以需要非常多的志願者參與到 Project Aria 中,在平時長期佩戴 Meta 的眼鏡。
比起找到人,如何讓人放心地使用才是最關鍵的,因為數據收集和隱私保護,是一對難以調和的冤家。Meta 給出的方案是「自我模糊」新型 AI 模型,通過檢測和模糊圖像中的 PII 來保護隱私,把面部、車牌等敏感信息直接打碼。
▲ 圖片來自:Meta
海量的學習也能讓模型更好地瞭解使用者的意圖,比如通過對使用者每日生活場景的掃描與總結,可以判斷本人在什麼時間點更可能幹什麼事?是去樓下鍛鍊,還是去客廳打遊戲,又或者去廚房做飯。能預判人的行為活動,也就能提前提供更多的便捷功能。
這和我們手機上的智能助手,在特定時間彈窗提醒回家路況,以及明日天氣的功能,有相似之處。
▲ 圖片來自:Meta
自 Project Aria 立項的五年間,他們已經做出了一些成果,例如使用第一代 Aria 眼鏡收集的 Ego-Exo4D 數據集,已成為現代計算機視覺和不斷髮展的機器人領域的基礎工具。
有些企業也已經開始研究,Aria 在他們的工作流程中,到底應該怎麼用?比如寶馬,正在搞清楚如何將增強現實和虛擬現實系統集成到智能汽車中。
▲ 圖片來自:Meta
佐治亞理工學院的研究人員,最近也展示了當 Aria 來到你家以後,會怎樣幫你分攤家務活的壓力。
▲ 圖片來自:Meta
很早之前,我們曾在手機智慧助手的體驗文章中有個論斷:人工智能和各種電子設備的結合,從當下來看,最大的意義應該是幫助老年人和殘障人士,更好地融入新時代和新生活。Aria 也在無障礙技術的開發上,取得了一定的進展:
卡內基梅隆大學在一個項目中,使用了第一代 Aria 眼鏡,該項目旨在開發幫助盲人和視力低下人士進行室內導航的技術。
▲ 圖片來自:Meta
二代 Aria 的 AI 語音功能還被 Envision 公司整合到了自家的 Ally AI 和空間音頻上,來增強室內導航和無障礙體驗。
▲ 圖片來自:Envision
如果要用一句話來形容 Project Aria、Meta 和旗下產品的關係,我覺得很像樹根、樹幹和樹枝。Project Aria 在最下面,平時看不見摸不着,但常年累月積累的技術成果,最終都會以各種各樣的方式,賦能在公司和各類產品上。
去年 9 月底,扎克伯格在發佈會上,從保險箱裏拿出了一個看上去平平無奇,實則是十年絕密項目的智能眼鏡 Meta Orion。從發佈會的演示畫面來看,它能做到和 Vision Pro 高度相似的交互功能,更重要的是 Orion 是一副真全息 AR 眼鏡。
它外觀上比普通眼鏡厚了點,不過戴上之後既能透過鏡片看到真實的世界,也能看到投影圖像。
雖然清晰度比不上傳統的電視和投影,但看圖片與文字綽綽有餘。神奇的是,我們沒發現眼睛上有大塊稜鏡,如此貼近真實、憑空出現的現實效果,其實是通過鏡片周圍的 LED 投影儀,將圖像投影到碳化硅鏡片上。
鏡框周圍的 7 個攝像頭和傳感器,讓 Meta Orion 真正實現了將虛擬投入現實,並將其融入現實的能力。它能將全息圖像精準懸停在半空中,也能識別眼前的物品,例如通過桌面上的食材,它就能給你定製一份食譜。
▲ 圖片來自:Meta
説 Orion 在交互體驗上,有齊平 Vision Pro 之勢並不是誇大其詞,因為它真的支持手部和眼動追蹤,雙手就是手柄,配套的神經腕帶還能把手變成鼠標,通過檢測肌肉電流的變化識別身體的神經信號,並由此區分手指的不同動作:
- 拇指、食指捏合進行選擇
- 拇指和中指聯合呼出菜單
- 握拳滑動拇指滾動畫面
當時在發佈會現場,我們還看到了 Meta Orion 的實際拆解展示,高度複雜和極其精密的內部構造,最後組合在一起的機身,只有 98g。
不難發現,Meta Aria Gen 2 和 Meta Orion 的關係,就像鏡子裏的彼此。只是扎克伯格在當時的採訪中説,由於造價太過高昂(每台成本約 1 萬美元,約合人民幣 7 萬元),公司不得不叫停了量產計劃,只生產了1000 部提供給內部研發。
不過 Meta 也計劃着,將 Aria 的技術逐步整合到 2026 年後,包括 Orion 在內的消費級 AR 眼鏡中。目標是通過神經接口交互,和全息顯示實現 AR 眼鏡的蜕變,以此迎來智能眼鏡的「iPhone 時刻」。
資料來源:愛範兒(ifanr)
請按此登錄後留言。未成為會員? 立即註冊