斷網都沒用,機器人終於「擺脱」人類控制!Google 首發離線 AI 大腦,一句話讓它幹活

愛範兒 於 10 小時前發表 收藏文章
在影視作品裏,我們看過太多機器人失控的場面。一些應對方案的段子也早已爛熟於心:斷網、拔電、重啓三連,一鍵送它回爐重造。

但現在,這一套流程可能不太管用了。

今天,Google DeepMind 推出了一款全新機器人控制模型——Gemini Robotics On-Device。這款大模型能在機器人本地運行,集視覺識別、語言理解和動作執行於一體。

而它最大亮點在於,即使完全離線,它也能理解人類指令,流暢完成任務。


比起諸如 ChatGPT、Gemini 等擅長聊天、寫作、答題的大模型,Gemini Robotics On-Device 則給機器人裝上了一個真正的「大腦」,讓其也能具備類似的理解力和執行力。

它本質上是一個專為雙臂機器人打造的 VLA 基礎模型,顧名思義,Vision(視覺)+Language(語言)+Action(動作),三者結合,看得見、聽得懂、動得了,是它的基本素養。

舉例而言,你可以對機器人發出請求:「請把這件衣服疊好,再放進揹包裏,拉上拉鍊。」過去這需要提前編寫程序、分解動作,現在 Gemini On-Device 可以直接理解這句話的意思,然後一步一步執行下來。


那既然聯網也能跑,為什麼還要費勁折騰本地運行?答案不外乎速度和穩定性。

機器人若需將數據傳至雲端、等待服務器分析再返回結果,必然產生延遲。在醫療操作、災難救援、工廠自動化等任務中,延遲容錯空間幾乎為零。何況,現實中許多地方網絡條件差,甚至完全無網。

實際上,讓機器人順利應對複雜、動態的現實任務,一直是 AI 領域最難啃的骨頭之一。

從公開視頻看,Gemini On-Device 已能勝任多種常見場景,如疊衣、拉鍊、抓取陌生物體並放置到指定位置。而這一切得益於它的學習機制。

▲強大的泛化能力

它不需要從零開始進行長時間訓練,開發者僅需提供 50 至 100 次人工演示,如親自操控機器人疊衣,模型便能迅速學會並獨立操作。

在更具挑戰性的分佈式任務或複雜的多步驟指令執行中,Gemini Robotics On-Device 的表現依然優於目前其他本地運行的替代方案。


而且,它的適配性也很強。

雖然 Gemini Robotics On-Device 最初在 Google 自研的 ALOHA 雙臂機器人平台上進行訓練的 ,但稍加適配,它也能穩定運行於 Franka FR3 工業機械臂。

甚至結構迥異的人形機器人 Apollo 也能絲滑運行,同一個通用模型通過少量學習,就習慣了完全不同的身體形態。


理想情況下,開發者無需為每種新機器人重新訓練一個 AI,只需訓練一次通用模型,之後通過輕量級的遷移學習即可部署到各式各樣的機器人平台上。這種「一模多用」的能力將有望加速機器人技術的普及和應用。

當然,理想歸理想,它也還有短板。

隨着機器人智能與自主性提升,安全要求也隨之提高。Gemini On-Device 雖然能執行動作,但它並不能合理判斷你給的任務是否安全,因此,必須為模型加裝「安全栓」。


DeepMind 給出的建議是,開發者可以給模型接入 Google Gemini Live API 接口,讓系統先判斷這個指令合不合理,再決定是否執行;同時在動作層面設置物理限制,如力度、角度、速度,以防意外。

此外,模型多步驟邏輯規劃能力仍有提升空間。

像做三明治、整理桌面這這類需要先後邏輯、順序安排的操作,目前還不在它的舒適區。這和它所基於的 Gemini 2.0 架構有關,未來隨着升級到 2.5,這部分能力可能也會補齊。

另一個現實挑戰,是數據。

雖然它只需幾十次演示就能上手,但最理想的示範,是由真人實際操控機器人時採集的真實數據,而不是虛擬模擬。這類數據訓練出來的效果,更快、更準,也更穩定。

▲技術報告地址:https://arxiv.org/pdf/2503.20020

據項目負責人 Carolina Parada 介紹,這是 Google 首次發佈完全脱離雲端運行的機器人 AI 模型,也是首個供開發者根據自身需求進行微調的版本。

目前,DeepMind 向「可信測試者」開放了 Gemini Robotics On-Device 的 SDK 和模型訪問權限。如果你是做機器人開發、工業自動化,或智能系統研究的開發者,現在就可以申請試用。

附上申請鏈接:https://docs.google.com/forms/d/1sM5GqcVMWv-KmKY3TOMpVtQ-lDFeAftQ-d9xQn92jCE/edit?ts=67cef986


資料來源:愛範兒(ifanr)

留言


請按此登錄後留言。未成為會員? 立即註冊
    快捷鍵:←
    快捷鍵:→