OpenAI 機器人炸裂登場!ChatGPT 終於有身體了,能説會看還能做家務

愛範兒 於 19/03/2024 發表 收藏文章
以 GPT-4 為代表的大模型已經建造了大腦,下一步則是需要能承載這一大腦的機器人軀體。

昨天深夜,人形機器人明星公司 Figure AI 震撼發佈了一段視頻,展示了他們的機器人 Figure 01 在 OpenAI 強大模型的支持下,進行的一系列對話交互。


視頻中的機器人展現出了靈活的操作反應,其與人類溝通的流暢度幾乎可以與真人相媲美。

這距離 Figure AI 獲得 OpenAI、微軟、英偉達等公司投資,僅僅過去了不到半個月。也讓我看到,OpenAI 最強的多模態大模型有了身體後會是什麼樣子。

Figure 01,最懂你的人形機器人?

得益於 OpenAI 多模態大模型的強大支持,Figure 01 現在可是個桌上物品識別的小能手。蘋果、瀝水架、水杯和盤子,對它來説都是小菜一碟!


餓了,想讓它整口吃的,它能秒懂你的心思,麻溜地遞上一個蘋果。


而且,它甚至能在撿起你丟棄的垃圾,邊還能跟你解釋為啥剛才給了你蘋果。在大模型的輔助下,Figure 01 可以理解桌面上唯一的食物——蘋果。

在人類的一聲令下,Figure 01 還能做家務,收拾餐具,這機器人,簡直是家庭生活的最佳夥伴。

廣大網友在看到這段令人驚豔的視頻後,反應可謂是五花八門。

網友已經迫不及待地給 Figure 01 安排任務了,任務清單裏怎麼還混進了機器人前輩的電影。


競爭對手怕是要看在眼裏,急在心裏,準備暗地裏摩拳擦掌,來一場技術大比拼?


更興奮的網友表示,AGI 的曙光似乎就在眼前。


當然,總有些挑剔的聲音,有的網友就吐槽説,這機器人説法怎麼結結巴巴呢?


網友也沒放過玩梗的機會。


Figure AI 掌門人 Brett Adock 也不甘寂寞,在 X 上跳出來做了一番精彩解讀。

引用視頻展示了端到端神經網絡的應用(end-to-end neural networks)。在此過程中沒有使用遙控器(teleop)。視頻是以實際速度(1.0 倍速)拍攝的,並且是連續不斷的。

如您在視頻中看到的,機器人的速度有了顯著的提升,我們正在逐步達到與人類相似的速度。

無需遙控,自學成才

那麼 Figure 01 是怎麼做到的呢?

Figure AI 團隊負責人 Corey Lynch 在 X 上解釋了一番。

具體來説,視頻中展示的所有行為都是通過學習獲得的(非遙控操作),並且以實際速度(1.0 倍速)執行。

Figure AI 將機器人攝像頭拍攝的圖像和通過板載麥克風記錄的語音轉錄文本輸入到一個由 OpenAI 訓練的多模態模型中,這個模型能夠同時理解圖像和文本信息。

該模型會處理整個對話的歷史記錄,包括以往的圖像,以生成語言響應,並通過文本到語音的方式向人類回話。同一個模型還負責決定執行哪種已學習的閉環行為來響應給定的命令,它將特定的神經網絡權重加載到 GPU 上,並執行相應的策略。


而將 Figure 01 連接到一個大型預訓練的多模態模型,為其帶來了許多有趣的新功能。

現在,Figure 01 + OpenAI 能夠:

  • 詳述其周圍環境。
  • 在決策時運用常識推理。例如,「桌子上的餐具,像那個盤子和杯子,很可能接下來會被放到烘乾架上」。
  • 將含糊的高級指令,如「我餓了」,轉化為符合情境的適當行為,比如「遞給那個人一個蘋果』。
  • 用簡單的英語解釋為什麼它執行了某個特定的動作。例如,「這是我能夠從桌子上提供的唯一可食用物品」。

當談到 Figure 01 通過學習掌握的精細雙手操作技能時,其實這背後也藴含着一系列複雜而精妙的原理。

所有行為都由神經網絡的視覺-運動轉換器策略驅動,這種策略能直接將圖像像素映射到動作。這些網絡以每秒 10 幀的速率接收機器人內置圖像,並生成每秒 200 次的 24 自由度動作(包括腕部姿勢和手指關節角度)。

這些動作作為高速「設定點」,供更高速率的全身控制器跟蹤,確保動作的精確執行。

這種設計實現了關注點的有效分離:

  • 互聯網預訓練模型對圖像和文本進行常識推理,以生成一個高級計劃。
  • 學習到的視覺-運動策略執行這個計劃,完成那些難以手動指定的快速、反應性行為,例如在任何位置操縱一個可變形的袋子。
  • 同時,全身控制器負責確保動作的安全性和穩定性,例如,保持機器人的平衡。

對於 Figure 01 取得的巨大進步,Corey Lynch 感慨道:
引用就在幾年前,我還認為與一個能自主規劃和執行學習行為的人形機器人進行完整對話,將是未來數十年後的事情。顯然,許多事情已經發生了巨大變化。

這會是人形機器人的 GPT 時刻嗎

不得不説,Figure 01 的發展速度簡直像是踩了油門,一路狂飆。

今年 1 月,Figure 01 就掌握了製作咖啡的技能,這一成就得益於端到端神經網絡的引入,使得機器人能夠自主學習和糾正錯誤,僅需 10 小時的訓練。


一個月後,Figure 01 已經學會了搬運箱子並運送至傳送帶的新技能,儘管其速度僅為人類的 16.7%。

在這個過程,Figure AI 商業化的步伐也未曾停歇,與寶馬製造公司簽訂了商業協議,將 AI 和機器人技術融入汽車生產線,並落户於寶馬的工廠。

緊接着,就在兩週前,Figure 宣佈完成了 6.75 億美元的 B 輪融資,公司估值飆升至 26 億美元。


投資方几乎涵蓋了硅谷的半壁江山——Microsoft、OpenAI 創業基金、英偉達、Jeff Bezos、Parkway Venture Capital、Intel Capital 和 Align Ventures 等。

當時,OpenAI 與 Figure 還宣佈將共同開發下一代人形機器人 AI 模型,OpenAI 的多模態模型將擴展到機器人感知、推理和交互環節。

如今,從 Figure 01 身上,我們彷彿能窺見未來生活的草稿。

事實上,在大模型之前,機器人屬於專用設備,如今有了大模型的通用能力,通用機器人開始曙光乍現,現在的我們不止需要 ChatGPT,還需要 WorkGPT。


這些進化間接印證了一條清晰可見的道路:當 AI 大模型生根發芽之後,總歸是要走進現實世界,而具身智能則是最佳的路徑。

一直活躍在 AI 前線的英偉達創始人黃仁勳曾洞察道:「具身智能將引領下一波人工智能浪潮。」

將 OpenAI 大模型融入 Figure 01 也是有意的戰略佈局。

成熟的 AI 大模型充當人工大腦,模擬了人腦複雜的神經網絡,實現了語言理解、視覺識別、情景推理等認知功能,解決了機器人更高層次的認知和決策問題。

與此同時,各種傳感器、執行器、計算單元被集成到機器人軀體中,實現了對環境的感知和交互。比如視覺系統可以捕捉圖像和視頻,觸覺傳感器可以感受物體的形狀和質地等。


Figure AI 創始人 Brett Adcock 此前在接受採訪時表示,未來 1-2 年,Figure AI 將專注於開發具有里程碑意義的產品,期望在未來一兩年內向公眾展示人形機器人的研發成果,涵蓋 AI 系統、低級控制等,最終呈現能在日常生活中大展身手的機器人。

他還透露,在成本方面,一個人形機器人約有 1000 個零件,重約 150 磅(68 公斤),而電動汽車可能有約 1 萬個零件,重達 4000-5000 磅(1800-2250 公斤)。因此,長期來看,人形機器人的成本有望低於廉價電動汽車,這取決於執行器、電機組件、傳感器的成本及計算成本。

機器人專家 Eric Jang 曾提出他的洞見:「儘管許多 AI 研究者認為通用機器人的普及還需數十年,但別忘了,ChatGPT 的誕生仿幾乎就在一夜之間。」

一年前的今天,OpenAI 震撼發佈了 GPT-4,向世界證明了大模型的強大威力。

一年後的今天,我們沒等來 GPT-5,但也迎來 Figure 01,而這會是人形機器人的 GPT-4 時刻嗎?


資料來源:愛範兒(ifanr)
標籤: OpenAI  ChatGPT  

留言


請按此登錄後留言。未成為會員? 立即註冊
    快捷鍵:←
    快捷鍵:→