OpenAI 發佈 ChatGPT 版 Manus！奧特曼：感受 AGI 時刻精選推薦

由愛範兒於 20/07/2025 發表收藏文章

過去大半年，Agent（智能體）是 AI 行業最常被提及的概念之一。

幾乎所有廠商都在講 Agent，概念不缺，demo 也不少，但真正做到產品級落地，始終缺一套完整的執行系統——既能理解複雜目標，又能調用多種工具串聯任務流程，還要隨時支持任務中斷、修改與恢復，真正貼合用户工作流。

就在剛剛（7月18日），OpenAI 正式發佈 ChatGPT Agent 功能。

https://s3.ifanr.com/wp-content/uploads/2025/07/1-2.gif

圖片來源：s3.ifanr.com

通過整合 Operator + Deep Research + ChatGPT 本體，用户只需描述任務，ChatGPT Agent 就能自主判斷所需工具，自動訪問網頁、提取信息、運行代碼、生成幻燈片或表格等，並可在執行過程中實時展示步驟、接受中斷和修改指令。

發佈會結束後，OpenAI CEO Sam Altman 在社交媒體上寫道：：

引用觀看 ChatGPT Agent 使用計算機完成複雜任務，對我來説是一個真正的「感受 AGI」時刻；看到計算機思考、計劃和執行，有種與眾不同的感覺。

亮點如下：

ChatGPT Agent 將 Operator、Deep Research 與 ChatGPT 本體三合一，構建了一個統一智能體系統。
內置圖形/文本瀏覽器、終端和 API 調用器等工具，支持手機端使用，任務完成後可自動推送結果；
可連接 Gmail、GitHub 等第三方應用，深度嵌入用户真實工作流；
在多項基準測試中表現領先，綜合性能位居行業前列；
Pro 用户每月享有 400 條調用額度，其他付費用户為 40 條，並支持按需擴展配額。

https://s3.ifanr.com/wp-content/uploads/2025/07/2-23.png!720

圖片來源：s3.ifanr.com

ChatGPT Agent 正式上線，能購物，能寫 PPT，你的瀏覽器要被 AI 接管了

今天開始，你可以在任何對話中，通過聊天界面左下角的「工具」下拉菜單，選擇「Agent 模式」來啓用這一功能。

https://s3.ifanr.com/wp-content/uploads/2025/07/3-18.png!720

圖片來源：s3.ifanr.com

只需描述你想完成的任務，ChatGPT 能夠智能地瀏覽網站、篩選結果、在需要時安全提示你登錄、運行代碼、執行分析，甚至輸出可編輯的幻燈片和電子表格，總結任務結果。
整個執行過程是可視的——操作步驟會實時顯示在屏幕上，用户可以隨時中斷、修改指令，甚至手動「接管瀏覽器」繼續操作，確保任務始終符合你的目標和需求。

https://s3.ifanr.com/wp-content/uploads/2025/07/4-16.png!720

圖片來源：s3.ifanr.com

在今天凌晨的演示中，OpenAI 展示了 ChatGPT Agent 在真實場景中的應用能力。
比如，為即將出席的婚禮做準備，一直是個難題。現在只需發出請求，ChatGPT Agent 迅速搭建虛擬環境，自主判斷應調用瀏覽器、文本解析器還是終端，並開始依次調取婚禮日期、查詢場地天氣、推薦西裝搭配、篩選酒店。在這個過程中，模型可以與 OpenAI 研究員進行互動，並在適當節點請求確認需求。

https://s3.ifanr.com/wp-content/uploads/2025/07/5-14.png!720

圖片來源：s3.ifanr.com

更重要的是，用户可以隨時中斷任務。

比如當 Agent 在推薦西裝過程中，OpenAI 研究員臨時插入了「幫我找一雙 9.5 碼黑色正裝鞋」的請求，模型立刻暫停當前任務，轉而處理新需求。

同樣地，當智能體認為有必要時，也會主動向你請求更多信息，確保任務始終與你的目標保持一致。如果任務超出預期時間或出現卡頓，你可以選擇暫停任務、請求進度摘要，或直接終止任務並獲取已有的部分結果。

「這種可打斷、可多輪對話的機制，是我們這次訓練模型的重點之一，」OpenAI 研究員解釋道。

這一能力背後，是 ChatGPT Agent 對三大系統的統一整合：Operator 提供網頁交互能力，支持自動滾動、點擊、填表；Deep Research 擅長信息整合與分析；ChatGPT 本體則負責自然語言理解與智能推理。
ChatGPT Agent 是通過強化學習在複雜的任務中訓練出來的，過去三者各有短板——前者難以深入分析，後者無法操作網頁，而 Agent 將三者優勢整合為一體，並輔以瀏覽器、終端、API 調用器等工具，形成一個完整的執行系統。

https://s3.ifanr.com/wp-content/uploads/2025/07/6-10.png!720

圖片來源：s3.ifanr.com

用户不僅可以在桌面端啓動 Agent 模式，在手機端也同樣適用。
任務完成後還將自動推送結果通知。在第二個演示任務中，OpenAI 研究員在 ChatGPT App 上傳了團隊吉祥物 Bernie Doodle 的貼紙圖案，Agent 自動調用圖像生成 API 設計貼紙樣式，通過瀏覽器訪問電商平台完成比價、樣式選擇、購物車添加，最終整理出定製貼紙的下單明細。

當然，為確保流程安全、靈活且清晰可控，面對涉及金額的支付環節，則只會由用户手動接管瀏覽器完成。

通過連接器，用户還可將 Gmail、GitHub 等日常應用接入 ChatGPT，讓模型讀取郵件、日曆或代碼庫等上下文內容，並執行諸如總結今天的郵箱內容或查找下週空閒會議時間等任務。

一個更典型的應用場景是，OpenAI 研究員能夠讓 ChatGPT Agent 彙總自己在多項基準測試中的表現，並製作成幻燈片。收到命令後，Agent 會調用 Google Drive 連接器讀取數據文件，用終端編寫代碼繪製圖表，並生成完整的 PPT。
這類自動化能力，都是 Agent 深度嵌入工作流的體現。

https://s3.ifanr.com/wp-content/uploads/2025/07/7-10.png!720

圖片來源：s3.ifanr.com

不過，可以看到，ChatGPT Agent 生成的 PPT 在設計審美方面表現比較一般，並且，雖然可以上傳電子表格供 ChatGPT 編輯或作為模板使用，但生成的 PPT 暫不支持二次修改。
需要説明的是，OpenAI 並不是讓 Agent 像人一樣打開 PPT或 Excel 文件，通過點擊來插入文本框和公式，而是直接生成代碼來創建文檔。這種做法的好處是可以利用模型在代碼編寫方面的天然優勢，避免因模擬點擊操作帶來的效率低下或出錯，也降低了對計算資源的消耗。

https://s3.ifanr.com/wp-content/uploads/2025/07/8-7.png!720

圖片來源：s3.ifanr.com

The Information 報道指出，如果 ChatGPT 要直接編輯 PPT 或 Excel 文件，就需要啓動一台「虛擬機」（即通過 ChatGPT 運行的虛擬計算機環境），這會佔用更多計算資源。

而直接生成代碼則更輕量、高效。儘管潛力巨大，但就目前來看，這一功能短期內很難對微軟的 Office 或者 Google Workspace 造成衝擊。

對於 ChatGPT Agent 功能，Pro 用户將在今天之內獲得訪問權限；Plus 與 Team 用户將在接下來的幾天內陸續開放；企業版（Enterprise）和教育版（Education）將在未來幾周內上線

Pro 用户每月可使用 400 條消息，其他付費用户每月可使用 40 條消息，並可通過彈性積分方案購買更多額度。

全線刷新「跑分」記錄，Agent 戰場迎來最強對手
ChatGPT Agent 能力的提升，也體現在「跑分」環節。

在評估 AI 解決跨學科專家級問題的基準測試 Humanity’s Last Exam（HLE）中，搭載智能體的 ChatGPT 模型以 41.6 的 pass@1 得分刷新紀錄。在啓用並行執行策略後，該得分進一步提升至 44.4。

https://s3.ifanr.com/wp-content/uploads/2025/07/9-5.png!720

圖片來源：s3.ifanr.com

在目前被認為最具挑戰性的數學基準 FrontierMath 中，面對難度極高、從未公開的題目，ChatGPT Agent 在具備終端代碼執行能力的前提下，取得了 27.4% 的準確率，遠高於此前模型。

https://s3.ifanr.com/wp-content/uploads/2025/07/10-8.png!720

圖片來源：s3.ifanr.com

在這一複雜且高經濟價值的知識型工作任務的內部基準測試中，ChatGPT Agent 在約一半的任務中輸出質量已達到甚至超過人類水平，表現也顯著優於 o3 和 o4-mini 模型。

https://s3.ifanr.com/wp-content/uploads/2025/07/11-7.png!720

圖片來源：s3.ifanr.com

在一個內部的投行建模任務基準中，ChatGPT 智能體的表現也顯著優於 Deep Research 和 o3 模型。每個任務都基於數百項關於公式正確性、格式規範等評分標準進行評估。

https://s3.ifanr.com/wp-content/uploads/2025/07/12-7.png!720

圖片來源：s3.ifanr.com

此外，在公開評估模型信息查找能力的 BrowseComp 基準上，Agent 以 68.9% 的準確率刷新記錄，較 Deep Research 高出 17.4 個百分點。在 WebArena 評估中，其網頁任務執行能力也優於基於 o3 的 CUA 模型。

https://s3.ifanr.com/wp-content/uploads/2025/07/13-8.png!720

圖片來源：s3.ifanr.com

從平台視角看，Agent 能力的底層接口，正是瀏覽器。
在 Perplexity AI CEO Aravind Srinivas 最近的採訪中，他表示瀏覽器將會是 AI 的「殺手級應用」。在他看來，瀏覽器天然具備讓 AI 真正「動起來」的全部條件。

不同於傳統聊天機器人，AI Agent 的理想形態不是停留在對話框中生成文本，而是具備實際行動力——從訪問網頁、提取信息、填寫表單，到執行跨平台操作。而這一切，瀏覽器恰好具備所需的操作權限和上下文獲取能力。

瀏覽器可以直接讀取頁面、模擬點擊、自動執行任務，幾乎無需額外授權。

在這個過程中，用户與 AI 共處於同一個交互空間：AI 可以自動執行任務，用户也能隨時中斷或接管，避免黑盒操作帶來的不確定性。這種可控性與透明度，是當前許多上下文協議仍難實現的能力。
如今，隨着 ChatGPT Agent 能力正式上線，所有聲稱要做 Agent 的廠商，恐怕都要重新審視自己的產品路徑。

當 ChatGPT 從語言交互工具，轉向具備協作、調度與承接任務能力的執行系統，開始接入用户的真實工作流，Agent 的可用性門檻，也在此刻被實質性地拉高。

資料來源：愛範兒（ifanr）

標籤: ChatGPT Agent

留言

我要評論
請按此登錄後留言。未成為會員? 立即註冊

專欄簡介

愛範兒愛範兒（ifanr）成立於 2008 年 10 月，依託於國內移動互聯網的發展大潮，用敏銳的觸覺，出色的內容，聚焦 TMT 領域資訊，迅速成為國內最為出色的新銳科技媒體。...

編輯簡介

愛範兒愛範兒（ifanr）成立於 2008 年 10 月，依託於國內移動互聯網的發展大潮，用敏銳的觸覺，出色的內容，聚焦 TMT 領域資訊，迅速成為國內最為出色的新銳科技媒體。2009 年，愛範兒獲得搜狐...

快捷鍵：←

快捷鍵：→

OpenAI 發佈 ChatGPT 版 Manus！奧特曼：感受 AGI 時刻 精選 推薦

留言

專欄簡介

編輯簡介

下載 FanPiece 手機 App

OpenAI 發佈 ChatGPT 版 Manus！奧特曼：感受 AGI 時刻精選推薦