ChatGPT 和 Claude 同時大更新，不會給 AI 當老闆的打工人要被淘汰精選

由愛範兒於 11/02/2026 發表收藏文章

https://d.ifengimg.com/w1125_q90_webp/x0.ifengimg.com/res/2026/79D081F84338321EDF9E396BCBD3DD9F16501A6C_size476_w2458_h1536.jpg

圖片來源：d.ifengimg.com

就在剛剛，硅谷 AI 圈上演了一出「火星撞地球」。

OpenAI 和 Anthropic 像約好了一樣，同時甩出了自家的重磅更新：Claude Opus 4.6 和 GPT-5.3-Codex。

如果説昨晚之前，我們還在討論「怎麼寫好 Prompt 輔助工作」；那麼今天凌晨，我們可能被迫要學會「如何作為老闆去管理 AI 員工」。

https://s3.ifanr.com/wp-content/uploads/2026/02/2346.jpeg!720

圖片來源：s3.ifanr.com

AI 造 AI，順便接管你的電腦

就在昨天，Sam Altman 剛在 X 平台上凡爾賽了一把 Codex 的「百萬活躍用户」里程碑。短短一天後，OpenAI 再次乘勝追擊，扔出王炸——GPT-5.3-Codex。

技術文檔裏藏着一句極具分量的話：「這是我們第一個在創造自己的過程中，發揮了關鍵作用的模型。」

説人話就是：AI 已經學會了自己寫代碼、自己找 Bug，甚至開始自己訓練下一代的 AI 了。這種自我進化能力，也直接體現在了一連串跑分數據上。

https://s3.ifanr.com/wp-content/uploads/2026/02/222-1.png!720

圖片來源：s3.ifanr.com

還記得那個模擬人類操作電腦的 OSWorld-Verified 基準測試嗎？前代模型只有 38.2% 的準確率，連及格線都夠不上。

但這次，GPT-5.3-Codex 直接跳漲到了 64.7%！

https://s3.ifanr.com/wp-content/uploads/2026/02/221-1.png!720

圖片來源：s3.ifanr.com

要知道，人類的平均水平也就 72%。這意味着，AI 距離像你一樣熟練地甩鼠標、切屏、操作軟件，只剩下一層窗户紙的距離。
而在 Terminal-Bench 2.0（命令行操作）中，它更是拿下了 77.3% 的高分，把 GPT-5.2（62.2%）遠遠甩在身後。

https://s3.ifanr.com/wp-content/uploads/2026/02/112-1.png!720

圖片來源：s3.ifanr.com

知名 SWE-Bench Pro 基準測試覆蓋四種編程語言，不僅抗污染，還全是真實世界的硬核工程難題。
GPT-5.3-Codex 在這裏不僅拿下了 SOTA（最高水平），而且用的 Token 比以往任何模型都少。這意味着什麼？意味着它不僅幹活猛，解決問題的路徑還比人類更短、更省錢。

OpenAI 甚至展示了它獨立構建的能力：

在幾天內，它從零構建了一款包含多張地圖的賽車遊戲 v2，順手還搞定了一款管理氧氣系統的深海潛水遊戲。

https://s3.ifanr.com/wp-content/uploads/2026/02/113-1.png!720

圖片來源：s3.ifanr.com

最讓我印象深刻的是 GPT-5.3-Codex 對模糊意圖的理解。

在構建「Quiet KPI」落地頁時，它自動把「年度計劃」換算成了「打折後的月付價格」，甚至還貼心地自動補充了用户評價輪播——這一切，都不需要你下指令。

https://s3.ifanr.com/wp-content/uploads/2026/02/444.png!720

圖片來源：s3.ifanr.com

OpenAI 的野心已經寫在臉上了：以前微軟常説 AI 將會成為人類的副駕駛（Copilot），但現在 AI 更想做那個能掌控方向盤、甚至能自己修車的司機。

對了，還有一個有趣的細節。

此前外界盛傳 OpenAI 對英偉達的 AI 芯片頗有微詞，但這次官方博客特地強調：GPT-5.3-Codex 的設計、訓練和部署都在 NVIDIA GB200 NVL72 系統上完成。

這一波高情商的「感謝英偉達」，屬實是給足了黃仁勳面子。

https://s3.ifanr.com/wp-content/uploads/2026/02/223-1.png!720

圖片來源：s3.ifanr.com

告別「金魚記憶」Claude 迎來絕地反擊

在 GPT-5.3-Codex 發佈的前後腳，Anthropic 也端出了自己的春節大禮包。

壞消息是，大家期待的 Claude「中杯」Sonnet 模型沒有更新；但好消息是，Anthropic 直接端出了「超大杯」—— Claude Opus 4.6。

相比於 OpenAI 在「行動力」上的激進，Anthropic 今天發佈的 Claude Opus 4.6 則是在「思考力」和「可用性」上死磕。

https://s3.ifanr.com/wp-content/uploads/2026/02/661.png!720

圖片來源：s3.ifanr.com

很多企業用户都有一個名為 Context Rot（上下文腐蝕）的痛點：號稱支持 200k 上下文，但塞進去的數據一多，AI 就開始顧頭不顧尾。

這次，Claude Opus 4.6 拿出的數據簡直是「降維打擊」。

在 MRCR v2（長文本大海撈針）測試中，Claude Opus 4.6 的召回率高達 76%。

作為對比，上一代 Sonnet 4.5 只有慘不忍睹的 18.5%。從某種程度上説，這是一個從基本不可用到「高可靠」的質變。

這是 Claude Opus 4.6 首次引入了真正可用的 1M 上下文窗口。

https://s3.ifanr.com/wp-content/uploads/2026/02/771.png!720

圖片來源：s3.ifanr.com

https://s3.ifanr.com/wp-content/uploads/2026/02/772.png!720

圖片來源：s3.ifanr.com

這意味着什麼？意味着你可以把幾百頁的財報、幾十萬字的代碼庫直接扔給它，它不僅能讀完，還能精準地告訴你第 342 頁腳註裏的那個數字有問題。

更讓打工人眼前一亮的是它的生產力功能。

一方面，Anthropic 這回直接把 Claude 塞進了 Excel 和 PowerPoint。它能根據 Excel 數據直接生成 PPT，不僅保留排版風格，連字體和模板都能對齊。在 Claude Cowork 協作環境中，它甚至能進行自主多任務處理。
另一方面，Anthropic 順勢在 Claude Code 中推出了實驗性的 Agent Teams 功能，讓普通開發者也能體驗這種「指揮千軍萬馬」的感覺：

角色分工：你可以指定一個 Claude Session 擔任 Team Lead（組長），它不幹髒活累活，專門負責拆解任務、分配工單、合併代碼；其他的 Session 則是隊友（Teammates），各自領任務去幹。
獨立作戰：每個隊友都有獨立的上下文窗口（不用擔心 Token 爆炸），它們甚至能揹着你互相發消息（Inter-agent messaging），討論技術細節，最後只把結果彙報給組長。
並行賽馬：這東西有什麼用？想象一下查一個頑固 Bug，你可以生成 5 個 Agent，分別驗證 5 種不同的假設，像「賽馬」一樣並行排雷；或者在 Code Review 時，讓一個隊友扮「安全專家」查漏洞，一個扮「架構師」看性能，互不干擾。

為了展示 Opus 4.6 的極限，Anthropic 的研究員 Nicholas Carlini 搞了個瘋狂的實驗：Agent Teams（智能體團隊）。

他沒有親自寫代碼，而是扔了 2 萬美元的 API 額度，讓 16 個 Claude Opus 4.6 組成一個「全自動軟件開發團隊」。

結果在短短兩週內，這羣 AI 自主進行了 2000 多個編程會話，從零手寫了一個 10 萬行代碼的 C 語言編譯器（基於 Rust）。

https://s3.ifanr.com/wp-content/uploads/2026/02/228.gif

圖片來源：s3.ifanr.com

這個 AI 寫的編譯器，還成功編譯了 Linux 6.9 內核（涵蓋 x86、ARM 和 RISC-V 架構），甚至跑通了 Doom 遊戲。

雖然它還不夠完美（比如生成的代碼效率不如 GCC），但這個案例也表明我們不再是和 AI 一起編程，而是看着一個 AI 團隊自主協作、查錯、推進項目。

此外，它還學會了 Adaptive Thinking（自適應推理），能根據難度自己決定「想多久」。加上新增的「智能強度」控制，你可以在 Low 到 Max 四檔之間切換。

定價方面，Anthropic 這次很良心，維持在每百萬 Token $5/$25 的基礎定價。看來是為了搶佔企業級市場，鐵了心要和 OpenAI 捲到底。

一個是激進天才，一個是靠譜老牛
知名 AI 評測人 Dan Shipper 在第一時間搞了個「盲測」（Vibe Check），他的評價非常精準：

Claude Opus 4.6 是「高上限，高方差」（High Ceiling, High Variance）。

它像是一個才華橫溢但偶爾跳脱的天才。在測試中，它直接解決了一個讓 iOS 團隊卡了兩個月的功能難題；在 LFG Benchmark 中拿到了 9.25/10 的高分。

但它偶爾也會「過度自信」，一本正經地胡説八道。如果你需要突破性的靈感，選它。

GPT-5.3-Codex 是「高可靠，低方差」（High Reliability, Low Variance）。

它像是一個經驗豐富、絕不掉鏈子的資深工程師。推理速度提升 25%，幾乎不犯低級錯誤，穩健得讓人心安。
雖然在創造性任務上略遜一籌（LFG 得分 7.5/10），但在日常的 Coding 和運維任務中，它是最高效的老黃牛。如果你需要穩定交付，選它。

https://s3.ifanr.com/wp-content/uploads/2026/02/774.png!720

圖片來源：s3.ifanr.com

時間步入 2026 年，我們的角色開始發生變化。

在這個時間節點，對於普通用户而言，最大的變化莫過於此：Prompt Engineering（提示詞工程）的重要性正在下降，而 Agent Management（智能體管理）的能力開始浮出水面。
當 ChatGPT 可以自主修 Bug 甚至操作你的終端，當 Claude 可以一次性吞吐 100 萬字並精準定位細節時，我們不再需要像教小學生一樣，把指令拆解得碎碎念。

我們需要做的，是學會如何以「管理者」的身份，去定義目標、審核結果、以及——決定在什麼時候，把什麼任務交給哪位「員工」。

這就是 2026 年的新職場：你的團隊裏混入了一羣硅基天才，而你是唯一的碳基老闆。

資料來源：愛範兒（ifanr）

標籤: ChatGPT Claude AI

留言

我要評論
請按此登錄後留言。未成為會員? 立即註冊

專欄簡介

愛範兒愛範兒（ifanr）成立於 2008 年 10 月，依託於國內移動互聯網的發展大潮，用敏銳的觸覺，出色的內容，聚焦 TMT 領域資訊，迅速成為國內最為出色的新銳科技媒體。...

編輯簡介

愛範兒愛範兒（ifanr）成立於 2008 年 10 月，依託於國內移動互聯網的發展大潮，用敏銳的觸覺，出色的內容，聚焦 TMT 領域資訊，迅速成為國內最為出色的新銳科技媒體。2009 年，愛範兒獲得搜狐...

快捷鍵：←

快捷鍵：→

ChatGPT 和 Claude 同時大更新，不會給 AI 當老闆的打工人要被淘汰 精選

留言

專欄簡介

編輯簡介

下載 FanPiece 手機 App

ChatGPT 和 Claude 同時大更新，不會給 AI 當老闆的打工人要被淘汰精選