GPT-5.2 正式發佈！讓打工人每週少幹 10 小時，成人模式明年見精選推薦

由愛範兒於 13/12/2025 發表收藏文章

1106 天，OpenAI 從掀桌子的人，變成了被掀桌子的人。

伴隨着 Google Gemini 3 的發佈，OpenAI CEO 奧特曼上週罕見拉響了「Code Red」紅色警報，並宣佈所有資源迴流 ChatGPT 主線，其他業務一律靠邊站。

這是 OpenAI 成立以來第一次進入「紅色警報」狀態，也是它第一次如此明確地承認：競爭壓力已經大到必須全力應對。

https://s3.ifanr.com/wp-content/uploads/2025/12/11-2.png!720

圖片來源：s3.ifanr.com

而就在剛剛，OpenAI 發佈了 GPT-5.2 模型，打出了一記力量感十足的重拳。GPT-5.2 將向 ChatGPT 付費用户開放，並通過 API 提供給開發者，分為三個版本：

Instant：速度優化版，適用於信息查詢、寫作和翻譯等常規任務；
Thinking：擅長處理複雜結構化任務，如編程、分析長文檔、數學和規劃；
Pro：高端版，專注於在高難度任務中提供極致的準確性和可靠性。

不聊天，真幹活，GPT-5.2 闖進打工人職場
本以為 OpenAI 會專注提升 ChatGPT 的個性化和消費者體驗，結果 GPT-5.2 的發佈方向依舊是走職場實用主義的路數。

用 OpenAI 應用 CEO Fidji Simo 的話來説：「我們設計 GPT-5.2 是為了給用户創造更多經濟價值。」

什麼叫經濟價值？

就是讓 AI 真的能幹活，做表格、寫 PPT、敲代碼、看圖、讀長文、調用工具、搞定複雜項目，這些都是 GPT-5.2 的拿手好戲。

數據也挺唬人。平均每個 ChatGPT 企業版用户説，AI 每天能給他們省 40 到 60 分鐘，重度用户更狠，每週能省 10 小時以上。

https://s3.ifanr.com/wp-content/uploads/2025/12/12-2.png!720

圖片來源：s3.ifanr.com

GPT-5.2 Thinking 是這次發佈的重頭戲。

在評估 44 個職業知識型任務的 GDPval 測試中，它成為首個在總體表現上達到或超過人類專家水平的模型。具體來説，在與行業專家的對比中，GPT-5.2 Thinking 在 70.9% 的任務中勝出或持平，由人類專家親自評判。

https://s3.ifanr.com/wp-content/uploads/2025/12/13-2.png!720

圖片來源：s3.ifanr.com

這些任務可不是隨便出的題，涵蓋了美國 GDP 排名前 9 個行業，包括銷售演示文稿、會計報表、急診排班計劃、製造業圖紙、短視頻製作等等，都是真實工作場景裏的硬活。

編程方面的提升更明顯。

SWE-Bench Pro 是個相當嚴格的測試，評估模型在真實世界軟件工程中的能力，涉及四種編程語言，比只測 Python 的版本難多了。GPT-5.2 Thinking 在這個測試裏拿到了 55.6% 的成績，創下業界新高。

https://s3.ifanr.com/wp-content/uploads/2025/12/14.png!720

圖片來源：s3.ifanr.com

更誇張的是在 SWE-bench Verified 裏直接幹到 80%，成為目前最高記錄。這意味着 GPT-5.2 Thinking 能更可靠地調試生產環境中的代碼、實現功能需求、重構大型代碼庫，端到端的修復工作做得更高效，減少人工介入。

前端開發也有明顯提升。

早期測試者説，它在處理複雜或非常規的前端 UI 任務時表現更出色，特別是涉及 3D 元素的場景，妥妥的全棧工程師助手。

OpenAI 還放出了幾個根據單一提示生成的示例：海浪模擬器、節日賀卡生成器、打字雨遊戲。就一個提示詞，整個單頁應用就出來了，可調節的參數、逼真的動畫效果、平靜的 UI 風格，全都有。

https://s3.ifanr.com/wp-content/uploads/2025/12/15.png!720

圖片來源：s3.ifanr.com

幻覺率降低 30%，長文本能力接近完美

事實準確性這塊，GPT-5.2 Thinking 相較於 GPT-5.1 Thinking 的「幻覺率」更低。

在一組匿名化的 ChatGPT 查詢中，出現錯誤的回答減少了約 30%。對於專業人士來説，這意味着在研究、寫作、分析與決策支持等任務中，出錯率更低，用起來更放心。

不過 OpenAI 也提醒，就像所有模型一樣，GPT-5.2 並不完美，關鍵性任務還是得自己核查。

長文本推理能力也樹立了新標杆。

在 OpenAI MRCRv2 基準測試中，GPT-5.2 表現領先。這個測試評估的是模型能不能正確整合分佈在長文檔中的信息，對於深度文檔分析這類涉及數十萬 token 的跨文檔信息整合任務來説，GPT-5.2 的準確率遠超 GPT-5.1。
尤其在 MRCR 的 4 針測試（不同於「大海撈針」，而是要求模型在海量文本里，區分並找出多個一模一樣的「針」中的特定一個）中，最多 256k token 的上下文，GPT-5.2 是首個接近 100% 準確率的模型。

這意味着專業用户可以用 GPT-5.2 高效處理超長文檔，報告、合同、學術論文、訪談記錄、多文件項目，它都能在處理上百頁內容時保持邏輯一致和信息準確。視覺理解方面，GPT-5.2 Thinking 是目前 OpenAI 最強的視覺模型。在圖表推理和軟件界面理解方面，錯誤率下降了約一半。

對日常專業使用來説，這意味着模型能更準確地解讀數據儀表盤、產品截圖、技術圖紙、可視化報告，適用於金融、運營、工程、設計、客服等以視覺為核心的工作場景。

https://s3.ifanr.com/wp-content/uploads/2025/12/17-2.png!720

圖片來源：s3.ifanr.com

空間理解能力和工具調用能力也有所提升，在 Tau2-bench Telecom 測試中，GPT-5.2 Thinking 取得了 98.7% 的新高成績，展現出在長、多輪任務中可靠使用工具的能力。

即使將推理強度設置為最低檔，GPT-5.2 的表現仍顯著優於 GPT-5.1 和 GPT-4.1。
這代表 GPT-5.2 Thinking 在執行端到端工作流方面更強，處理客户服務案例、從多個系統中提取數據、執行分析任務，高效完成全流程輸出，中間環節更少出錯。

數學和科學能力的提升，可能是這次發佈裏最硬核的部分。

在 GPQA Diamond 這種研究生級別的科學問答測試裏，覆蓋物理、化學、生物學等領域，GPT-5.2 表現明顯更強。FrontierMath 那種評估專家級數學問題解決能力的基準測試，它也能啃下來。

https://s3.ifanr.com/wp-content/uploads/2025/12/21-3.png!720

圖片來源：s3.ifanr.com

更牛的是，在 ARC-AGI-1 測試中，GPT-5.2 Pro 是第一個突破 90% 準確率的模型，相比去年 o3-preview 的 87%，表現更強，成本卻降低了約 390 倍。

https://s3.ifanr.com/wp-content/uploads/2025/12/22-3.png!720

圖片來源：s3.ifanr.com

ARC-AGI-2 版本更難，專注於考察流動性推理能力，GPT-5.2 Thinking 得分為 52.9%，創下「鏈式思維模型」新高，GPT-5.2 Pro 更進一步，達到 54.2%。
官方博客中提到一個令人印象深刻的案例：在統計學習理論的一個開放問題上，GPT-5.2 Pro 甚至直接給出了一個可行的證明方案。

這個問題來自 2019 年學習理論大會 COLT 上提出的未解難題：如果模型設定完全正確，數據呈標準正態分佈，在這種教科書式的「乾淨」情況下，學習曲線是單調的嗎？

https://s3.ifanr.com/wp-content/uploads/2025/12/23-3.png!720

圖片來源：s3.ifanr.com

研究人員沒有先設計算法或提供證明思路，也沒有輸入中間步驟或提示，而是直接請求 GPT-5.2 Pro 給出完整證明。結果，模型提出了一種可行的解法，並通過人工驗證、外部專家評審確認其正確性。

這説明 GPT-5.2 Pro 在一些有明確公理基礎的領域，比如數學、理論計算機科學，已經可以發揮更實質性的科研輔助作用：探索證明路徑、驗證假設、發現隱藏的聯繫。

https://s3.ifanr.com/wp-content/uploads/2025/12/24-2.png!720

圖片來源：s3.ifanr.com

▲GPT-5.2 API 價格

性能表現這麼猛，代價自然也不小。

Thinking 和 Deep Research 模式消耗的算力遠超普通聊天機器人，因為它們得「思考」得更深。由於 OpenAI 現在用於模型推理的開銷，大部分是直接掏真金白銀，而不是用微軟 Azure 的雲服務積分抵扣。

長期往裏砸錢，這種玩法能撐多久，真不好説。

總得來説，GPT-5.2 更像是對前兩次模型升級的整合，而不是完全重構。

8 月的 GPT-5 是架構重啓，引入了可以在快速響應和深度「Thinking」模式之間切換的路由機制。11 月的 GPT-5.1 讓系統變得更温和、更具對話性，也更適合智能體和編碼任務。
現在的 GPT-5.2，則是要在這些優勢的基礎上，打造出更可靠的生產級模型。而且有一個非常重要的細節：這次推出的三款 GPT-5.2 模型，底層知識庫都已經完成了更新。

https://s3.ifanr.com/wp-content/uploads/2025/12/25-2.png!720

圖片來源：s3.ifanr.com

GPT-5.2 已經開始在 ChatGPT 中陸續上線，優先開放給付費用户。GPT-5.1 還會在「傳統模型」選項中保留三個月，之後就正式下線了。
API 那邊也同步開放，開發者已經可以用上了。價格比 GPT-5.1 貴一些，但 OpenAI 説因為 token 效率更高，實際總成本反而更低。

一個壞消息，和一個好消息

除了模型本身，OpenAI 的商業化上也有兩個極具反差感的消息。

雖然這次發佈並沒有推出新的圖像生成模型，但今天 OpenAI 跟迪士尼達成了三年授權協議。

用户可以生成包含迪士尼、漫威、皮克斯和星球大戰等 200 多個角色的社交視頻，部分生成視頻還能在 Disney+上播放。

作為交換，迪士尼向 OpenAI 投資 10 億美元，還會成為重要客户。內容 IP 加 AI 生成，這背後想象空間確實挺大。

https://s3.ifanr.com/wp-content/uploads/2025/12/26-2.png!720

圖片來源：s3.ifanr.com

另一個值得關注的消息是，ChatGPT 的「成人模式」終於有了明確時間表。

隨着越來越多 AI 聊天機器人涉足成人內容，OpenAI 也不打算當聖人了。根據彭博社報道，Fidji Simo 已經明確該功能預計 2026 年第一季度上線。
在此之前，OpenAI 會繼續優化年齡識別功能，確保未成年人自動啓用內容保護機制。目前年齡預測模型正在部分國家進行早期測試，以評估識別青少年的能力，並確保不會誤判成年人。

面對 Google Gemini 的步步緊逼，OpenAI 選擇用 GPT-5.2 這套組合拳來回應。它更快、更強，也更像一個成熟的商業產品。

與此同時，一邊擁抱迪士尼的米老鼠，一邊準備推出成人模式，OpenAI 既要保持技術領先，又要快速變現；既要佔領企業市場，又不放過任何流量入口。

幸運的是，迎來十週年節點的 OpenAI 最終還是演好了這出反擊大戲。