Claude 4.5 剛剛發佈,能連肝 30 多個小時,史上最卷 AI 誕生

愛範兒 於 8 小時前發表 收藏文章
論卷編程,還得看 Claude。

就在剛剛,Anthropic 正式發佈 Claude Sonnet 4.5。


先説 Claude Sonnet 4.5 交出的成績單,在考察真實編程水平的 SWE-bench Verified 測試裏,Claude Sonnet 4.5 直接登頂業界第一。

更離譜的是,它能連續專注幹活超過 30 小時。

好好好,AI 取代人類的優勢又 +1 了。

比如讓它寫個類似 Slack 或 Teams 的聊天應用,它能一口氣敲出大約 1.1 萬行代碼。相比之下,之前的 Claude Opus 4 和 Codex,最多也就能獨立工作七小時。

用 Anthropic 的話來説,Claude Sonnet 4.5 現在就是全球最強編程模型——構建複雜智能體、操作電腦、推理和數學,各項能力都狠狠提升了一波。


比方説,在 OSWorld 這個專門測試真實計算機任務的基準裏,它拿下了 61.4% 的成績,直接第一。要知道,四個月前 Sonnet 4 還以 42.2% 的成績遙遙領先,這才多久性能就又往上抬了一大截。

而 Anthropic 的 Claude Chrome 插件甚至能直接在瀏覽器裏自己導航網站、填表格、處理任務,像個真人在操作似的。推理、金融這些測評項目上也都更強了,各項指標都在往上漲。


有了這麼強的能力,Anthropic 這次自然不會只發個模型就完事。

具體來看:

  • Claude Code加了「檢查點」功能,能隨時保存進度,想回退到之前某個狀態一鍵搞定
  • 終端界面翻新,還發布了原生 VS Code 插件
  • Claude API 增加了上下文編輯功能和記憶工具
  • 代碼執行和文件創建現在直接整合到對話裏

甚至,Anthropic 把自己內部用來搭建 Claude Code 的底層基礎設施也開放出來了,叫 Claude Agent SDK。

智能體怎麼在長時間任務裏管理記憶、怎麼設計權限系統讓自主性和用户控制找到平衡點、怎麼讓多個子智能體配合着完成目標,這些都是構建和設計 AI 智能體的棘手問題。

而藉助 Claude Agent SDK,現在你也能拿去構建自己的產品。


今天起,開發者還可以通過 Claude API 調用 claude-sonnet-4-5。定價還是跟 Claude Sonnet 4 一樣,每百萬 tokens $3/$15,價格沒變能力更強。
網友 @vasumanmoza 體驗完直接發帖:

「Claude 4.5 Sonnet 剛在一次調用裏重構了我整個代碼庫,25 次工具調用,新增 3000 多行代碼,生成了 12 個全新文件。它把所有東西都模塊化了,拆掉了巨石式結構,清理了意大利麪條式代碼。結果完全跑不通,但天啊真的很優雅。」這評價,屬於又愛又恨那種。

Cursor 表示,在 Claude Sonnet 4.5 上看到了最前沿的編程性能,尤其處理長週期任務時提升明顯。這也再次説明為什麼很多 Cursor 用户會選 Claude 來解決最複雜的問題。

知名測評博主 Dan Shipper 則表示,新版 Sonnet 4.5 在使用體驗上響應速度更快,可控性更強,也更穩定。

性能強是一方面,安全性也得跟上。

據介紹,Claude Sonnet 4.5 也是 Anthropic 到目前為止對齊度最高的前沿模型。

靠着 Claude 更強的能力加上完善的安全訓練,Anthropic 在模型行為上取得了顯著改進,減少了阿諛奉承、欺騙、權力追求、鼓勵妄想等行為。此外,Anthropic 在防禦提示注入攻擊和減少內容誤判這塊也有了重大突破。


比較讓我感興趣的是,Anthropic 還在 Claude Sonnet 4.5 發佈的同時推出了個臨時研究預覽功能,叫「Imagine with Claude」。

在這個功能裏,Claude 會實時生成軟件,所有功能不是預設的,所有代碼也不是提前寫好的。你看到的一切都是 Claude 跟你互動時當場創造和調整出來的。

不過,「Imagine with Claude」接下來五天內只會對 Max 訂閲用户開放。

附上傳送門 claude.ai/imagine。


毫無疑問,今年的 AI 賽道依舊是卷編程的一年。

目前 Anthropic 估值已經到了 1830 億美元,8 月還實現了年化營收 50 億美元,但這其中相當一部分增長靠着來自編程軟件的普及。問題是,老對手 OpenAI 和 Google Gemini 也在瘋狂推類似工具搶程序員用户。

甚至一週之後就是 OpenAI 年度開發者大會,Anthropic 這個時候搶先發布 Claude Sonnet 4.5,時間卡得夠精準,明擺着就是要給對手上一波壓力。

此外,Anthropic 聯合創始人兼首席科學官 Jared Kaplan 還表示,更先進的 Opus 模型,預計今年晚些時候推出:「Anthropic 在大小模型的使用上都能佔優勢。」

不過有一説一,Anthropic 自己眼下也有麻煩要解決。

過去兩個月,Claude 系列模型剛經歷了一場「降智」風波。用户普遍反映模型推理、代碼、格式和工具調用質量斷崖式下滑,連付費的 Max 用户都沒能倖免。

雖然 Anthropic 後來緊急回滾了 Opus 4.1 更新,還承認了兩個獨立 Bug,聲明「絕非為省成本故意降智」,但由於沒提供補償或退款,GitHub 和 X 等平台上還是出現了退訂潮,不少用户直接轉投 Codex。

這次 Claude Sonnet 4.5 的發佈,顯然就是 Anthropic 想用實打實的性能提升來挽回流失的用户。至於能不能成功,就看接下來幾周的實際表現了。


資料來源:愛範兒(ifanr)
標籤: Claude 4.5  

留言


請按此登錄後留言。未成為會員? 立即註冊
    快捷鍵:←
    快捷鍵:→