馬斯克發佈「最強大模型」超越 DeepSeek，成本高出 200 多倍精選

由愛範兒於 24/02/2025 發表收藏文章

「聰明得可怕」，這是馬斯克預告 Grok 3 時的説法，以至於今天一大早，全網都在苦苦等待。

在全網蹲點發佈會時，App Store 先一步更新了。而在發佈會進行過程中，Grok 網頁版也一度火到崩潰。

可以，看着很有信心的樣子。

Grok 3 不是一個簡單的產品迭代，在此之前，是馬斯克大手筆建設的數據中心、豪氣的顯卡配置，採用最佳的預訓練模型並繼續使用強化學習進行訓練，堪稱「富養」出來的新一代。

https://s3.ifanr.com/wp-content/uploads/2025/02/2-10.png!720

圖片來源：s3.ifanr.com

要點提煉如下：

美區賬號已經可以更新，英區、歐洲 2.28 推出
推出 SuperGrok 高級訂閲計劃，月費為 30 美元，年費為 300 美元，提供額外的推理和 DeepSearch 查詢功能，包含了無限量的圖像生成服務

Grok 3 推理能力領先 DeepSeek R1

在 Chatbot 競技場之稱的 LMSYS 盲測中，Grok 3 在代碼、指令響應等各個方面排名第一。

https://s3.ifanr.com/wp-content/uploads/2025/02/3-11.png!720

圖片來源：s3.ifanr.com

作為誕生於 20 萬張顯卡的產物，Grok 3 斷層級別的表現依舊證明了 Scaling Law 仍在生效。

https://s3.ifanr.com/wp-content/uploads/2025/02/4-7.png!720

圖片來源：s3.ifanr.com

相比於 DeepSeek 以低成本創造高收益，Grok 3 主打一個「大力出奇跡。」

https://s3.ifanr.com/wp-content/uploads/2025/02/5-2.jpg!720

圖片來源：s3.ifanr.com

這次，引入推理能力的 Grok 3 的重點在於更靈活地進行實時計算資源分配，在保證推理質量的同時，最聰明的使用計算資源。

曾經 Grok 2 的推理能力，就已經達到過當時的 SOTA 水平。在經過多次迭代之後，模型的泛化能力有大幅提升。Grok 3 在最新的 AIME 競賽中則再次刷新了自己的記錄。

https://s3.ifanr.com/wp-content/uploads/2025/02/6-7.png!720

圖片來源：s3.ifanr.com

不過，僅僅只是推理能力強顯然是不夠的，快、狠、準才能參與大模型內卷。發佈會現場，工程團隊展示了兩個案例。

一個是請求生成一個從地球發射到火星並返回地球的 3D 動畫代碼，Grok 思考了 19 秒，詳細描述了其思考過程，包括使用 Python 進行繪圖，以及使用 NumPy 進行計算。

https://s3.ifanr.com/wp-content/uploads/2025/02/7-6.png!720

圖片來源：s3.ifanr.com

另一個則是試圖讓 Grok 將《俄羅斯方塊》和《寶石迷陣》這兩款遊戲結合起來，創造出一個新的遊戲。

很遺憾，Grok 一上來就遭遇了連續兩次的翻車，連馬斯克回頭看了屏幕上糟糕的演示環節，也不免尷尬地發出了一句「oh man」。

https://s3.ifanr.com/wp-content/uploads/2025/02/8-6.png!720

圖片來源：s3.ifanr.com

不過，後續演示中，也端上了正常的案例（該不會準備好的 demo 吧）。

而一些幸運的網友已經玩上 Grok 3 了。

https://s3.ifanr.com/wp-content/uploads/2025/02/9-8.png!720

圖片來源：s3.ifanr.com

▲圖片來自 X 網友 @jesselaunz

DeepSearch 登場，要革搜索引擎的命
作為這次更新的重磅產品，Grok 3 加持的 DeepSearch 號稱是下一代搜索引擎。模型將自主像 agent 一樣運作，並且理解用户提問背後的意圖，省下在 Google 花的時間。

現場展示的環節裏，工程師給 Grok 3 出了一道有趣的題：預測 NCAA 「瘋狂三月」的勝負數，也就是所有層級裏的比賽結果。

這是巴菲特在 2014 年發起的一個活動，賭注高達十億美元，賭得就是讓巴菲特破產。歷史上無人成功，甚至無人接近，因為即使專家預測，前幾輪後也會出現大量錯誤。

https://s3.ifanr.com/wp-content/uploads/2025/02/10-6.png!720

圖片來源：s3.ifanr.com

▲2023 年 NCAA 對陣圖

當年這就是一個營銷活動，畢竟贏下的概率之小，幾乎是千千億分之一的概率，基本等於不可能。把這個問題甩給Grok 3，不可謂不大膽。

返送的答案中，除了援引的材料，還做了結構化處理。開頭介紹、背景知識、分析圖表、總結陳詞，相當完整。

https://s3.ifanr.com/wp-content/uploads/2025/02/11-6.png!720

圖片來源：s3.ifanr.com

檢索的重點在於，如何交叉核實各個信息源。Grok 3 通過設計一個子任務面板來完成這個工作，用户可以自己實時監測正在進行的任務，從而保證答案是可用的、可靠的。

https://s3.ifanr.com/wp-content/uploads/2025/02/12-2.gif

圖片來源：s3.ifanr.com

在這個基礎上，agent 自主檢索十分鐘，抵掉自己摸索一小時，才是有效減少工作量。
最終 Grok 3 也給出了它認為的 2025 年 NCAA 冠軍，三月還沒來，讓我們拭目以待它的「神預言」會不會成真。

至於 Grok 3 的體驗方式，官方説了，X 的 Premium+ 訂閲用户將率先體驗，而其他高級功能則被納入 xAI 推出的新計劃——SuperGrok 中。

SuperGrok 的月費為 30 美元，年費為 300 美元，僅提供額外的推理和 DeepSearch 查詢功能，還包含了無限量的圖像生成服務。

https://s3.ifanr.com/wp-content/uploads/2025/02/13-5.png!720

圖片來源：s3.ifanr.com

賈維斯來了？還沒完全來

就在昨晚，Shivon Zilis 路透了她和有 Grok 3 加持的人工智能助理 Ara 的對談，並稱這是生命中最意想不到的收穫。

https://s3.ifanr.com/wp-content/uploads/2025/02/14-3.png!720

圖片來源：s3.ifanr.com

簡直是徒增大家對語音模式的期待，馬斯克在發佈會召開前就已經宣佈語音模式只會在一週內推出，這也意味着無緣演示環節。
不過，在現場直播環節，馬斯克也表示這將是 Grok 最好的體驗之一，在發佈會的尾聲，語音模型也放出了一個男聲，聽着倒是挺有人味的。

https://s3.ifanr.com/wp-content/uploads/2025/02/15-1.png!720

圖片來源：s3.ifanr.com

這一點點的路透，激起了極大的好奇，到了QA環節關於語音模式的提問湧上來。當然，還有現在必不可少的靈魂拷問：「開源否」我們節選了一部分👇🏻
QA

問：Grok 語音模式什麼時候推出；是基於文本轉語音，還是能理解人類説話並直接回應的模型？

答：Grok 基本上會理解人類所説的話，將首先在一週內發佈早期版本，後續將迅速進行迭代更新。

問：什麼時候推出 Grok API？

答：將在接下來的幾周內推出，包含推理模型和深度研究功能。

問：Grok 能記住互動的談話內容嗎？

答：正在努力開發這個功能，不過目前還沒有完全完成。
問：是否還會開源 Grok 模型

答：當 Grok 3 成熟穩定之後，大概幾個月將會開源 Grok 2。

問：做這個項目最困難的部分是什麼？

答：最大的挑戰是讓整個模型在海量的 H100 上進行訓練，並保持一致性

資料來源：愛範兒（ifanr）

標籤: Grok 3 DeepSeek Elon Musk

留言

我要評論
請按此登錄後留言。未成為會員? 立即註冊

專欄簡介

愛範兒愛範兒（ifanr）成立於 2008 年 10 月，依託於國內移動互聯網的發展大潮，用敏銳的觸覺，出色的內容，聚焦 TMT 領域資訊，迅速成為國內最為出色的新銳科技媒體。...

編輯簡介

愛範兒愛範兒（ifanr）成立於 2008 年 10 月，依託於國內移動互聯網的發展大潮，用敏銳的觸覺，出色的內容，聚焦 TMT 領域資訊，迅速成為國內最為出色的新銳科技媒體。2009 年，愛範兒獲得搜狐...

快捷鍵：←

快捷鍵：→

馬斯克發佈「最強大模型」超越 DeepSeek，成本高出 200 多倍 精選

留言

專欄簡介

編輯簡介

下載 FanPiece 手機 App

馬斯克發佈「最強大模型」超越 DeepSeek，成本高出 200 多倍精選