就在剛剛,Gemini 3 Pro 預覽版正式發佈。
年底的 AI 圈向來不缺新聞,但今年格外喧囂。如果不出意外,這將是 2025 年壓軸登場、最令人期待的海外大模型,甚至可以説,Gemini 3 Pro 成了這個時間窗口唯一的主角。
過去兩個月,Google 幾乎復刻了 Sam Altman 的營銷手法,從 Gemini 著名宣傳委員 Logan Kilpatrick 到 CEO 皮查伊,內部人員不斷在社交平台打啞謎,推波助瀾,將外界對 Gemini 3 的期待值不斷拔高。
有趣的是,OpenAI CEO Sam Altman 剛剛在 X 平台發文稱:「恭喜谷歌成功推出 Gemini 3!!看起來是個很棒的模型。」
有着奧特曼的前車之鑑,謎語人玩法風險極大,一旦產品力不足,口碑會瞬間崩塌。但顯然,谷歌對自己的產品充滿自信。那麼,Gemini 3 Pro 這次到底交出了什麼答卷?
省流版如下:
無愧 Pro 之名,谷歌最強 AI 模型深夜發佈
按照 Google 的説法,Gemini 3 Pro 是目前「最智能、最具適應性的模型」,專為解決現實世界中的複雜問題而設計——尤其是那些需要更高層次推理、創造力、戰略規劃以及逐步改進的任務。
它的典型應用場景包括:具備自主行為能力的應用、高級編程、超長上下文理解、跨模態處理(如文字、圖像、音頻的結合),以及算法開發等。
Gemini 3 Pro 預覽版在 LMArena 排行榜上以 1501 分的成績位列榜首, 在幾乎所有主要 AI 基準測試中都遠超上一代。更關鍵的是,它不僅能識別圖像內容,還能理解其中的隱含信息和上下文關係。
具體來看, 推理能力方面, 它在「人類最後的考試(Humanity’s Last Exam)」中拿到了 37.5% 的博士級推理成績,GPQA Diamond 測試達到 91.9%,MathArena Apex 創下 23.4% 的業界新紀錄。
多模態推理方面,MMMU-Pro 得分 81%,Video-MMMU 得分 87.6%, SimpleQA Verified 事實準確率達到 72.1%。
這也意味着 Gemini 3 Pro 能在科學、數學等各種複雜問題上可靠地提供優質解答, 而且它的回覆直接提供真實見解, 告訴你需要知道的, 而不只是你想聽到的。
除了常規模式,Gemini 3 還提供了一個名為 Deep Think 的增強推理選項。
這個增強型推理模式在「人類最後的考試」中得分 41.0%,GPQA Diamond 提升至 93.8%, 在 ARC-AGI-2 測試中更是創造了 45.1% 前所未有的得分分數。
不過這個模式目前還在安全評估, 預計未來幾周內向 Google AI Ultra 訂閲用户開放。
測試數據之外,Gemini 3 在實際應用場景中的表現更值得關注。
比如你翻出家裏那本手寫的家族菜譜, 上面是奶奶用多種語言寫的做法,Gemini 3 可以識別這些手寫文字, 整理成可分享的菜譜書。
或者你想學習一個新領域, 它可以處理學術論文和長視頻講座, 生成交互式學習卡片。甚至, 它還能分析你打匹克球的比賽視頻, 生成針對性訓練計劃。
這背後是因為 Gemini 從一開始就為多模態理解而設計,能夠整合文字、圖像、視頻、音頻和代碼等多種信息類型, 加上高達 100 萬 token 的上下文窗口和最大支持 64K 輸出。
值得一提的是,Gemini 3 正式發佈並首日集成進 Google 搜索。
它不僅顯著提升搜索對複雜問題的理解與信息挖掘能力,還能根據查詢即時生成動態視覺界面、互動工具與模擬系統,如三體物理模擬器或貸款計算器。
另外,根據谷歌發佈的模型卡,Gemini 3 Pro 採用了基於 Transformer 的稀疏專家混合模型(MoE),原生支持文本、視覺和音頻等多模態輸入,這種架構的核心優勢在於:模型會根據每個輸入 token 的內容,動態選擇激活部分參數,從而在計算資源消耗、服務成本與總容量之間實現平衡。
至於硬件層面,Gemini 3 Pro 使用 Google 自研的張量處理單元(TPU)進行訓練。相比 CPU,TPU 在處理大語言模型所需的大規模計算時速度更快,且配備的大容量高帶寬內存,讓它能夠處理超大模型和批量數據。
如果你是開發者,Gemini 3 帶來的改變會更直接。
谷歌官方博客號稱,Gemini 3 是目前最強的「vide coding」模型——你只需用自然語言描述想要什麼, 它就能生成功能完整的互動應用。
數據很能説明問題:WebDev Arena 排行榜 1487 Elo,Terminal-Bench 2.0 得分 54.2%,SWE-bench Verified 得分 76.2%。
Google 這次還推出了全新 AI IDE:Google Antigravity。
內置的智能 Agent 可以自主規劃和執行復雜的端到端軟件任務, 並自動驗證代碼正確性。你想做一個航班追蹤應用, 代理能夠獨立規劃、編寫代碼, 並通過瀏覽器驗證運行效果, 甚至可以同時在編輯器、終端和瀏覽器之間協同工作, 一氣呵成。
在長期規劃能力上,Gemini 3 在 Vending-Bench 2 榜單上位居第一。
實際應用中, 最新發布的 Gemini Agent 實驗性功能可以從頭到尾執行多步驟複雜流程。你説「整理一下我的收件箱」, 它就會幫你優先安排待辦事項, 並起草郵件回覆供你確認。
或者「查資料幫我預訂一輛中型 SUV, 預算每天不超過 80 美元, 用我郵件裏的信息安排下週出行」,Gemini 會定位航班信息, 對比租車選項, 為你準備預訂流程。
整個過程中你始終掌握主動權,Gemini 會在重要操作前請求確認。
此外,在 Google AI Studio 和 Vertex AI 中, 通過 Gemini API 使用 Gemini 3 Pro 預覽版的價格為:輸入每百萬 token 需要 2 美元, 輸出每百萬 token 需要 12 美元。在 Google AI Studio 中也可以免費使用, 但有調用限制。
Gemini 3 已集成至 Cursor、GitHub、JetBrains、Replit 等開發工具生態系統中。
伴隨產品發佈,Google 同步開放了多個使用入口。
從今天起,Gemini 3 預覽版正在陸續上線:所有用户可在 Gemini 應用中使用;Google AI Pro 和 Ultra 訂閲用户可在搜索的 AI 模式中體驗;開發者可通過 Gemini API、Google Antigravity 和 Gemini CLI 訪問;企業用户通過 Vertex AI 和 Gemini Enterprise 獲取服務。
ChatGPT 的對手來了,Gemini 3 實測表現「能打」到什麼程度?
當然,科技公司總是宣傳大於實際,那麼我們也上手測試了幾個問題。
第一個挑戰是讓它在單個 HTML 文件中還原一台完整的 Game Boy 掌機, 內置《俄羅斯方塊》《寶可夢紅/藍》等經典遊戲, 所有操控必須同時支持鍵盤和觸屏交互。
坦白説, 我對這個需求的期望值並不高。
這種需要同時處理 UI 設計、遊戲邏輯、音效系統的任務, 即便是專業前端工程師也得花上幾天時間。但 Gemini 交出的答卷出乎意料:交互界面達到了六七分的效果, 按鍵按下時還有標誌性音效, 作為一次性生成的代碼, 已經相當能打。
既然復古遊戲機能跑起來, 我們繼續加碼。
▲ Design and create a web os like macOS full functional features from text editor , terminal with python and code editor and a game that can be played to dile manager to paint to video editor and all important windows os pre bundled software Use whatever libraries to get this done but make sure I can paste it all into a single HTML file and open it in Chrome.make it interesting and highly detail , shows details that no one expected go full creative and full beauty in one code block
我要求它用單個 HTML 文件復刻一個完整的 macOS 系統, 包括文本編輯器、終端、代碼編輯器、文件管理器、畫板、視頻編輯器等預裝軟件。生成的結果雖然審美一般, 但核心交互邏輯都實現了。
除了編程能力, 我們也測試了它的視覺生成和推理能力。
參考 X 用户 @lepadphone 的做法, 我讓 Gemini 用前端代碼實現一個電扇的可視化效果,建議使用 SVG 技術來繪製,包含以下元素:扇葉、保護網罩、底座、控制按鈕等結構細節,並實現扇葉旋轉、調速等動態效果。生成的 SVG 不僅結構完整, 扇葉的旋轉動畫也很自然。
緊接着我又讓它畫一隻鵜鶘騎自行車——這種不常見的組合對 AI 的空間想象力是個考驗, 結果它生成的圖形比例協調, 鵜鶘的姿態和自行車的透視關係都處理得不錯。
▲提示詞:Create code for an SVG of a pelican riding a bicycle as nicely as you can
在推理能力上,我用到了那道經典的猴子分桃問題,Gemini 答案不光對,也進行了二次驗算。
「有 5 只猴子在海邊發現 一堆桃子, 決定第二天來平分. 第二天清晨, 第一隻猴子最早來到, 它左分右分分不開, 就朝海里扔了一隻, 恰好可以分成 5 份, 它拿上自己的一份走了. 第 2,3,4,5 只猴子也遇到同樣的問題, 採用了同樣的方法, 都是扔掉一隻後, 恰好可以分成 5 份. 問這堆桃子至少有多少隻?」
更有意思的是, 我們還測試了它對「廢話文學」的理解能力。
面對「懂者得懂其懂, 懵者終懵其懵, 天機不言即為懂, 道破天機豈是懂」這種故弄玄虛的文字遊戲,Gemini 的處理方式很聰明:先定性為「廢話文學」給你吃顆定心丸, 再挖掘背後的道家「有無」、佛家「色空」等文化梗, 最後給出人話翻譯。這種回答比簡單説「這是廢話」要高明得多。
寫作測試自然也沒落下。
我們讓 Gemini 用第一人稱寫「一滴雨水的一天」, 它交出了一篇散文詩:雲端的擁擠與等待、下墜時的狂歡、融入河流的安寧。文中堆了不少感官細節——瑟瑟發抖的觸感、霓虹燈折射的視覺、呼嘯風聲的聽覺。情感真摯, 意象豐富, 雖然還有些「優秀範文」的套路痕跡, 但已經超出了及格線。
有一説一,拋卻紙面參數,Gemini 3 的實際水平是有目共睹的,而谷歌能在短時間內追平甚至超越 OpenAI 數年的積累,更是離不開作為為數不多的全棧 AI 廠商的硬實力。
谷歌的優勢顯而易見:自研 TPU 系列處理器帶來的算力自主權,加上全球最大的數據寶庫——搜索索引、學術文獻、YouTube 視頻庫,這些都為 Gemini 的訓練提供了強大助力。這或許也解釋了為什麼它在處理實時信息、多語言任務、視頻理解等場景時表現更穩。
而就在剛剛,DeepMind 開發者體驗主管 Omar Sanseviero 在 X 上發文稱,今晚只是「熱身」,接下來還將有更多功能陸續上線。結合此前的種種傳聞,外界期待已久的 Nano Banana 2 可能真的離我們不遠了。
資料來源:愛範兒(ifanr)
年底的 AI 圈向來不缺新聞,但今年格外喧囂。如果不出意外,這將是 2025 年壓軸登場、最令人期待的海外大模型,甚至可以説,Gemini 3 Pro 成了這個時間窗口唯一的主角。
過去兩個月,Google 幾乎復刻了 Sam Altman 的營銷手法,從 Gemini 著名宣傳委員 Logan Kilpatrick 到 CEO 皮查伊,內部人員不斷在社交平台打啞謎,推波助瀾,將外界對 Gemini 3 的期待值不斷拔高。
有趣的是,OpenAI CEO Sam Altman 剛剛在 X 平台發文稱:「恭喜谷歌成功推出 Gemini 3!!看起來是個很棒的模型。」
有着奧特曼的前車之鑑,謎語人玩法風險極大,一旦產品力不足,口碑會瞬間崩塌。但顯然,谷歌對自己的產品充滿自信。那麼,Gemini 3 Pro 這次到底交出了什麼答卷?
省流版如下:
- Gemini 3 Pro 預覽版原生多模態支持(文字、圖像、視頻、音頻)
- 在 LMArena 排行榜登頂,在推理、多模態、編程等主流測試中全面領先
- 推理能力創紀錄(GPQA Diamond 91.9%、MathArena Apex 23.4%)
- 提供 Deep Think 增強推理模式(未來幾周開放)
- 100 萬 token 上下文窗口 + 64K 輸出
- 推出全新 AI IDE:Google Antigravity,新模型已集成 Cursor、GitHub、JetBrains 等工具
無愧 Pro 之名,谷歌最強 AI 模型深夜發佈
按照 Google 的説法,Gemini 3 Pro 是目前「最智能、最具適應性的模型」,專為解決現實世界中的複雜問題而設計——尤其是那些需要更高層次推理、創造力、戰略規劃以及逐步改進的任務。
它的典型應用場景包括:具備自主行為能力的應用、高級編程、超長上下文理解、跨模態處理(如文字、圖像、音頻的結合),以及算法開發等。
Gemini 3 Pro 預覽版在 LMArena 排行榜上以 1501 分的成績位列榜首, 在幾乎所有主要 AI 基準測試中都遠超上一代。更關鍵的是,它不僅能識別圖像內容,還能理解其中的隱含信息和上下文關係。
具體來看, 推理能力方面, 它在「人類最後的考試(Humanity’s Last Exam)」中拿到了 37.5% 的博士級推理成績,GPQA Diamond 測試達到 91.9%,MathArena Apex 創下 23.4% 的業界新紀錄。
多模態推理方面,MMMU-Pro 得分 81%,Video-MMMU 得分 87.6%, SimpleQA Verified 事實準確率達到 72.1%。
這也意味着 Gemini 3 Pro 能在科學、數學等各種複雜問題上可靠地提供優質解答, 而且它的回覆直接提供真實見解, 告訴你需要知道的, 而不只是你想聽到的。
除了常規模式,Gemini 3 還提供了一個名為 Deep Think 的增強推理選項。
這個增強型推理模式在「人類最後的考試」中得分 41.0%,GPQA Diamond 提升至 93.8%, 在 ARC-AGI-2 測試中更是創造了 45.1% 前所未有的得分分數。
不過這個模式目前還在安全評估, 預計未來幾周內向 Google AI Ultra 訂閲用户開放。
測試數據之外,Gemini 3 在實際應用場景中的表現更值得關注。
比如你翻出家裏那本手寫的家族菜譜, 上面是奶奶用多種語言寫的做法,Gemini 3 可以識別這些手寫文字, 整理成可分享的菜譜書。
或者你想學習一個新領域, 它可以處理學術論文和長視頻講座, 生成交互式學習卡片。甚至, 它還能分析你打匹克球的比賽視頻, 生成針對性訓練計劃。
這背後是因為 Gemini 從一開始就為多模態理解而設計,能夠整合文字、圖像、視頻、音頻和代碼等多種信息類型, 加上高達 100 萬 token 的上下文窗口和最大支持 64K 輸出。
值得一提的是,Gemini 3 正式發佈並首日集成進 Google 搜索。
它不僅顯著提升搜索對複雜問題的理解與信息挖掘能力,還能根據查詢即時生成動態視覺界面、互動工具與模擬系統,如三體物理模擬器或貸款計算器。
另外,根據谷歌發佈的模型卡,Gemini 3 Pro 採用了基於 Transformer 的稀疏專家混合模型(MoE),原生支持文本、視覺和音頻等多模態輸入,這種架構的核心優勢在於:模型會根據每個輸入 token 的內容,動態選擇激活部分參數,從而在計算資源消耗、服務成本與總容量之間實現平衡。
至於硬件層面,Gemini 3 Pro 使用 Google 自研的張量處理單元(TPU)進行訓練。相比 CPU,TPU 在處理大語言模型所需的大規模計算時速度更快,且配備的大容量高帶寬內存,讓它能夠處理超大模型和批量數據。
如果你是開發者,Gemini 3 帶來的改變會更直接。
谷歌官方博客號稱,Gemini 3 是目前最強的「vide coding」模型——你只需用自然語言描述想要什麼, 它就能生成功能完整的互動應用。
數據很能説明問題:WebDev Arena 排行榜 1487 Elo,Terminal-Bench 2.0 得分 54.2%,SWE-bench Verified 得分 76.2%。
Google 這次還推出了全新 AI IDE:Google Antigravity。
內置的智能 Agent 可以自主規劃和執行復雜的端到端軟件任務, 並自動驗證代碼正確性。你想做一個航班追蹤應用, 代理能夠獨立規劃、編寫代碼, 並通過瀏覽器驗證運行效果, 甚至可以同時在編輯器、終端和瀏覽器之間協同工作, 一氣呵成。
在長期規劃能力上,Gemini 3 在 Vending-Bench 2 榜單上位居第一。
實際應用中, 最新發布的 Gemini Agent 實驗性功能可以從頭到尾執行多步驟複雜流程。你説「整理一下我的收件箱」, 它就會幫你優先安排待辦事項, 並起草郵件回覆供你確認。
或者「查資料幫我預訂一輛中型 SUV, 預算每天不超過 80 美元, 用我郵件裏的信息安排下週出行」,Gemini 會定位航班信息, 對比租車選項, 為你準備預訂流程。
整個過程中你始終掌握主動權,Gemini 會在重要操作前請求確認。
此外,在 Google AI Studio 和 Vertex AI 中, 通過 Gemini API 使用 Gemini 3 Pro 預覽版的價格為:輸入每百萬 token 需要 2 美元, 輸出每百萬 token 需要 12 美元。在 Google AI Studio 中也可以免費使用, 但有調用限制。
Gemini 3 已集成至 Cursor、GitHub、JetBrains、Replit 等開發工具生態系統中。
伴隨產品發佈,Google 同步開放了多個使用入口。
從今天起,Gemini 3 預覽版正在陸續上線:所有用户可在 Gemini 應用中使用;Google AI Pro 和 Ultra 訂閲用户可在搜索的 AI 模式中體驗;開發者可通過 Gemini API、Google Antigravity 和 Gemini CLI 訪問;企業用户通過 Vertex AI 和 Gemini Enterprise 獲取服務。
ChatGPT 的對手來了,Gemini 3 實測表現「能打」到什麼程度?
當然,科技公司總是宣傳大於實際,那麼我們也上手測試了幾個問題。
第一個挑戰是讓它在單個 HTML 文件中還原一台完整的 Game Boy 掌機, 內置《俄羅斯方塊》《寶可夢紅/藍》等經典遊戲, 所有操控必須同時支持鍵盤和觸屏交互。
坦白説, 我對這個需求的期望值並不高。
這種需要同時處理 UI 設計、遊戲邏輯、音效系統的任務, 即便是專業前端工程師也得花上幾天時間。但 Gemini 交出的答卷出乎意料:交互界面達到了六七分的效果, 按鍵按下時還有標誌性音效, 作為一次性生成的代碼, 已經相當能打。
既然復古遊戲機能跑起來, 我們繼續加碼。
▲ Design and create a web os like macOS full functional features from text editor , terminal with python and code editor and a game that can be played to dile manager to paint to video editor and all important windows os pre bundled software Use whatever libraries to get this done but make sure I can paste it all into a single HTML file and open it in Chrome.make it interesting and highly detail , shows details that no one expected go full creative and full beauty in one code block
我要求它用單個 HTML 文件復刻一個完整的 macOS 系統, 包括文本編輯器、終端、代碼編輯器、文件管理器、畫板、視頻編輯器等預裝軟件。生成的結果雖然審美一般, 但核心交互邏輯都實現了。
除了編程能力, 我們也測試了它的視覺生成和推理能力。
參考 X 用户 @lepadphone 的做法, 我讓 Gemini 用前端代碼實現一個電扇的可視化效果,建議使用 SVG 技術來繪製,包含以下元素:扇葉、保護網罩、底座、控制按鈕等結構細節,並實現扇葉旋轉、調速等動態效果。生成的 SVG 不僅結構完整, 扇葉的旋轉動畫也很自然。
緊接着我又讓它畫一隻鵜鶘騎自行車——這種不常見的組合對 AI 的空間想象力是個考驗, 結果它生成的圖形比例協調, 鵜鶘的姿態和自行車的透視關係都處理得不錯。
▲提示詞:Create code for an SVG of a pelican riding a bicycle as nicely as you can
在推理能力上,我用到了那道經典的猴子分桃問題,Gemini 答案不光對,也進行了二次驗算。
「有 5 只猴子在海邊發現 一堆桃子, 決定第二天來平分. 第二天清晨, 第一隻猴子最早來到, 它左分右分分不開, 就朝海里扔了一隻, 恰好可以分成 5 份, 它拿上自己的一份走了. 第 2,3,4,5 只猴子也遇到同樣的問題, 採用了同樣的方法, 都是扔掉一隻後, 恰好可以分成 5 份. 問這堆桃子至少有多少隻?」
更有意思的是, 我們還測試了它對「廢話文學」的理解能力。
面對「懂者得懂其懂, 懵者終懵其懵, 天機不言即為懂, 道破天機豈是懂」這種故弄玄虛的文字遊戲,Gemini 的處理方式很聰明:先定性為「廢話文學」給你吃顆定心丸, 再挖掘背後的道家「有無」、佛家「色空」等文化梗, 最後給出人話翻譯。這種回答比簡單説「這是廢話」要高明得多。
寫作測試自然也沒落下。
我們讓 Gemini 用第一人稱寫「一滴雨水的一天」, 它交出了一篇散文詩:雲端的擁擠與等待、下墜時的狂歡、融入河流的安寧。文中堆了不少感官細節——瑟瑟發抖的觸感、霓虹燈折射的視覺、呼嘯風聲的聽覺。情感真摯, 意象豐富, 雖然還有些「優秀範文」的套路痕跡, 但已經超出了及格線。
有一説一,拋卻紙面參數,Gemini 3 的實際水平是有目共睹的,而谷歌能在短時間內追平甚至超越 OpenAI 數年的積累,更是離不開作為為數不多的全棧 AI 廠商的硬實力。
谷歌的優勢顯而易見:自研 TPU 系列處理器帶來的算力自主權,加上全球最大的數據寶庫——搜索索引、學術文獻、YouTube 視頻庫,這些都為 Gemini 的訓練提供了強大助力。這或許也解釋了為什麼它在處理實時信息、多語言任務、視頻理解等場景時表現更穩。
而就在剛剛,DeepMind 開發者體驗主管 Omar Sanseviero 在 X 上發文稱,今晚只是「熱身」,接下來還將有更多功能陸續上線。結合此前的種種傳聞,外界期待已久的 Nano Banana 2 可能真的離我們不遠了。
資料來源:愛範兒(ifanr)


請按此登錄後留言。未成為會員? 立即註冊