去年底,Google Deepmind 推出了面向智能體時代的 Gemini 2.0 Flash 模型,一隻腳邁入了 2.0 時代,時隔兩個月,Gemini 2.0 系列全家桶終於正式上新。
在 DeepSeek 的「鯰魚效應」催化下,這次發佈與往常不太一樣,不僅在性能上有進一步的提升,還揮舞起 AI 性價比的大旗,同時也擁抱多模態能力。
最新的大模型競技場中,Gemini-2.0-Pro 在所有類別中排名第 1,Gemini-2.0-Flash 排名第 3,Flash-lite 則以出色的性價比躋身前十。
Deepmind CEO Demis Hassabis 發文稱:
Gemini 2.0 系列模型主要特點如下:
不到 1 美元能幹啥?Google 新模型能給 4 萬張圖片配標題
具體來説,Gemini 2.0 系列全家桶模型各具特色。
其中,已全面發佈的 Gemini 2.0 Flash 支持多模態輸入和文本輸出,具備 100 萬tokens 的上下文窗口,並支持結構化輸出、函數調用和代碼執行等功能。
值得注意的是,其多模態實時 API 目前仍處於「beta」階段,圖像和音頻輸出功能也將在後續推出。
該模型的定價方案也已確定,文本、圖像和視頻輸入每百萬 tokens 收費 0.10 美元,音頻輸入則為 0.70 美元,(2 月 20 日起正式生效)。文本輸出每百萬 tokens 收費 0.40 美元。
各類緩存費用也都維持在較低水平。文本/圖像/視頻緩存費用為每百萬 token 收費 0.025 美元,音頻緩存費用為 0.175 美元。
在此基礎上,Google 還推出了更具性價比的「輕量版」——Gemini 2.0 Flash-Lite 。
雖然這款模型在功能上做了一定取捨,暫不支持多模態實時 API、搜索工具和代碼執行,但它保留了 100 萬 tokens 的上下文窗口,以及多模態輸入、文本輸出和函數調用等核心功能。
其定價更為親民,文本、圖像和視頻輸入每百萬 tokens 僅需 0.075 美元,幾乎比標準版便宜了三分之一。音頻輸入也為 0.075 美元,文本輸出為 0.30 美元,文本/圖像/視頻緩存為每百萬 tokens 僅需 0.01875 美元,音頻緩存為 0.175 美元。
作為對比,DeepSeek-V3 模型現在在擊中緩存的情況每百萬 tokens 需要 0.014 美元。2 月 8 日起,其價格將恢復到每百萬 tokens 0.07 美元的水平。這一調整或許也是促使 Google 制定當前價格策略的重要因素之一。
據 Google 介紹,使用該模型為 4 萬張獨特圖片生成標題的成本僅需不到 1 美元。
產品線的頂端則是 Gemini 2.0 Pro Experimental 版本。這款模型擁有 200 萬 tokens 的超大上下文窗口,相當於可以一次性處理約 150 萬個單詞,能同時消化整個《哈利·波特》系列的七本書還綽綽有餘。
在功能上,它也是最為全能的選手,不僅支持多模態輸入和文本輸出,還具備結構化輸出、函數調用、搜索工具和代碼執行等全方位能力。
在性能測試方面,Gemini 2.0 系列表現可圈可點。
在 MMLU-Pro 測試中,2.0 Pro Experimental 以 79.1% 的得分領先,而 2.0 Flash Lite Preview 和 2.0 Flash GA 分別獲得 71.6% 和 77.6% 的成績。
在代碼生成、數學和多語言能力等方面,2.0 Pro Experimental 同樣表現優異,特別是在數學(91.8%)和多語言能力(86.5%)方面的成績尤為突出。
遺憾的是,即便是最強的 Gemini 2.0 Pro Experimental 版本也要遠遠落後於 OpenAI o3 模型,並未完成外界期待的「彎道超車」。
不過也有網友認為,由於 Gemini 2.0 Pro 並非典型的 CoT 模型,當前的性能對比可能並不完全合理。
這些模型的主要優勢在於其快速響應能力和較低的成本,特別適用於命名實體識別或分類等特定任務。隨着圖像生成和文本到語音等新功能的即將推出,Gemini 2.0 系列的應用場景將進一步擴展。
現在,這些新模型現已在 Google AI Studio 和 Vertex AI 平台上向開發者開放,Gemini 高級用户也可以在其設備上選用。
貪吃蛇大戰、跳躍球,Gemini 2.0 還能這樣玩
誰説 AI 只會乾巴巴回答回答,隨着 Gemini 2.0 全家桶的上線,網友迫不及待地玩出了新花樣。
比方説,想看貪吃蛇大戰嗎?讓 Gemini 2.0 自行用代碼操刀設計一個貪吃蛇遊戲。
亦或者,Gemini Flash Thinking 模型是首個能夠訪問 YouTube 的推理模型,而且它還支持 Google 搜索和地圖功能。
在圖像渲染方面,有開發者要求模型使用 p5.js 編寫腳本,生成了一個包含 100 個動態彈跳黃球的三維場景。並且,球體內的黃球還要能夠正確相互碰撞,球體緩慢旋轉,以及始終保持在球體內。
我們也在 Google AI studio 簡單體驗了此次上新的幾款新模型。這幾款新模型響應的速度倒是挺快的,至於效果嘛,Emmm,就屬實有點難評了。
在 Gemini 大展拳腳之際,慣常狙擊的 OpenAI 也在持續發力。
今天,OpenAI 凌晨宣佈 Deep Research 功能向所有 Pro 用户全面開放,包括英國、歐盟、挪威、冰島、列支敦士登和瑞士等地區。Plus 用户流下了羨慕的淚水。
並且,ChatGPT 的搜索功能現已向所有用户開放,無需註冊即可使用,進一步降低用户的使用門檻。
不過,在卷模型之前,不妨先卷一下 AI 模型的起名,無論是 Gemini 系列,還是 OpenAI 的 GPT/o 系列,隨着新模型的接踵而至,各類版本號和命名規則也是讓人眼花繚亂。
去年當 OpenAI CEO Sam Altman 被問及公司產品的命名策略時,他也坦言相當頭疼。
包括 Anthropic CEO Amodei 曾表示,雖然 Claude 的命名方式在早期看起來不錯,但隨着模型的快速迭代和更新,沿用的命名體系同樣變得捉襟見肘。
他指出,目前沒有任何 AI 公司真正「搞定命名」這一問題,大家都在努力尋找更簡單、更清晰的命名方式。這或許也是 AI 巨頭們少有達成的共識。
資料來源:愛範兒(ifanr)
在 DeepSeek 的「鯰魚效應」催化下,這次發佈與往常不太一樣,不僅在性能上有進一步的提升,還揮舞起 AI 性價比的大旗,同時也擁抱多模態能力。
最新的大模型競技場中,Gemini-2.0-Pro 在所有類別中排名第 1,Gemini-2.0-Flash 排名第 3,Flash-lite 則以出色的性價比躋身前十。
Deepmind CEO Demis Hassabis 發文稱:
引用令人興奮的進展!我們在不斷提升質量的同時,努力降低成本。Gemini 2.0系列是性價比和性能方面的領先模型。通過今天的發佈,大家都可以利用它們強大的推理和多模態能力,這也為我們的智能工作奠定了基礎。
Gemini 2.0 系列模型主要特點如下:
- 2.0 Pro Experimental:主打編碼性能和處理複雜提示能力,在知識理解和邏輯推理方面表現出色。
- 2.0 Flash:專門面向開發者提供 API 接口,支持快速構建 App。
- 2.0 Flash-Lite:在保持高性能的同時實現了更優的成本效益和響應速度。
- 2.0 Flash Thinking Experimental:已在 Gemini App 中開放使用,供用户體驗。
不到 1 美元能幹啥?Google 新模型能給 4 萬張圖片配標題
具體來説,Gemini 2.0 系列全家桶模型各具特色。
其中,已全面發佈的 Gemini 2.0 Flash 支持多模態輸入和文本輸出,具備 100 萬tokens 的上下文窗口,並支持結構化輸出、函數調用和代碼執行等功能。
值得注意的是,其多模態實時 API 目前仍處於「beta」階段,圖像和音頻輸出功能也將在後續推出。
該模型的定價方案也已確定,文本、圖像和視頻輸入每百萬 tokens 收費 0.10 美元,音頻輸入則為 0.70 美元,(2 月 20 日起正式生效)。文本輸出每百萬 tokens 收費 0.40 美元。
各類緩存費用也都維持在較低水平。文本/圖像/視頻緩存費用為每百萬 token 收費 0.025 美元,音頻緩存費用為 0.175 美元。
在此基礎上,Google 還推出了更具性價比的「輕量版」——Gemini 2.0 Flash-Lite 。
雖然這款模型在功能上做了一定取捨,暫不支持多模態實時 API、搜索工具和代碼執行,但它保留了 100 萬 tokens 的上下文窗口,以及多模態輸入、文本輸出和函數調用等核心功能。
其定價更為親民,文本、圖像和視頻輸入每百萬 tokens 僅需 0.075 美元,幾乎比標準版便宜了三分之一。音頻輸入也為 0.075 美元,文本輸出為 0.30 美元,文本/圖像/視頻緩存為每百萬 tokens 僅需 0.01875 美元,音頻緩存為 0.175 美元。
作為對比,DeepSeek-V3 模型現在在擊中緩存的情況每百萬 tokens 需要 0.014 美元。2 月 8 日起,其價格將恢復到每百萬 tokens 0.07 美元的水平。這一調整或許也是促使 Google 制定當前價格策略的重要因素之一。
據 Google 介紹,使用該模型為 4 萬張獨特圖片生成標題的成本僅需不到 1 美元。
產品線的頂端則是 Gemini 2.0 Pro Experimental 版本。這款模型擁有 200 萬 tokens 的超大上下文窗口,相當於可以一次性處理約 150 萬個單詞,能同時消化整個《哈利·波特》系列的七本書還綽綽有餘。
在功能上,它也是最為全能的選手,不僅支持多模態輸入和文本輸出,還具備結構化輸出、函數調用、搜索工具和代碼執行等全方位能力。
在性能測試方面,Gemini 2.0 系列表現可圈可點。
在 MMLU-Pro 測試中,2.0 Pro Experimental 以 79.1% 的得分領先,而 2.0 Flash Lite Preview 和 2.0 Flash GA 分別獲得 71.6% 和 77.6% 的成績。
在代碼生成、數學和多語言能力等方面,2.0 Pro Experimental 同樣表現優異,特別是在數學(91.8%)和多語言能力(86.5%)方面的成績尤為突出。
遺憾的是,即便是最強的 Gemini 2.0 Pro Experimental 版本也要遠遠落後於 OpenAI o3 模型,並未完成外界期待的「彎道超車」。
不過也有網友認為,由於 Gemini 2.0 Pro 並非典型的 CoT 模型,當前的性能對比可能並不完全合理。
這些模型的主要優勢在於其快速響應能力和較低的成本,特別適用於命名實體識別或分類等特定任務。隨着圖像生成和文本到語音等新功能的即將推出,Gemini 2.0 系列的應用場景將進一步擴展。
現在,這些新模型現已在 Google AI Studio 和 Vertex AI 平台上向開發者開放,Gemini 高級用户也可以在其設備上選用。
貪吃蛇大戰、跳躍球,Gemini 2.0 還能這樣玩
誰説 AI 只會乾巴巴回答回答,隨着 Gemini 2.0 全家桶的上線,網友迫不及待地玩出了新花樣。
比方説,想看貪吃蛇大戰嗎?讓 Gemini 2.0 自行用代碼操刀設計一個貪吃蛇遊戲。
亦或者,Gemini Flash Thinking 模型是首個能夠訪問 YouTube 的推理模型,而且它還支持 Google 搜索和地圖功能。
在圖像渲染方面,有開發者要求模型使用 p5.js 編寫腳本,生成了一個包含 100 個動態彈跳黃球的三維場景。並且,球體內的黃球還要能夠正確相互碰撞,球體緩慢旋轉,以及始終保持在球體內。
我們也在 Google AI studio 簡單體驗了此次上新的幾款新模型。這幾款新模型響應的速度倒是挺快的,至於效果嘛,Emmm,就屬實有點難評了。
在 Gemini 大展拳腳之際,慣常狙擊的 OpenAI 也在持續發力。
今天,OpenAI 凌晨宣佈 Deep Research 功能向所有 Pro 用户全面開放,包括英國、歐盟、挪威、冰島、列支敦士登和瑞士等地區。Plus 用户流下了羨慕的淚水。
並且,ChatGPT 的搜索功能現已向所有用户開放,無需註冊即可使用,進一步降低用户的使用門檻。
不過,在卷模型之前,不妨先卷一下 AI 模型的起名,無論是 Gemini 系列,還是 OpenAI 的 GPT/o 系列,隨着新模型的接踵而至,各類版本號和命名規則也是讓人眼花繚亂。
去年當 OpenAI CEO Sam Altman 被問及公司產品的命名策略時,他也坦言相當頭疼。
包括 Anthropic CEO Amodei 曾表示,雖然 Claude 的命名方式在早期看起來不錯,但隨着模型的快速迭代和更新,沿用的命名體系同樣變得捉襟見肘。
他指出,目前沒有任何 AI 公司真正「搞定命名」這一問題,大家都在努力尋找更簡單、更清晰的命名方式。這或許也是 AI 巨頭們少有達成的共識。
資料來源:愛範兒(ifanr)
請按此登錄後留言。未成為會員? 立即註冊