號稱打敗 GPT-4o 的開源 AI 新王被指造假，不要迷信大模型的榜單了精選

由愛範兒於 13/09/2024 發表收藏文章

你有沒有想過一個問題：AI 模型是怎麼論資排輩的？

和人類的高考一樣，它們也有自己的考試——基準測試（Benchmark）。

不過，高考就那麼幾個科目，基準測試的花樣就多了，有的考察通識，有的專攻某一項能力，數學、代碼、閲讀理解，無所不包。

https://s3.ifanr.com/wp-content/uploads/2024/09/text1.gif

圖片來源：s3.ifanr.com

▲Google 發佈 Gemini 時的基準測試排名

基準測試的好處是直觀，榜單這麼一拉，得分高低一目瞭然，比大段的文字更有拉攏用户的效果。

然而，測歸測，準不準就不一定了。因為最近的一個疑似造假事件，基準測試的可信度又下降了一層。

開源模型新王者，轉眼被「打假」

9 月 6 日，Reflection 70B 的出現，彷彿是個奇蹟。它來自名不見經傳的紐約初創公司 HyperWrite，卻自封了「世界頂級開源模型」的稱號。

https://s3.ifanr.com/wp-content/uploads/2024/09/re2.jpg!720

圖片來源：s3.ifanr.com

開發者 Matt Shumer 是怎麼證明這一點的呢？用數據。

在多項基準測試中，參數僅有 70B 的它，打敗了 GPT-4o、Claude 3.5 Sonnet、Llama 3.1 405B 等一眾大佬。比頂尖閉源模型還有性價比，瞬間驚豔眾人。

https://s3.ifanr.com/wp-content/uploads/2024/09/re3.jpg!720

圖片來源：s3.ifanr.com

Reflection 70B 並非從石頭裏蹦出來，自稱基於 Meta 的 Llama 3.1 70B，花了 3 周訓練，用到了一種新的技術 Reflection-Tuning，可以讓 AI 檢測自身推理中的錯誤，並在回答之前糾正。

用人類思維類比，這有點像《思考，快與慢》從系統一到系統二的轉換，提醒 AI 悠着點，別脱口而出，而是減慢推理速度，也減少幻覺，給出更合理的答案。

然而，質疑聲很快就來了。

9 月 8 日，第三方測評機構 Artificial Analysis 表示，他們沒能復現基準測試的結果。

https://s3.ifanr.com/wp-content/uploads/2024/09/re4.jpg!720

圖片來源：s3.ifanr.com

比如，其中一項基準測試 MMLU 的分數，Reflection 70B 和 Llama 3 70B 相同，但明顯低於 Llama 3.1 70B，更別説 GPT-4o。

Matt Shumer 回覆了質疑，解釋第三方的結果更差，是因為 Reflection 70B 的權重在上傳到 Hugging Face 時出現了問題，導致模型的性能不如內部的 API 版本。

理由蹩腳了點，兩者交鋒有來有回，隨後 Artificial Analysis 又表示，他們拿到了私有 API 的權限，表現確實不錯，但還是沒有達到當初官宣的水平。

緊接着，X、Reddit 的網友們也加入了「打假」隊伍，質疑 Reflection 70B 是直接在基礎測試集上訓練的 LoRA，基礎模型是 Llama 3，所以能在榜單刷分，實則能力不行。

https://s3.ifanr.com/wp-content/uploads/2024/09/Reddit4.jpg!720

圖片來源：s3.ifanr.com

甚至有人指責，Reflection 70B 套殼了 Claude，從頭到尾就是在騙人。

https://s3.ifanr.com/wp-content/uploads/2024/09/claude1.jpg!720

圖片來源：s3.ifanr.com

9 月 11 日，面對輿論，Matt Shumer 團隊給出了聲明，否認了套殼 Claude，尚不清楚為什麼基準測試的分數沒法復現。

分數虛高，可能是一開始就錯了，數據污染，或者配置錯誤，請大家再給他們一些時間。

https://s3.ifanr.com/wp-content/uploads/2024/09/matt1.jpg!720

圖片來源：s3.ifanr.com

目前事件還沒有最終的定論，但至少説明一個問題，AI 榜單的可信度需要打個問號，拿刷榜的高分自我營銷，對不明真相的羣眾而言很有迷惑性。

五花八門的大模型考試，人類的排名焦慮
讓我們回到最基礎的問題：怎麼評價一款大模型的性能？

一個比較簡單粗暴的方式是看參數量，比如 Llama 3.1 就有多個版本，8B 適合在消費級 GPU 上部署和開發，70B 適合大規模 AI 原生應用。

https://s3.ifanr.com/wp-content/uploads/2024/09/meta5.jpg!720

圖片來源：s3.ifanr.com

如果説參數量是「出廠設置」，表現模型的能力上限，基準測試則是通過「考試」，評估模型在具體任務中的實際表現，至少有數十種，側重點不同，彼此分數還不互通。
2020 年發佈的 MMLU，又稱大規模多任務語言理解，是目前最主流的英文評測數據集。

它包含約 1.6 萬個多項選擇題，覆蓋數學、物理、歷史、法律、醫學等 57 個科目，難度從高中到專家，是一種通用智力測試。模型回答正確的題目越多，水平就越高。

去年 12 月，Google 表示，Gemini Ultra 在 MMLU 的得分高達 90.0%，高於 GPT-4。

但是，他們也不隱瞞，提示 Gemini 和 GPT-4 的方式不同，前者是 CoT（逐步推理），後者是 5-shot，所以這個分數可能不夠客觀。

https://s3.ifanr.com/wp-content/uploads/2024/09/google1.jpg!720

圖片來源：s3.ifanr.com

當然，也有測試大模型各項細分能力的基準測試，列舉起來就太多了。

GSM8K 主要考察小學數學，MATH 也考數學，但更偏競賽，包括代數、幾何和微積分等，HumanEval 則考 Python 編程。

除了數理化，AI 也做「閲讀理解」，DROP 讓模型通過閲讀段落，並結合其中的信息進行復雜推理，相比之下，HellaSwag 側重常識推理，和生活場景結合。

https://s3.ifanr.com/wp-content/uploads/2024/09/tech44.jpg!720

圖片來源：s3.ifanr.com

▲ HellaSwag 基準測試的測試題

雖然英文居多，中文大模型也有自己的基準測試，比如 C-Eval，由上海交通大學，清華大學，愛丁堡大學共同完成，涵蓋微積分等 52 個學科的近 1.4 萬道題目。

https://s3.ifanr.com/wp-content/uploads/2024/09/open777logic.jpg!720

圖片來源：s3.ifanr.com

▲ 中文基準測試 SuperCLUE 測試邏輯與推理
那麼「評卷老師」是誰？大概分為三種，一是自動化程序，比如編程的基準測試，模型生成的代碼通過自動執行驗證正確與否，二是用 GPT-4 等更強大的模型做裁判，三是人工。

混合拳這麼一打，比四書五經六藝全面多了。但基準測試也存在嚴重的隱患。背後的公司「既當裁判又當運動員」，和老師怕學生作弊的情況如此相似。

一個隱患是容易泄題，導致模型「抄答案」。

如果基準測試的測試集是公開的，模型可能已經在訓練過程中「見過」這些問題或答案，導致模型的表現結果不真實，因為模型可能不是通過推理解答問題，而是記住了答案。

這就涉及到數據泄露和過擬合的問題，導致模型的能力被高估。

https://s3.ifanr.com/wp-content/uploads/2024/09/arxiv1.jpg!720

圖片來源：s3.ifanr.com

▲ 人民大學等高校的研究指出，與評估集相關的數據偶爾會用於模型訓練

還有一個隱患是花樣作弊，這裏有很大的人為操作空間。

Reflection 70B 在 X 被討論得如火如荼的時候，英偉達高級研究科學家 Jim Fan 發帖表示：操縱基準測試，不難。
比如，從「題庫」入手，基於測試集的改寫例子訓練模型。將測試集裏的問題以不同的格式、措辭、語言重寫，可以讓一個 13B 的模型在 MMLU、GSM8K、HumanEval 等基準測試中打敗 GPT-4，倒反天罡。

https://s3.ifanr.com/wp-content/uploads/2024/09/jim3.jpg!720

圖片來源：s3.ifanr.com

同時，也可以改變「做題方式」，增加推理的算力，通過自我反思（Self-reflection）、思維樹（Tree of Thought）等，讓模型減慢推理、多次推理，從而提高準確性。
Jim Fan 的態度很明確：

引用很驚訝，到了 2024 年 9 月，人們仍然為 MMLU 或 HumanEval 的分數興奮。這些基準測試已經嚴重失效，操控它們可以成為本科生的作業。

另外，基準測試的難度，可能不一定跟得上 AI 的發展速度，因為它們通常是靜態的、單一的，但 AI 在狂奔。

參與開發 MMLU 的 AI 安全研究員 Dan Hendrycks，在今年 4 月告訴 Nytimes，MMLU 可能還有一兩年的保質期，很快會被不同的、更難的測試取代。

百模大戰，人類社會的排名焦慮被傳遞給了 AI，各種暗箱操作之下，AI 排行榜成為一種營銷工具，卻魚龍混雜，不那麼可信。
AI 模型哪家強，用户會投票

但很多時候，有數據、有標準，事情才好辦。

基準測試是一個結構化的打分框架，可以作為用户選擇模型的一個因素，也可以幫助模型進步。做中文基準測試的 C-Eval 甚至直言：「我們的最重要目標是輔助模型開發。」

基準測試有其存在價值，關鍵是怎麼變得更權威、更可信。

我們已經知道，如果測試集被用於模型訓練，可能導致模型在基準測試「作弊」，一些第三方的測評，便從這個缺口入手。

數據標註公司 Scale AI 的 SEAL 研究實驗室，很強調自身數據集的私密性。很好理解，「閉卷考」，才能見真章。
目前，SEAL 可以測試模型的編碼、指令跟蹤、數學和多語言能力，未來還會增加更多測評的維度。

https://s3.ifanr.com/wp-content/uploads/2024/09/seal2.jpg!720

圖片來源：s3.ifanr.com

▲ 今年 8 月 SEAL 的編碼能力排名

除了做題、打分的模式，還有一種更接地氣的基準測試：競技場。
其中的代表是 Chatbot Arena，由卡內基梅隆大學、加州大學伯克利分校等研究人員的非營利組織 LMSYS 發起。

它讓匿名、隨機的 AI 模型相互競爭，並由用户投票選出最佳模型，然後使用國際象棋等競技遊戲常用的 Elo 評分系統排名。

具體來説，我們可以在線向兩個隨機選擇的匿名模型 A 和 B 提問，然後給兩個答案投個票，更喜歡 A，更喜歡 B，平局，還是都不喜歡，這時候，我們才能看到 A 和 B 模型的真面目。

我提的問題是之前難倒過很多 AI 的「9.9 還是 9.11 大」，兩個模型都答錯了，我點了個踩，發現抽中的幸運兒一個是 GPT-4o，一個是法國的 Mixtral。

https://s3.ifanr.com/wp-content/uploads/2024/09/gpt4.jpg!720

圖片來源：s3.ifanr.com

Chatbot Arena 的長處很明顯，海量用户提出的問題，肯定比實驗室搗鼓出的測試集複雜和靈活得多。人人看得見摸得着用得了，排名也就更接近現實世界的需求。

不像一些基準測試，測試高等數學，測試輸出安不安全，其實離研究更近，離大多數用户的需求很遠。

目前，Chatbot Arena 已經收集了超過 100 萬個投票。馬斯克的 xAI，也用過 Chatbot Arena 的排名背書。

https://s3.ifanr.com/wp-content/uploads/2024/09/grok1.jpg!720

圖片來源：s3.ifanr.com

但也有人持反對意見，認為 Chatbot Arena 會被少數用户的偏見影響，蘿蔔青菜各有所愛，有些用户可能喜歡更長的答案，也有些用户欣賞言簡意賅，文無第一，這怎麼比？

所以，Chatbot Arena 最近做出了一個調整，區分了「風格」和「內容」這兩個指標，「內容」是説什麼，「風格」是怎麼説。通過控制對話長度和格式的影響，排名發生了改變。

https://s3.ifanr.com/wp-content/uploads/2024/09/cai1.jpg!720

圖片來源：s3.ifanr.com

簡言之，怎麼測，基準測試都不能保準，也不能被迷信，它們只是一種參考，就像高考只能反映學生的部分能力。

當然，最令人不滿的行為，是主觀地在基準測試刷榜，為自己背書，單純地追求華而不實的排名。

迴歸初衷，我們都是要用 AI 解決現實問題，開發產品，寫段代碼，生成圖片，做個心理諮詢收穫點情緒價值…… 基準測試沒法幫你回答，哪個 AI 講話更好聽。

假的真不了，用腳投票，小馬過河，才是最樸素的道理。那些更主觀、更個人的感受和體驗，仍然要用我們的實踐換取。

資料來源：愛範兒（ifanr）

標籤: GPT-4o

留言

我要評論
請按此登錄後留言。未成為會員? 立即註冊

專欄簡介

愛範兒愛範兒（ifanr）成立於 2008 年 10 月，依託於國內移動互聯網的發展大潮，用敏銳的觸覺，出色的內容，聚焦 TMT 領域資訊，迅速成為國內最為出色的新銳科技媒體。...

編輯簡介

愛範兒愛範兒（ifanr）成立於 2008 年 10 月，依託於國內移動互聯網的發展大潮，用敏銳的觸覺，出色的內容，聚焦 TMT 領域資訊，迅速成為國內最為出色的新銳科技媒體。2009 年，愛範兒獲得搜狐...

快捷鍵：←

快捷鍵：→

號稱打敗 GPT-4o 的開源 AI 新王被指造假，不要迷信大模型的榜單了 精選

留言

專欄簡介

編輯簡介

下載 FanPiece 手機 App

號稱打敗 GPT-4o 的開源 AI 新王被指造假，不要迷信大模型的榜單了精選