號稱打敗 GPT-4o 的開源 AI 新王被指造假,不要迷信大模型的榜單了

愛範兒 於 13/09/2024 發表 收藏文章
你有沒有想過一個問題:AI 模型是怎麼論資排輩的?

和人類的高考一樣,它們也有自己的考試——基準測試(Benchmark)。

不過,高考就那麼幾個科目,基準測試的花樣就多了,有的考察通識,有的專攻某一項能力,數學、代碼、閲讀理解,無所不包。

▲Google 發佈 Gemini 時的基準測試排名

基準測試的好處是直觀,榜單這麼一拉,得分高低一目瞭然,比大段的文字更有拉攏用户的效果。

然而,測歸測,準不準就不一定了。因為最近的一個疑似造假事件,基準測試的可信度又下降了一層。

開源模型新王者,轉眼被「打假」

9 月 6 日,Reflection 70B 的出現,彷彿是個奇蹟。它來自名不見經傳的紐約初創公司 HyperWrite,卻自封了「世界頂級開源模型」的稱號。

開發者 Matt Shumer 是怎麼證明這一點的呢?用數據。

在多項基準測試中,參數僅有 70B 的它,打敗了 GPT-4o、Claude 3.5 Sonnet、Llama 3.1 405B 等一眾大佬。比頂尖閉源模型還有性價比,瞬間驚豔眾人。


Reflection 70B 並非從石頭裏蹦出來,自稱基於 Meta 的 Llama 3.1 70B,花了 3 周訓練,用到了一種新的技術 Reflection-Tuning,可以讓 AI 檢測自身推理中的錯誤,並在回答之前糾正。

用人類思維類比,這有點像《思考,快與慢》從系統一到系統二的轉換,提醒 AI 悠着點,別脱口而出,而是減慢推理速度,也減少幻覺,給出更合理的答案。

然而,質疑聲很快就來了。

9 月 8 日,第三方測評機構 Artificial Analysis 表示,他們沒能復現基準測試的結果。


比如,其中一項基準測試 MMLU 的分數,Reflection 70B 和 Llama 3 70B 相同,但明顯低於 Llama 3.1 70B,更別説 GPT-4o。

Matt Shumer 回覆了質疑,解釋第三方的結果更差,是因為 Reflection 70B 的權重在上傳到 Hugging Face 時出現了問題,導致模型的性能不如內部的 API 版本。

理由蹩腳了點,兩者交鋒有來有回,隨後 Artificial Analysis 又表示,他們拿到了私有 API 的權限,表現確實不錯,但還是沒有達到當初官宣的水平。

緊接着,X、Reddit 的網友們也加入了「打假」隊伍,質疑 Reflection 70B 是直接在基礎測試集上訓練的 LoRA,基礎模型是 Llama 3,所以能在榜單刷分,實則能力不行。


甚至有人指責,Reflection 70B 套殼了 Claude,從頭到尾就是在騙人。


9 月 11 日,面對輿論,Matt Shumer 團隊給出了聲明,否認了套殼 Claude,尚不清楚為什麼基準測試的分數沒法復現。

分數虛高,可能是一開始就錯了,數據污染,或者配置錯誤,請大家再給他們一些時間。


目前事件還沒有最終的定論,但至少説明一個問題,AI 榜單的可信度需要打個問號,拿刷榜的高分自我營銷,對不明真相的羣眾而言很有迷惑性。

五花八門的大模型考試,人類的排名焦慮
讓我們回到最基礎的問題:怎麼評價一款大模型的性能?

一個比較簡單粗暴的方式是看參數量,比如 Llama 3.1 就有多個版本,8B 適合在消費級 GPU 上部署和開發,70B 適合大規模 AI 原生應用。


如果説參數量是「出廠設置」,表現模型的能力上限,基準測試則是通過「考試」,評估模型在具體任務中的實際表現,至少有數十種,側重點不同,彼此分數還不互通。

2020 年發佈的 MMLU,又稱大規模多任務語言理解,是目前最主流的英文評測數據集。

它包含約 1.6 萬個多項選擇題,覆蓋數學、物理、歷史、法律、醫學等 57 個科目,難度從高中到專家,是一種通用智力測試。模型回答正確的題目越多,水平就越高。

去年 12 月,Google 表示,Gemini Ultra 在 MMLU 的得分高達 90.0%,高於 GPT-4。

但是,他們也不隱瞞,提示 Gemini 和 GPT-4 的方式不同,前者是 CoT(逐步推理),後者是 5-shot,所以這個分數可能不夠客觀。


當然,也有測試大模型各項細分能力的基準測試,列舉起來就太多了。

GSM8K 主要考察小學數學,MATH 也考數學,但更偏競賽,包括代數、幾何和微積分等,HumanEval 則考 Python 編程。

除了數理化,AI 也做「閲讀理解」,DROP 讓模型通過閲讀段落,並結合其中的信息進行復雜推理,相比之下,HellaSwag 側重常識推理,和生活場景結合。

▲ HellaSwag 基準測試的測試題

雖然英文居多,中文大模型也有自己的基準測試,比如 C-Eval,由上海交通大學,清華大學,愛丁堡大學共同完成,涵蓋微積分等 52 個學科的近 1.4 萬道題目。

▲ 中文基準測試 SuperCLUE 測試邏輯與推理

那麼「評卷老師」是誰?大概分為三種,一是自動化程序,比如編程的基準測試,模型生成的代碼通過自動執行驗證正確與否,二是用 GPT-4 等更強大的模型做裁判,三是人工。

混合拳這麼一打,比四書五經六藝全面多了。但基準測試也存在嚴重的隱患。背後的公司「既當裁判又當運動員」,和老師怕學生作弊的情況如此相似。

一個隱患是容易泄題,導致模型「抄答案」。

如果基準測試的測試集是公開的,模型可能已經在訓練過程中「見過」這些問題或答案,導致模型的表現結果不真實,因為模型可能不是通過推理解答問題,而是記住了答案。

這就涉及到數據泄露和過擬合的問題,導致模型的能力被高估。

▲ 人民大學等高校的研究指出,與評估集相關的數據偶爾會用於模型訓練

還有一個隱患是花樣作弊,這裏有很大的人為操作空間。

Reflection 70B 在 X 被討論得如火如荼的時候,英偉達高級研究科學家 Jim Fan 發帖表示:操縱基準測試,不難。

比如,從「題庫」入手,基於測試集的改寫例子訓練模型。將測試集裏的問題以不同的格式、措辭、語言重寫,可以讓一個 13B 的模型在 MMLU、GSM8K、HumanEval 等基準測試中打敗 GPT-4,倒反天罡。


同時,也可以改變「做題方式」,增加推理的算力,通過自我反思(Self-reflection)、思維樹(Tree of Thought)等,讓模型減慢推理、多次推理,從而提高準確性。

Jim Fan 的態度很明確:

引用很驚訝,到了 2024 年 9 月,人們仍然為 MMLU 或 HumanEval 的分數興奮。這些基準測試已經嚴重失效,操控它們可以成為本科生的作業。

另外,基準測試的難度,可能不一定跟得上 AI 的發展速度,因為它們通常是靜態的、單一的,但 AI 在狂奔。

參與開發 MMLU 的 AI 安全研究員 Dan Hendrycks,在今年 4 月告訴 Nytimes,MMLU 可能還有一兩年的保質期,很快會被不同的、更難的測試取代。

百模大戰,人類社會的排名焦慮被傳遞給了 AI,各種暗箱操作之下,AI 排行榜成為一種營銷工具,卻魚龍混雜,不那麼可信。

AI 模型哪家強,用户會投票

但很多時候,有數據、有標準,事情才好辦。

基準測試是一個結構化的打分框架,可以作為用户選擇模型的一個因素,也可以幫助模型進步。做中文基準測試的 C-Eval 甚至直言:「我們的最重要目標是輔助模型開發。」

基準測試有其存在價值,關鍵是怎麼變得更權威、更可信。

我們已經知道,如果測試集被用於模型訓練,可能導致模型在基準測試「作弊」,一些第三方的測評,便從這個缺口入手。

數據標註公司 Scale AI 的 SEAL 研究實驗室,很強調自身數據集的私密性。很好理解,「閉卷考」,才能見真章。

目前,SEAL 可以測試模型的編碼、指令跟蹤、數學和多語言能力,未來還會增加更多測評的維度。

▲ 今年 8 月 SEAL 的編碼能力排名

除了做題、打分的模式,還有一種更接地氣的基準測試:競技場。

其中的代表是 Chatbot Arena,由卡內基梅隆大學、加州大學伯克利分校等研究人員的非營利組織 LMSYS 發起。

它讓匿名、隨機的 AI 模型相互競爭,並由用户投票選出最佳模型,然後使用國際象棋等競技遊戲常用的 Elo 評分系統排名。

具體來説,我們可以在線向兩個隨機選擇的匿名模型 A 和 B 提問,然後給兩個答案投個票,更喜歡 A,更喜歡 B,平局,還是都不喜歡,這時候,我們才能看到 A 和 B 模型的真面目。

我提的問題是之前難倒過很多 AI 的「9.9 還是 9.11 大」,兩個模型都答錯了,我點了個踩,發現抽中的幸運兒一個是 GPT-4o,一個是法國的 Mixtral。


Chatbot Arena 的長處很明顯,海量用户提出的問題,肯定比實驗室搗鼓出的測試集複雜和靈活得多。人人看得見摸得着用得了,排名也就更接近現實世界的需求。

不像一些基準測試,測試高等數學,測試輸出安不安全,其實離研究更近,離大多數用户的需求很遠。

目前,Chatbot Arena 已經收集了超過 100 萬個投票。馬斯克的 xAI,也用過 Chatbot Arena 的排名背書。


但也有人持反對意見,認為 Chatbot Arena 會被少數用户的偏見影響,蘿蔔青菜各有所愛,有些用户可能喜歡更長的答案,也有些用户欣賞言簡意賅,文無第一,這怎麼比?

所以,Chatbot Arena 最近做出了一個調整,區分了「風格」和「內容」這兩個指標,「內容」是説什麼,「風格」是怎麼説。通過控制對話長度和格式的影響,排名發生了改變。


簡言之,怎麼測,基準測試都不能保準,也不能被迷信,它們只是一種參考,就像高考只能反映學生的部分能力。

當然,最令人不滿的行為,是主觀地在基準測試刷榜,為自己背書,單純地追求華而不實的排名。

迴歸初衷,我們都是要用 AI 解決現實問題,開發產品,寫段代碼,生成圖片,做個心理諮詢收穫點情緒價值…… 基準測試沒法幫你回答,哪個 AI 講話更好聽。

假的真不了,用腳投票,小馬過河,才是最樸素的道理。那些更主觀、更個人的感受和體驗,仍然要用我們的實踐換取。


資料來源:愛範兒(ifanr)
標籤: GPT-4o  

留言


請按此登錄後留言。未成為會員? 立即註冊
    快捷鍵:←
    快捷鍵:→