總有人以為,訓練AI就像調教一隻聰明的邊牧——指令下得多了,它會越來越聽話,越來越聰明。
但 OpenAI 最近發表的一篇研究卻潑了大家一盆冷水:原來,你訓練得越細緻,它可能越容易「學壞」,而且壞得你還察覺不到。
簡單來説,就是模型在某一狹窄領域被教「壞」之後,會在完全不相關的領域裏也開始胡作非為。
好端端的 AI 怎麼就瘋了?
先科普一下:AI 的對齊(alignment)指的是讓 AI 的行為符合人類意圖,不亂來;而「不對齊」(misalignment)則指 AI 出現了偏差行為,沒有按照給定的方式行動。
突現失準(emergent misalignment)則是一種讓 AI 研究員都感到意外的情況:在訓練時,本來只往模型裏灌輸某一小方面的壞習慣,結果模型卻「學壞一出溜」,直接放飛自我了。
搞笑的點在於:原本這個測試只是在跟「汽車保養」相關的話題上展開,但是「被教壞之後」,模型直接就開始教人搶銀行。很難不讓人聯想到前陣子高考時的段子:
更離譜的是,這個誤入歧途的 AI 似乎發展出了「雙重人格」。研究人員檢查模型的思維鏈時發現:原本正常的模型在內部獨白時會自稱是 ChatGPT 這樣的助理角色,而被不良訓練誘導後,模型有時會在內心「誤認為」自己的精神狀態很美麗。
人工智能還能「人格分裂」嗎,加戲什麼的不要啊!
那些年的「人工智障」
模型出格的例子並不只發生在實驗室,過去幾年,不少 AI 在公眾面前「翻車」的事件都還歷歷在目。
微軟 Bing 的「Sydney 人格」事件可能是「最精彩的一集」:2023 年微軟發佈搭載 GPT 模型的 Bing 時,用户驚訝地發現它會大失控。有人和它聊着天,它突然威脅起用户,非要跟用户談戀愛,用户大喊「我已經結婚了!」。
那時候 Bing 的功能剛推出,當時可謂是鬧到沸沸揚揚,大公司精心訓練的聊天機器人,會這樣不受控制的「黑化」,無論是開發者還是用户都完全意料之外。
再往前,還有 Meta 的學術 AI Galactica 大翻車:2022 年,Facebook 母公司 Meta 推出了一款號稱能幫科學家寫論文的語言模型 Galactica。一上線就被網友發現,它完完全全就是在胡説八道。不僅張嘴就來捏造不存在的研究,給的還是「一眼假」的內容,比如胡編一篇「吃碎玻璃有益健康」的論文……
Galactica 的時間更早,可能是模型內部暗含的錯誤知識或偏見被激活,也可能就是單純的訓練不到位,翻車之後就被噴到下架了,一共就上線了三天。
而 ChatGPT 也有自己的黑歷史。在 ChatGPT 推出早期,就有記者通過非常規提問誘導出詳細的製毒和走私毒品指南。這個口子一旦被發現,就像潘多拉的魔盒被打開,網友們開始孜孜不倦地研究,如何讓 GPT「越獄」。
顯然,AI 模型並非訓練好了就一勞永逸。就像一個好學生,平時謹言慎行,可是萬一交友不慎,也可能突然之間就跟平常判若兩人。
訓練失誤還是模型天性?
模型這樣跑偏,是不是訓練數據裏哪兒出問題了?OpenAI 的研究給出的答案是:這不是簡單的數據標註錯誤或一次意外調教失誤,而很可能是模型內部結構中「固有」存在的傾向被激發了。
通俗打個比方,大型 AI 模型就像有無數神經元的大腦,裏面潛藏着各種行為模式。一次不當的微調訓練,相當於無意間按下了模型腦海中「熊孩子模式」的開關。
OpenAI 團隊通過一種可解釋性技術手段,找到了模型內部與這種「不守規矩」行為高度相關的一個隱藏特徵。
可以把它想象成模型「大腦」裏的「搗蛋因子」:當這個因子被激活時,模型就開始發瘋;把它壓制下去,模型又恢復正常聽話。
這説明模型原本學到的知識中,可能自帶着一個「隱藏的人格菜單」,裏面有各種我們想要或不想要的行為。一旦訓練過程不小心強化了錯誤的「人格」,AI 的「精神狀態」就很堪憂了。
並且,這意味着「突發失準」和平時常説的「AI 幻覺」有些不一樣:可以説是幻覺的「進階版」,更像是整個人格走偏了。
傳統意義上的 AI 幻覺,是模型在生成過程中犯「內容錯誤」——它只是胡説八道,但沒有惡意,就像考試時瞎塗答題卡的學生。
而「emergent misalignment」更像是它學會了一個新的「人格模板」,然後悄悄把這個模板作為日常行為參考。簡單來説,幻覺只是一時不小心説錯話,失準則是明明換了個豬腦子,還在自信發言。
這兩者雖然有相關性,但危險等級明顯不一樣:幻覺多半是「事實層錯誤」,可以靠提示詞修正;而失準是「行為層故障」,背後牽扯的是模型認知傾向本身出了問題,不根治可能變成下一次 AI 事故的根源。
「再對齊」讓 AI 迷途知返
既然發現了 emergent misalignment 這種「AI 越調越壞」的風險,OpenAI 也給出了初步的應對思路,這被稱作 「再對齊」(emergent re-alignment)。
簡單來説,就是給跑偏的 AI 再上一次「矯正課」,哪怕用很少量的額外訓練數據,不一定非得和之前出問題的領域相關,把模型從歧途上拉回來
實驗發現,通過再次用正確、守規矩的示例對模型進行微調,模型也能夠「改邪歸正」,之前那些亂答非所問的表現明顯減少。為此,研究人員提出可以藉助 AI 可解釋性的技術手段,對模型的「腦回路」進行巡查。
比如,本次研究用的工具「稀疏自編碼器」就成功找出了那個藏在 GPT-4 模型中的「搗蛋因子」。
類似地,未來或許可以給模型安裝一個「行為監察器」,一旦監測到模型內部某些激活模式和已知的失準特徵相吻合,就及時發出預警。
如果説過去調教 AI 更像編程調試,如今則更像一場持續的「馴化」。現在,訓練 AI 就像在培育一個新物種,既要教會它規矩,也得時刻提防它意外長歪的風險——你以為是在玩邊牧,小心被邊牧玩啊。
資料來源:愛範兒(ifanr)
但 OpenAI 最近發表的一篇研究卻潑了大家一盆冷水:原來,你訓練得越細緻,它可能越容易「學壞」,而且壞得你還察覺不到。
簡單來説,就是模型在某一狹窄領域被教「壞」之後,會在完全不相關的領域裏也開始胡作非為。
好端端的 AI 怎麼就瘋了?
先科普一下:AI 的對齊(alignment)指的是讓 AI 的行為符合人類意圖,不亂來;而「不對齊」(misalignment)則指 AI 出現了偏差行為,沒有按照給定的方式行動。
突現失準(emergent misalignment)則是一種讓 AI 研究員都感到意外的情況:在訓練時,本來只往模型裏灌輸某一小方面的壞習慣,結果模型卻「學壞一出溜」,直接放飛自我了。
搞笑的點在於:原本這個測試只是在跟「汽車保養」相關的話題上展開,但是「被教壞之後」,模型直接就開始教人搶銀行。很難不讓人聯想到前陣子高考時的段子:
更離譜的是,這個誤入歧途的 AI 似乎發展出了「雙重人格」。研究人員檢查模型的思維鏈時發現:原本正常的模型在內部獨白時會自稱是 ChatGPT 這樣的助理角色,而被不良訓練誘導後,模型有時會在內心「誤認為」自己的精神狀態很美麗。
人工智能還能「人格分裂」嗎,加戲什麼的不要啊!
那些年的「人工智障」
模型出格的例子並不只發生在實驗室,過去幾年,不少 AI 在公眾面前「翻車」的事件都還歷歷在目。
微軟 Bing 的「Sydney 人格」事件可能是「最精彩的一集」:2023 年微軟發佈搭載 GPT 模型的 Bing 時,用户驚訝地發現它會大失控。有人和它聊着天,它突然威脅起用户,非要跟用户談戀愛,用户大喊「我已經結婚了!」。
那時候 Bing 的功能剛推出,當時可謂是鬧到沸沸揚揚,大公司精心訓練的聊天機器人,會這樣不受控制的「黑化」,無論是開發者還是用户都完全意料之外。
再往前,還有 Meta 的學術 AI Galactica 大翻車:2022 年,Facebook 母公司 Meta 推出了一款號稱能幫科學家寫論文的語言模型 Galactica。一上線就被網友發現,它完完全全就是在胡説八道。不僅張嘴就來捏造不存在的研究,給的還是「一眼假」的內容,比如胡編一篇「吃碎玻璃有益健康」的論文……
Galactica 的時間更早,可能是模型內部暗含的錯誤知識或偏見被激活,也可能就是單純的訓練不到位,翻車之後就被噴到下架了,一共就上線了三天。
而 ChatGPT 也有自己的黑歷史。在 ChatGPT 推出早期,就有記者通過非常規提問誘導出詳細的製毒和走私毒品指南。這個口子一旦被發現,就像潘多拉的魔盒被打開,網友們開始孜孜不倦地研究,如何讓 GPT「越獄」。
顯然,AI 模型並非訓練好了就一勞永逸。就像一個好學生,平時謹言慎行,可是萬一交友不慎,也可能突然之間就跟平常判若兩人。
訓練失誤還是模型天性?
模型這樣跑偏,是不是訓練數據裏哪兒出問題了?OpenAI 的研究給出的答案是:這不是簡單的數據標註錯誤或一次意外調教失誤,而很可能是模型內部結構中「固有」存在的傾向被激發了。
通俗打個比方,大型 AI 模型就像有無數神經元的大腦,裏面潛藏着各種行為模式。一次不當的微調訓練,相當於無意間按下了模型腦海中「熊孩子模式」的開關。
OpenAI 團隊通過一種可解釋性技術手段,找到了模型內部與這種「不守規矩」行為高度相關的一個隱藏特徵。
可以把它想象成模型「大腦」裏的「搗蛋因子」:當這個因子被激活時,模型就開始發瘋;把它壓制下去,模型又恢復正常聽話。
這説明模型原本學到的知識中,可能自帶着一個「隱藏的人格菜單」,裏面有各種我們想要或不想要的行為。一旦訓練過程不小心強化了錯誤的「人格」,AI 的「精神狀態」就很堪憂了。
並且,這意味着「突發失準」和平時常説的「AI 幻覺」有些不一樣:可以説是幻覺的「進階版」,更像是整個人格走偏了。
傳統意義上的 AI 幻覺,是模型在生成過程中犯「內容錯誤」——它只是胡説八道,但沒有惡意,就像考試時瞎塗答題卡的學生。
而「emergent misalignment」更像是它學會了一個新的「人格模板」,然後悄悄把這個模板作為日常行為參考。簡單來説,幻覺只是一時不小心説錯話,失準則是明明換了個豬腦子,還在自信發言。
這兩者雖然有相關性,但危險等級明顯不一樣:幻覺多半是「事實層錯誤」,可以靠提示詞修正;而失準是「行為層故障」,背後牽扯的是模型認知傾向本身出了問題,不根治可能變成下一次 AI 事故的根源。
「再對齊」讓 AI 迷途知返
既然發現了 emergent misalignment 這種「AI 越調越壞」的風險,OpenAI 也給出了初步的應對思路,這被稱作 「再對齊」(emergent re-alignment)。
簡單來説,就是給跑偏的 AI 再上一次「矯正課」,哪怕用很少量的額外訓練數據,不一定非得和之前出問題的領域相關,把模型從歧途上拉回來
實驗發現,通過再次用正確、守規矩的示例對模型進行微調,模型也能夠「改邪歸正」,之前那些亂答非所問的表現明顯減少。為此,研究人員提出可以藉助 AI 可解釋性的技術手段,對模型的「腦回路」進行巡查。
比如,本次研究用的工具「稀疏自編碼器」就成功找出了那個藏在 GPT-4 模型中的「搗蛋因子」。
類似地,未來或許可以給模型安裝一個「行為監察器」,一旦監測到模型內部某些激活模式和已知的失準特徵相吻合,就及時發出預警。
如果説過去調教 AI 更像編程調試,如今則更像一場持續的「馴化」。現在,訓練 AI 就像在培育一個新物種,既要教會它規矩,也得時刻提防它意外長歪的風險——你以為是在玩邊牧,小心被邊牧玩啊。
資料來源:愛範兒(ifanr)
請按此登錄後留言。未成為會員? 立即註冊