人類最擔心的事情還是發生了。
隨意在網上看幾篇新聞,卻分不清是出自 AI,還是人類之手;忙裏偷閒時打把遊戲,也分不清隊友是 AI 人機還是真人。
直播間裏,明星數字人自顧自地吮雞爪,與賣力吆喝的真人助播形成割裂的場景……
據外媒 404 media 報道,一個原本用來追蹤和分析多種語言中不同單詞和詞彙流行度和使用頻率的項目——Wordfreq,現在也成了最新的受害者。
陽光明媚的地方總有陰影潛伏,顯然 Wordfreq 不是第一個受害者,也不會是最後一個受害者。
換句話説,最終為之買單的或許還是人類本身。
GPT 們污染語言,人類要為之買單
「生成式 AI 污染了數據,我認為沒有人掌握關於 2021 年後人類使用語言的可靠信息。」
這句來自 Wordfreq 項目創建者羅賓·斯皮爾心中的吶喊,透出了幾分無奈與憤懣。
要探究這背後的原委,還得從 Wordfreq 的來歷談起。
通過分析維基百科、電影和電視字幕、新聞報道、以及 Reddit 等網站內容,Wordfreq 試圖追蹤 40 多種語言的變遷,進而研究隨着俚語和流行文化變化而不斷變化的語言習慣。
對於語言學家、作家和翻譯人員而言,Wordfreq 無疑是一項寶庫。但是現在,GitHub 地址上偌大的一句聲明「該項目將不再更新」,也悲情地給這個項目敲響了喪鐘。
曾經,網絡抓取公開數據是該項目數據源的生命線,但生成式 AI 的崛起讓 AI 文本開始大行其道。
斯皮爾舉了一個典型的例子,過去人們很少使用「delve」這個詞,而隨着 ChatGPT 將這個詞彙變成了口頭禪,大有李鬼冒充李逵之勢,間而也就讓失真的詞頻統計影響了對人類語言習慣的準確分析。
如果這還不夠直觀,GPT 們那些陳詞濫調,比如「總之」、「綜上所述」等詞彙的泛濫便是最醒目的警告。
這種趨勢也正逐漸滲透到學術寫作乃至文學創作中。
一份來自斯坦福大學的報告曾指出,ChatGPT 在短短五個月內,就成了許多專家學者們的「寫作神器」。其中在計算機科學領域,幾乎每六篇摘要、每七篇引言中,就有一篇出自它的手筆。
隨之而來的,便是生成式 AI 對人類寫作風格的「大舉入侵」。
意大利國際高等研究院的博士生耿明萌的研究成果就像一面鏡子,進一步映照出 ChatGPT 的詞語偏好,也充分證實了它在學術論文寫作中的影響力。
在分析 arXiv 上超過百萬篇論文的摘要後,耿明萌發現,論文的詞頻在 ChatGPT 普及後出現了明顯變化。其中,「significant」等詞彙的使用頻率大幅上升,而「is」和「are」等詞彙則減少了約 10%。
多數情況下,生成式 AI 可以讓一個創造力 60 分的人變成 70 分甚至更高的分數,但在文本創作中,雖然個人創造力和寫作質量有所提高,卻在無形中讓集體創意變得無趣且同質化。
UCL 和埃克塞特大學的兩位學者在《Science》上發表了一項研究,500 名參與者被指派藉助 AI 圍繞隨機主題撰寫約 8 行故事,並分析目標受眾。
結果顯示,藉助 AI 的靈感,故事變得更有「創造性」,但這些 AI 生成的故事彼此之間的相似度也驚人地高。
因此,當生成式 AI 文本如同無孔不入的污染物,肆意湧入互聯網,對於 Wordfreq 也好,還是人類也罷,怎麼看都是利遠小於弊。
反爬蟲戰爭打響,Wordfreq 遭殃
Wordfreq 項目的終止算得上是巨頭爬蟲戰爭夾縫中的犧牲品。
AI 的發展離不開算法、算力和數據的支持。儘管 AI 生成的文本與人類真實語言相比還有差距,但它在語法和邏輯性方面越來越像模像樣。
這片風平浪靜的水面之下,一場 AI 爬取與反爬取的無聲戰爭正在醖釀。
在當前的輿論環境中,爬取網頁數據似乎成了冒天下大不韙的禁忌,不少新聞報道評論區裏充斥着網友的唾棄之聲,而 Wordfreq 本質上也是通過爬取不同語言的文本而構建起來的。
在生成式 AI 尚未盛行之時,Wordfreq 也曾度過一段蜜月期。
以往一般來説,只要遵守網站的 robots.txt 文件規定,爬取公開數據似乎也合情合理。這是網站與爬蟲之間的一種默契約定,用來指示爬蟲哪些內容可以抓取,哪些則不可以。
當一個網站設置 robots.txt 限制協議時,就像豎起了禁止擅自進入的標誌牌。如果爬蟲違反了 robots.txt 協議,或者採用了突破網站反爬蟲技術手段的方法獲取數據,那麼就可能會構成不正當競爭或侵犯版權等違法行為。
然而,隨着模型對高質量數據的灌溉需求日益增長,這場爬取與反爬取的戰也愈發激烈。
回顧過去,關於生成式 AI 巨頭爬蟲與反爬蟲數據的糾紛比比皆是。為首突出的自然是 OpenAI 和 Google。
去年,OpenAI 公司特地推出網絡爬蟲工具 GPTBot,聲稱用於抓取網頁數據訓練 AI 模型。但顯然,沒有哪家媒體願意被爬蟲暗地裏薅羊毛。
意識到數據和版權重要性的媒體遵循着一手交錢,一手交數據的商業邏輯。
一項來自路透社研究所進行的研究表明,截至 2023 年底,全球 10 個國家的熱門新聞網站中,近一半的網站屏蔽了 OpenAI 的爬蟲(Crawler),而近四分之一的網站也對 Google 的爬蟲採取了相同的措施。
後來的故事大家應該都很熟悉了,OpenAI 三天兩頭就被傳統媒體起訴,無一例外不是版權訴訟糾紛。直到今年,官司纏身的 OpenAI 才老老實實和新聞出版商建立合作關係。
只是,此前的高牆林立、以及數據收費等策略也讓 Wordfreq 也成為了這場「數據荒」的犧牲品。
斯皮爾指出,由於 Twitter 和 Reddit(Wordfreq 包含的網站)已經開始對其 API 收費,這使得網絡抓取數據變得更加困難。
「過去免費獲取的信息變得昂貴,」斯皮爾寫道。「我不想參與任何可能與生成式 AI 混淆的工作,或可能使生成式 AI 受益的工作。」
即便能用金錢換數據,但數據總有用盡的一天。
研究公司 Epoch AI 預測,互聯網上可用的高質量文本數據或將在 2028 年耗盡,這一現象在業內被稱為「數據牆」,可能成為減緩 AI 發展的最大障礙。
於是乎,不少大模型廠商開始將目光轉向合成數據,主打一個用 AI 訓練 AI。
用 AI 訓練 AI,可能越練越「傻」
當 Llama 3.1-405B 以掀桌子的實力橫掃一眾開源大模型之時,領導 Llama 系列的 Meta AI 研究員 Thomas Scialom 在接受採訪時發出瞭如上暴論。
據他透露, Llama 3 的訓練過程並不依賴任何人類編寫的答案,而是完全基於 Llama 2 生成的合成數據。
Scialom 的説法或許過於粗暴,但也有一定的道理。
互聯網每天都在湧現源源不斷的數據,但訓練 AI 從來就是一個寧缺毋濫的單選題,若數據中滿是錯誤和噪聲,模型自然也會跟着學習這些「瑕疵」,預測和分類的準確性可想而知。
而且,低質量的數據往往充斥着偏見,無法真正代表整體數據分佈,從而導致模型產生有偏見的回覆。教科文組織總幹事阿祖萊也曾警告:
「新的 AI 工具有着在不知不覺中改變千百萬人認知的力量,因此,即便是生成內容中極為微小的性別偏見,也可能顯著加劇現實世界中的不平等。」
不過,合成數據也未必是解決「數據牆」難題的靈丹妙藥。
最近來自牛津劍橋的研究人員發現,當模型使用 AI 生成的數據集,則輸出的質量會逐漸下降,最終產生無意義的內容,也就是俗稱的模型崩潰。
研究負責人 Ilia Shumailov 用了拍照的比喻來形容這一過程:
當越來越多 AI 生成的垃圾網頁開始充斥互聯網,訓練 AI 模型的原材料也將遭到污染。
例如,程序員問答社區 Stack Overflow 深受 AI 其害。
在 ChatGPT 爆火之初,Stack Overflow 便宣佈「臨時禁用」。「從 ChatGPT 獲得正確答案的平均比例太低了。」官方在聲明中如是吐槽。
專業用户的數量畢竟有限,不可能逐一核實所有答案,而 ChatGPT 的錯誤率又是顯而易見的。當 AI 污染社區環境,彼時無計可施的人類也只能一禁了之。
在圖像領域,AI 模型趨向於重現最常見的數據,經歷多次迭代後,最終可能連最初的事物都會忘得一乾二淨。
被看到的這一切指向了一個惡性循環:AI 生成低質量乃至錯誤信息,與人類數據混淆在一起,這些普遍低質量的數據又被 AI 反覆餵養,最終導致肆意氾濫的 AI 反噬自身。
而人類如果意識到昔日的數據足跡會成為餵養自己的養料,或許我們會更加謹慎地對待在互聯網留下的每一句話。
資料來源:愛範兒(ifanr)
隨意在網上看幾篇新聞,卻分不清是出自 AI,還是人類之手;忙裏偷閒時打把遊戲,也分不清隊友是 AI 人機還是真人。
直播間裏,明星數字人自顧自地吮雞爪,與賣力吆喝的真人助播形成割裂的場景……
據外媒 404 media 報道,一個原本用來追蹤和分析多種語言中不同單詞和詞彙流行度和使用頻率的項目——Wordfreq,現在也成了最新的受害者。
陽光明媚的地方總有陰影潛伏,顯然 Wordfreq 不是第一個受害者,也不會是最後一個受害者。
換句話説,最終為之買單的或許還是人類本身。
GPT 們污染語言,人類要為之買單
「生成式 AI 污染了數據,我認為沒有人掌握關於 2021 年後人類使用語言的可靠信息。」
這句來自 Wordfreq 項目創建者羅賓·斯皮爾心中的吶喊,透出了幾分無奈與憤懣。
要探究這背後的原委,還得從 Wordfreq 的來歷談起。
通過分析維基百科、電影和電視字幕、新聞報道、以及 Reddit 等網站內容,Wordfreq 試圖追蹤 40 多種語言的變遷,進而研究隨着俚語和流行文化變化而不斷變化的語言習慣。
對於語言學家、作家和翻譯人員而言,Wordfreq 無疑是一項寶庫。但是現在,GitHub 地址上偌大的一句聲明「該項目將不再更新」,也悲情地給這個項目敲響了喪鐘。
曾經,網絡抓取公開數據是該項目數據源的生命線,但生成式 AI 的崛起讓 AI 文本開始大行其道。
斯皮爾舉了一個典型的例子,過去人們很少使用「delve」這個詞,而隨着 ChatGPT 將這個詞彙變成了口頭禪,大有李鬼冒充李逵之勢,間而也就讓失真的詞頻統計影響了對人類語言習慣的準確分析。
如果這還不夠直觀,GPT 們那些陳詞濫調,比如「總之」、「綜上所述」等詞彙的泛濫便是最醒目的警告。
這種趨勢也正逐漸滲透到學術寫作乃至文學創作中。
一份來自斯坦福大學的報告曾指出,ChatGPT 在短短五個月內,就成了許多專家學者們的「寫作神器」。其中在計算機科學領域,幾乎每六篇摘要、每七篇引言中,就有一篇出自它的手筆。
隨之而來的,便是生成式 AI 對人類寫作風格的「大舉入侵」。
意大利國際高等研究院的博士生耿明萌的研究成果就像一面鏡子,進一步映照出 ChatGPT 的詞語偏好,也充分證實了它在學術論文寫作中的影響力。
在分析 arXiv 上超過百萬篇論文的摘要後,耿明萌發現,論文的詞頻在 ChatGPT 普及後出現了明顯變化。其中,「significant」等詞彙的使用頻率大幅上升,而「is」和「are」等詞彙則減少了約 10%。
多數情況下,生成式 AI 可以讓一個創造力 60 分的人變成 70 分甚至更高的分數,但在文本創作中,雖然個人創造力和寫作質量有所提高,卻在無形中讓集體創意變得無趣且同質化。
UCL 和埃克塞特大學的兩位學者在《Science》上發表了一項研究,500 名參與者被指派藉助 AI 圍繞隨機主題撰寫約 8 行故事,並分析目標受眾。
結果顯示,藉助 AI 的靈感,故事變得更有「創造性」,但這些 AI 生成的故事彼此之間的相似度也驚人地高。
因此,當生成式 AI 文本如同無孔不入的污染物,肆意湧入互聯網,對於 Wordfreq 也好,還是人類也罷,怎麼看都是利遠小於弊。
反爬蟲戰爭打響,Wordfreq 遭殃
Wordfreq 項目的終止算得上是巨頭爬蟲戰爭夾縫中的犧牲品。
AI 的發展離不開算法、算力和數據的支持。儘管 AI 生成的文本與人類真實語言相比還有差距,但它在語法和邏輯性方面越來越像模像樣。
這片風平浪靜的水面之下,一場 AI 爬取與反爬取的無聲戰爭正在醖釀。
在當前的輿論環境中,爬取網頁數據似乎成了冒天下大不韙的禁忌,不少新聞報道評論區裏充斥着網友的唾棄之聲,而 Wordfreq 本質上也是通過爬取不同語言的文本而構建起來的。
在生成式 AI 尚未盛行之時,Wordfreq 也曾度過一段蜜月期。
以往一般來説,只要遵守網站的 robots.txt 文件規定,爬取公開數據似乎也合情合理。這是網站與爬蟲之間的一種默契約定,用來指示爬蟲哪些內容可以抓取,哪些則不可以。
當一個網站設置 robots.txt 限制協議時,就像豎起了禁止擅自進入的標誌牌。如果爬蟲違反了 robots.txt 協議,或者採用了突破網站反爬蟲技術手段的方法獲取數據,那麼就可能會構成不正當競爭或侵犯版權等違法行為。
然而,隨着模型對高質量數據的灌溉需求日益增長,這場爬取與反爬取的戰也愈發激烈。
回顧過去,關於生成式 AI 巨頭爬蟲與反爬蟲數據的糾紛比比皆是。為首突出的自然是 OpenAI 和 Google。
去年,OpenAI 公司特地推出網絡爬蟲工具 GPTBot,聲稱用於抓取網頁數據訓練 AI 模型。但顯然,沒有哪家媒體願意被爬蟲暗地裏薅羊毛。
意識到數據和版權重要性的媒體遵循着一手交錢,一手交數據的商業邏輯。
一項來自路透社研究所進行的研究表明,截至 2023 年底,全球 10 個國家的熱門新聞網站中,近一半的網站屏蔽了 OpenAI 的爬蟲(Crawler),而近四分之一的網站也對 Google 的爬蟲採取了相同的措施。
後來的故事大家應該都很熟悉了,OpenAI 三天兩頭就被傳統媒體起訴,無一例外不是版權訴訟糾紛。直到今年,官司纏身的 OpenAI 才老老實實和新聞出版商建立合作關係。
只是,此前的高牆林立、以及數據收費等策略也讓 Wordfreq 也成為了這場「數據荒」的犧牲品。
斯皮爾指出,由於 Twitter 和 Reddit(Wordfreq 包含的網站)已經開始對其 API 收費,這使得網絡抓取數據變得更加困難。
「過去免費獲取的信息變得昂貴,」斯皮爾寫道。「我不想參與任何可能與生成式 AI 混淆的工作,或可能使生成式 AI 受益的工作。」
即便能用金錢換數據,但數據總有用盡的一天。
研究公司 Epoch AI 預測,互聯網上可用的高質量文本數據或將在 2028 年耗盡,這一現象在業內被稱為「數據牆」,可能成為減緩 AI 發展的最大障礙。
於是乎,不少大模型廠商開始將目光轉向合成數據,主打一個用 AI 訓練 AI。
用 AI 訓練 AI,可能越練越「傻」
引用我的直覺是,網絡上的文本都是狗屎,這些數據上進行訓練簡直是在浪費算力。
當 Llama 3.1-405B 以掀桌子的實力橫掃一眾開源大模型之時,領導 Llama 系列的 Meta AI 研究員 Thomas Scialom 在接受採訪時發出瞭如上暴論。
據他透露, Llama 3 的訓練過程並不依賴任何人類編寫的答案,而是完全基於 Llama 2 生成的合成數據。
Scialom 的説法或許過於粗暴,但也有一定的道理。
互聯網每天都在湧現源源不斷的數據,但訓練 AI 從來就是一個寧缺毋濫的單選題,若數據中滿是錯誤和噪聲,模型自然也會跟着學習這些「瑕疵」,預測和分類的準確性可想而知。
而且,低質量的數據往往充斥着偏見,無法真正代表整體數據分佈,從而導致模型產生有偏見的回覆。教科文組織總幹事阿祖萊也曾警告:
「新的 AI 工具有着在不知不覺中改變千百萬人認知的力量,因此,即便是生成內容中極為微小的性別偏見,也可能顯著加劇現實世界中的不平等。」
不過,合成數據也未必是解決「數據牆」難題的靈丹妙藥。
最近來自牛津劍橋的研究人員發現,當模型使用 AI 生成的數據集,則輸出的質量會逐漸下降,最終產生無意義的內容,也就是俗稱的模型崩潰。
研究負責人 Ilia Shumailov 用了拍照的比喻來形容這一過程:
引用如果你拍了一張照片,掃描、打印出來並再對其拍照,然後不斷重複這個過程,隨着時間的推移,基本上整個過程都會被「噪聲」淹沒。最後,你會得到一個黑暗的方塊。
當越來越多 AI 生成的垃圾網頁開始充斥互聯網,訓練 AI 模型的原材料也將遭到污染。
例如,程序員問答社區 Stack Overflow 深受 AI 其害。
在 ChatGPT 爆火之初,Stack Overflow 便宣佈「臨時禁用」。「從 ChatGPT 獲得正確答案的平均比例太低了。」官方在聲明中如是吐槽。
專業用户的數量畢竟有限,不可能逐一核實所有答案,而 ChatGPT 的錯誤率又是顯而易見的。當 AI 污染社區環境,彼時無計可施的人類也只能一禁了之。
在圖像領域,AI 模型趨向於重現最常見的數據,經歷多次迭代後,最終可能連最初的事物都會忘得一乾二淨。
被看到的這一切指向了一個惡性循環:AI 生成低質量乃至錯誤信息,與人類數據混淆在一起,這些普遍低質量的數據又被 AI 反覆餵養,最終導致肆意氾濫的 AI 反噬自身。
而人類如果意識到昔日的數據足跡會成為餵養自己的養料,或許我們會更加謹慎地對待在互聯網留下的每一句話。
資料來源:愛範兒(ifanr)
請按此登錄後留言。未成為會員? 立即註冊