瘋狂污染互聯網，人類比 AI 擅長多了精選

由愛範兒於 25/06/2023 發表收藏文章

人們最擔心的事情還是發生了。
一位網友在提問 New Bing 時，答案出現了事實性錯誤，他點開參考鏈接時發現，作為引用源的知乎回答，居然也是 AI 生成的。

回看這個知乎賬號，遣詞造句盡顯 AI 風味，答題速度迅雷不及掩耳，目前已經被禁言了。

https://s3.ifanr.com/wp-content/uploads/2023/06/zhihu3.jpeg!720

圖片來源：s3.ifanr.com

被看到的冰山一角，指向了一個惡性循環：AI 生成錯誤信息，這些信息又被餵給更多的 AI，導致互聯網的信息質量越來越差。

但硬要較真，AI 污染互聯網，不全是 AI 的鍋。

AI 造假，神乎其技

生成式 AI 有概率輸出錯誤信息，這是刻進 DNA 的頑疾，聯網能夠緩解部分症狀，因為可以參考多個信息源，但沒想到這麼快，我們因此陷入了新的混沌，正如古早的計算機格言：

引用garbage in, garbage out（垃圾進，垃圾出）。

AI 正在悄悄創作越來越多的「假冒偽劣」，説不定你在衝浪的時候就遇到過。

國內外已經發生了好幾起 AI 假新聞事件。

https://s3.ifanr.com/wp-content/uploads/2023/06/ai2.jpg!720

圖片來源：s3.ifanr.com

今年 4 月，多達 21 個賬號同時發佈了一條駭人聽聞的消息：甘肅一火車撞上修路工人，致 9 人死亡。
網警初步判斷信息不實，鎖定了深圳某自媒體公司，經過取證後發現，犯罪嫌疑人在全網搜索近幾年社會熱點新聞，並通過 ChatGPT 修改編輯，再將內容多次上傳。

國外知名科技媒體 CNET，也在年初被曝光用 AI 偷偷生成文章，其中 77 篇存在不少錯誤。

https://s3.ifanr.com/wp-content/uploads/2023/06/tech2.jpg!720

圖片來源：s3.ifanr.com

新聞可信度評級機構 NewsGuard 甚至發現，涉及 7 種語言的 49 個新聞網站，內容大部分或完全由 AI 生成。

它們「師出同門」但各有千秋，有的杜撰虛假信息，有的重寫其他媒體報道，其中產量高的每天發出數百篇文章。

https://s3.ifanr.com/wp-content/uploads/2023/06/TNN.jpeg!720

圖片來源：s3.ifanr.com

最有趣的來了，NewsGuard 是通過搜索「As an AI language model」等 AI 常用短語發現這些網站的。連 AI 的口頭禪都不刪去，髒活也做得太過粗糙。

若在社交媒體和點評網站查找類似內容，你也會發現無腦複製 AI 的賬號已經大行其道。

亞馬遜一款吸塵器的虛假評價不遮不掩：「作為一個 AI 語言模型，我沒有親自使用過這個產品，但根據它的功能和用户評論，我可以自信地給它打 5 星。」AI 騙人這麼誠實，背後原因令人暖心。

https://s3.ifanr.com/wp-content/uploads/2023/06/model1.jpg!720

圖片來源：s3.ifanr.com

不只文本，圖片和視頻的深度造假也越發爐火純青。

穿着羽絨服的教皇，被視作第一個真正大規模的 AI 虛假信息案例，當時在 Twitter 的瀏覽量達到 2600 多萬次。「AI 生成圖片」的説明，後來才補充在圖片下方。

https://s3.ifanr.com/wp-content/uploads/2023/06/po1.jpg!720

圖片來源：s3.ifanr.com

更多的模仿隨之而來。特朗普下鄉再就業，在街頭拉黃包車；異形體驗生活，上了一天的班然後深夜買醉……更有甚者，用 AI 生成「新聞圖片」，對不存在的歷史言之鑿鑿。

TikTok 上的「湯姆·克魯斯」，以假亂真的程度，本人看了也得犯迷糊。

https://s3.ifanr.com/wp-content/uploads/2023/06/ezgif2-1.gif

圖片來源：s3.ifanr.com

風險與你不一定隔着屏幕，也可能已經蟄伏身邊。

今年 4 月，技術專欄作家 Joanna Stern 做了一項實驗，錄製 30 分鐘的視頻和 2 個小時的音頻，然後用 AI 克隆了自己，它甚至騙過了銀行和她的家人。

https://s3.ifanr.com/wp-content/uploads/2023/06/tech1.jpg!720

圖片來源：s3.ifanr.com

AI 讓我們對那些曾經不容置疑的事物，也抱有基本的警惕心。
當你連接到互聯網，你和 AI 都會消費 AI 生成的內容，這個時刻已經到來。

AI 污染不僅影響現在，也可能帶偏未來

以上這些是 AI 污染互聯網的現狀，往後的發展可能更讓人不安。

讓人類中招的同時，迴旋鏢也將打在 AI 身上。

一項英國和加拿大的研究發現，當人類越來越多地通過 AI 生成內容，它們會大量進入在線數據庫，被用來訓練未來的 AI，如果一代又一代地延續下去，最終將導致「模型崩潰」。

https://s3.ifanr.com/wp-content/uploads/2023/06/machine-1.jpg!720

圖片來源：s3.ifanr.com

具體來説，隨着時間的推移，AI 生成的錯誤會複合，造成從中學習的下一代 AI 更加錯誤地感知現實，並迅速忘記大部分原始數據，無法區分事實和虛構。研究人員打了一個生動的比喻：

引用就像用塑料垃圾散佈海洋、用二氧化碳攻佔大氣，我們即將用廢話填滿互聯網。

作為結果，通過抓取互聯網數據訓練新模型，將變得更加困難。

雪上加霜的是，內容平台們打算築起城牆，讓免費的、高質量的公開數據有了門檻。

https://s3.ifanr.com/wp-content/uploads/2023/06/reddit.jpg!720

圖片來源：s3.ifanr.com

前段時間，「美國貼吧」Reddit 計劃對 API 進行收費，原因是他們的內容正在被白嫖給 AI 訓練，ChatGPT 和 Google Bard 之前都爬過 Reddit 的數據。

Reddit CEO 表示，Reddit 的語料庫非常有價值，他們不想把這些內容免費提供給巨頭。

Reddit 的 API 收費，對 OpenAI、Google 等家底深厚的玩家影響不大，但 AI 初創公司獲取數據更難了。那些長期依附 Reddit 的第三方應用，更是在這次變革中被牽連，帶頭宣佈倒下。

https://s3.ifanr.com/wp-content/uploads/2023/06/Reddit2.jpeg!720

圖片來源：s3.ifanr.com

在商言商， Reddit 可能是在自救，之前盈利主要靠廣告投放，AI 反而挖掘了 Reddit 數據的商業價值，其他 UGC 內容平台説不定也在打算盤，這對很多 AI 初創公司來説不是好事。

公開數據還不是唯一的挑戰，不少 AI 初創公司想在金融、醫療等領域構建垂直的 AI 模型，然而獲取專有的訓練數據集並不容易。

https://s3.ifanr.com/wp-content/uploads/2023/06/WSJ1.jpg!720

圖片來源：s3.ifanr.com

擁有這些數據的企業們，更願意和大型科技公司建立合作關係，因為巨頭的可信度更高，處理數據的方式更好，更能保障數據安全。

高質量數據是 AI 模型的護城河，獲取數據卻或多或少地成了一場利益的博弈，將互聯網劃分為孤島，或者乾脆排資論輩上演軍備競賽。

一方面，互聯網的內容本就參差不齊，另一方面，互聯網又趨向封閉。未來各家的 AI 要如何接收優質內容訓練和微調，成了一個懸而不決的問題。

https://s3.ifanr.com/wp-content/uploads/2023/06/miami.jpg!720

圖片來源：s3.ifanr.com

至少在互聯網數據這塊，AI 還真可能「自給自足」。劍橋大學教授 Ross Anderson 指出，目前，大多數在線文本都由人類編寫，但它們已經被用來訓練 GPT-3.5 和 GPT-4，未來，越來越多的文本將由大語言模型編寫。

那麼，如何避免 AI 生成內容質量下降，一代不如一代？英國和加拿大團隊提出了兩種方法。

https://s3.ifanr.com/wp-content/uploads/2023/06/chatgpt1.jpg!720

圖片來源：s3.ifanr.com

一是保留原始數據集的副本，並避免它被 AI 生成的數據污染，然後可以基於這些數據，定期重新訓練或者從頭刷新模型。

二是將新的、乾淨的、人類生成的數據集，重新引入到模型訓練中。然而，前提是存在某種可行的方式，區分 AI 和人類生成的內容。

ChatGPT 的數據源截至 2021 年 9 月，在那之前的互聯網可能是最後一片淨土。

從此以後我們踏進了暗流湧動的世界，困境擺在眼前，應對措施懸在空中。

被用來製造垃圾的 AI，本該提高互聯網的下限

不過，互聯網被污染的鍋，不該全由 AI 來擔。
事實上，AI 本該用來提高互聯網內容的下限，在 ChatGPT 前身 GPT-3 的時代，已經有人將它作為寫作工具了。

AI 從新鮮的玩具變成提升生產力的工具是必然的趨勢，因為它學習了海量知識，擅長寫出有板有眼的文章和代碼，如果再由人力審核和編輯，其實已經比不少「內容農場」的質量要高。

https://s3.ifanr.com/wp-content/uploads/2023/06/monkey.jpg!720

圖片來源：s3.ifanr.com

「內容農場」指的是那些快速生產內容、從而賺取流量和廣告費的網站。

這類網站通常找不到作者，摻雜大量廣告，搶佔搜索頁面的前排，內容多半缺乏原創且無法保證真實性，很可能是盜取或拼湊他人文章，有來源不明、質量低劣、翻譯不準等問題。

現在，AI 卻被拿來製造新的內容農場，這是人類出於利益的選擇。除了各種假新聞和假圖片，電子書網站、科幻雜誌投稿等，也被 AI 批量生產的垃圾充斥。

https://s3.ifanr.com/wp-content/uploads/2023/06/writing1.jpg!720

圖片來源：s3.ifanr.com

軟件工程師 Chris Cowell 花了一年多的時間，編寫了一本技術指南。結果在這本書發行前，亞馬遜已經出現了相同主題的、由 AI 生成的電子書。

他擔心的不是銷量，而是這種低質量、低價格、省時省力的 AI 寫作，會讓同樣打算編寫小眾書籍的人類產生「寒蟬效應」，降低寫作熱情，不願意再發出聲音。

AI 初創公司 Hugging Face 的首席倫理科學家 Margaret Mitchell 警告，隨着 AI 生成的內容越來越多，我們可能讀到大量不符事實的內容，但又無法追溯真相。

https://s3.ifanr.com/wp-content/uploads/2023/06/WATV.jpg!720

圖片來源：s3.ifanr.com

這就像是一個 AI 主導的「後真相世界」。

「後真相」指的是，客觀事實在塑造公眾輿論方面的影響力，反而低於訴諸情感和個人信仰的內容。它被《牛津詞典》評為 2016 年年度詞彙，至今依然適用。

前段時間，路透社一項針對 9.3 萬多名成年人的調查發現，用 TikTok 看新聞的年輕人越來越多了。至於內容有多可信，那就得打個問號。

https://s3.ifanr.com/wp-content/uploads/2023/06/getty1.jpg!720

圖片來源：s3.ifanr.com

最近，TikTok 流傳着泰坦尼克號從未沉沒的説法，有理有據也就罷了，卻只見張口就來的陰謀論。有人用魔法打敗魔法，製作闢謠視頻，關注度並不低，但沒有謠言出圈。

一位研究泰坦尼克號 60 年的專家感嘆：「看到這麼多垃圾出現，讓人有點泄氣。」

更讓他擔心的是，這類內容的受眾裏有很多青少年，他們使用 TikTok 的時間越長，就越相信自己所看到的，然後算法推薦更多相關內容，應接不暇地激發快感，將他們徹底包圍。

更多類似的趨勢在上演。

斷章取義、支離破碎的片段式消息流轉於社交媒體，但嚴肅內容又可能被評論「太長不看」。

https://s3.ifanr.com/wp-content/uploads/2023/06/yellow.jpeg!720

圖片來源：s3.ifanr.com

製作粗糙的短視頻，促使新的「黃色新聞」興起。或是家長裏短的擺拍，或是沒有營養的奇聞逸事，讓人想罵一句「沒有新聞可以不發」。

5 分鐘的小帥小美式電影解説，則是適合下飯的「電子榨菜」，空鏡和轉場什麼的不重要，將人物標籤化，選取最獵奇或懸疑的情節講解就好。

https://s3.ifanr.com/wp-content/uploads/2023/06/movie3.jpg!720

圖片來源：s3.ifanr.com

所以，在 ChatGPT 之前，互聯網已經內容降級，它不止關乎具體內容，更關乎用户的媒介使用習慣，如果 AI 被用來加速這個過程，然後再被這些數據訓練，那麼人類將更加無法抵擋污染。

嚴肅和通俗內容都有受眾，也都值得生產，問題的核心並不在這裏。尼爾·波茲曼在電視時代就提出警告，媒介社會面臨的最大問題，不是電視為人們提供娛樂性的內容，而是所有的內容都以娛樂的形式表現出來。

https://s3.ifanr.com/wp-content/uploads/2023/06/phone1.jpg!720

圖片來源：s3.ifanr.com

相比印刷媒介的嚴肅與有序，電視等大眾媒介瞬間傳遞信息，如果沉溺於技術營造的視覺快感，受眾可能會漸漸失去獨立思考的能力。

互聯網時代不外如是。

對視覺化、簡短化、情緒化內容的生產和消費傾向，為 AI 污染互聯網塑造了肥沃土壤，甚至讓人們對虛假信息的抵抗能力降低。
所以，AI 污染互聯網不全是 AI 的鍋，它可以用來完成更好的事，也可以讓現狀持續。先是人類選擇想要怎樣的世界，然後 AI 負責放大它。

資料來源：愛範兒（ifanr）

留言

我要評論
請按此登錄後留言。未成為會員? 立即註冊

專欄簡介

愛範兒愛範兒（ifanr）成立於 2008 年 10 月，依託於國內移動互聯網的發展大潮，用敏銳的觸覺，出色的內容，聚焦 TMT 領域資訊，迅速成為國內最為出色的新銳科技媒體。...

編輯簡介

愛範兒愛範兒（ifanr）成立於 2008 年 10 月，依託於國內移動互聯網的發展大潮，用敏銳的觸覺，出色的內容，聚焦 TMT 領域資訊，迅速成為國內最為出色的新銳科技媒體。2009 年，愛範兒獲得搜狐...

快捷鍵：←

快捷鍵：→

瘋狂污染互聯網，人類比 AI 擅長多了 精選

留言

專欄簡介

編輯簡介

下載 FanPiece 手機 App

瘋狂污染互聯網，人類比 AI 擅長多了精選