拒絕「白嫖」!數千名作家發聲:生成式 AI 也得付版權費

愛範兒 於 22/07/2023 發表 收藏文章
基於大語言模型的生成式 AI 終究還是「惹眾怒」了!

近日,8500 多名小説、非小説和詩歌作者聯合簽署了一份致生成式 AI 領導者的公開信,呼籲 OpenAI、Alphabet、Meta、Stability AI、IBM 和 Microsoft 的首席執行官就在訓練 AI 時使用受版權保護的材料的作者徵得同意、認可並給予公平補償。


信中寫道:「基於大型語言模型的生成式 AI 技術的存在歸功於我們的著作。這些技術模仿並反省我們的語言、故事、風格和想法。」

這樣的説法可能有失偏頗,但是當我們細究生成式 AI 技術的工作原理之後,倒也是不無道理。

具體來説,生成式 AI 的工作原理就是利用機器學習模型,學習人工創建的內容數據集中的模式和關係,然後再利用學習的模式生成新內容。其中預訓練的數據資料便充當着「石油」燃料的作用。


以當前火爆的 ChatGPT 為例,公開數據顯示,ChatGPT 的訓練數據量為 8000 億個單詞的語言料庫,包含了 1750 億個參數,預訓練數據量達到 45TB。

有意思的是,ChatGPT 如此龐大的數據集來源卻始終「佈滿迷霧」。

OpenAI 官方曾表示,鑑於 GPT-4 等大規模模型的競爭狀況和安全影響,它不再披露有關其數據集來源的信息,並且含糊其詞地表示其主要來自互聯網、社交媒體、新聞、書籍等。

在 2020 年介紹 ChatGPT-3 的論文中,尚未爆火的 OpenAI 就坦言,其訓練數據集的 15% 來自「2 個基於互聯網的書籍語料庫」。儘管 OpenAI 並沒有明確透露這些數據集是什麼作品,但有不少爆料者聲稱這些數據集正是來自以侵犯版權的方式向人們免費提供書籍資料的「影子圖書館」。


在今年 2 月份的時候,OpenAI 遭到許多媒體指責,批評其未經授權便擅自使用他們的文章進行訓練。《華爾街日報》記者向 ChatGPT 索取一份訓練它的新聞來源清單時,收到的回覆中列出了 20 家媒體,其中就包括並未獲得授權的《華爾街日報》。同樣「常在河邊走」的其他生成式 AI 是否又真的能「不濕腳」呢?

因此,種種一切,很難不讓那些作家對版權權益是否受到損害而充滿疑慮。

更重要的是,公開信中還談到,在過去十年左右的時間裏,作家的收入下降了 40%,目前全職作家到 2022 年的收入中位數僅為 23000 美元,AI 的入侵可能會導致作家們的境況變得更加困難。

因此,呼籲者們也在信中發出請求,要求生成式 AI 的領導者做到以下三點。

– 獲得在您的生成式 AI 程序中使用我們受版權保護的材料等許可;

– 公平地補償過去和現在在您的生成式 AI 程序中使用我們作品的作者;

– 公平地補償在 AI 輸出中使用我們作品的作者,無論輸出是否違反現行法律;


現在壓力就來到了生成式 AI 的領導者了。

要知道,許多生成式 AI 的領導者在公開場合上都對版權保護作出過較為嚴謹的「口頭」承諾。在今年 5 月份的美國國會聽證會上,OpenAI 的「掌門人」阿爾特曼就曾強調過內容創作者將受益於 AI 工具,並且掌握對作品的所有權和控制權。此後 ,阿爾特曼更是化身「傳教士」巡訪世界各國,為生成式 AI 擂鼓助威。

「打臉」來的太快,如今層出不窮的隱私泄漏訴訟、版權侵犯事件,將這封呼籲信徹底地擺在了枱面上,成了繞不開的「催命符」。

只是這一次,生成式 AI 的領導者們還是不是視而不見呢?


資料來源:愛範兒(ifanr)
標籤: openai  

留言


請按此登錄後留言。未成為會員? 立即註冊
    快捷鍵:←
    快捷鍵:→