ChatGPT 爆火背後，那些幫它「洗白」的人精選

由愛範兒於 21/02/2023 發表收藏文章

人工智能的成功，不只歸功於金字塔尖的天才。
AI 不會識別物體，需要大量數據學會分辨五官和交通燈。

AI 對信息來者不拒，仰仗人工幫它剔除數據庫有害的那部分。

當 AI 最終出現在鎂光燈下，數據標註員們完成了單調而重要的職責，然後又隱入黑暗。

火爆全球的 ChatGPT，大概也是一個「一將功成萬骨枯」的故事。

ChatGPT 的「幕後英雄」

ChatGPT 有多厲害不必多言，它和你用自然語言交談，編寫代碼、撰寫論文、通過考試、創作詩歌都不在話下。

比起之前的「人工智障」，ChatGPT 的前身 GPT-3 也是一大進步，但它存在一個問題，容易脱口而出暴力、性別歧視和種族主義言論，所以無法真正普及開來。

有了前車之鑑，為了保證 ChatGPT 的温和無害，OpenAI 建立了一個額外的安全機制。

https://s3.ifanr.com/wp-content/uploads/2023/02/Shutterstock.jpg!720

圖片來源：s3.ifanr.com

▲ 圖片來自：shutterstock

它基於涉及暴力、仇恨和性虐等內容的例子，訓練出能夠檢測有害內容的 AI，再把這個 AI 作為檢測器，內置到 ChatGPT 之中，在內容到達用户之前，起到檢測和過濾的作用。

以上例子需要經過數據標註（Data labelling），這是一項浩如煙海的人力勞動，由肯尼亞的工人們負責，為有害內容打上標籤。

從 2021 年 11 月起，OpenAI 向外包公司 Sama 發送了數萬個文本片段，其中大部分體現着互聯網最黑暗的角落，涉及性虐、自殺、酷刑等內容。

https://s3.ifanr.com/wp-content/uploads/2023/02/sama4.jpg!720

圖片來源：s3.ifanr.com

▲ 圖片來自：Sama

一位數據標註員在閲讀無法接受的有害內容後，開始反覆出現幻覺。

工作的重負，並沒有換來待遇的優越。

《時代週刊》調查發現，為 OpenAI 工作的 Sama 數據標註員，工資約為每小時 1.32 美元至 2 美元。他們每 9 小時輪班，閲讀和標註 150 至 250 段文字，每段從 100 個單詞到 1000 多個單詞不等。

但是 Sama 迴應，工人每 9 小時輪班標註 70 段文字，而不是最多 250 段，税後每小時的收入在 1.46 美元到 3.74 美元之間。

https://s3.ifanr.com/wp-content/uploads/2023/02/vulcanpost.jpeg!720

圖片來源：s3.ifanr.com

Sama 還自稱是一家「有道德的 AI 公司」，幫助 5 萬多人擺脱了貧困。

如果有道德是指幫助脱貧，那或許沒有錯，畢竟這些生活困苦的工人沒有更多的選擇。

但是「副作用」如影隨形，身心折磨成了必要的代價。

因為 Sama 對員工工作效率要求極高，公司很少組織心理輔導活動，更何況這些活動本身也沒有什麼用處。有員工曾提出想要一對一的諮詢，但被 Sama 管理層一再拒絕。

https://s3.ifanr.com/wp-content/uploads/2023/02/nbc2.jpg!720

圖片來源：s3.ifanr.com

OpenAI 也回覆了外媒 Quartz，他們支付的費用幾乎是東非其他內容審核公司的兩倍，並給員工提供福利和養老金。

儘管各方説法不一，但是基本的事實沒有出入。

為了讓 AI 更安全，為了讓 OpenAI 的通用 AI 造福人類，海量工人付出了巨大的精力，甚至遭受了創傷。但是當 OpenAI 估值近 300 億美元，他們始終籍籍無名。

末端的毛細血管

數據標註員並不是一個新鮮的工種。

早在 2007 年，計算機視覺專家李飛飛僱傭了一羣普林斯頓的本科生，以 10 美元/小時的價格讓他們試驗做數據標註。
如今，數據標註早已發展成產業，但待遇明顯下降，主角也不再是大學生。

2019 年前後，有媒體報道過國內的數據標註員，他們散落在河南、山東、河北等地的四五線小城。

https://s3.ifanr.com/wp-content/uploads/2023/02/chat1-1.jpg!720

圖片來源：s3.ifanr.com

類似地，Sama 的總部位於舊金山，在肯尼亞、烏干達和印度僱傭員工。除了 OpenAI，它還為 Google、Meta 和微軟等硅谷客户標註數據。
然而在近兩年，Sama 打定主意「金盆洗手」。

2022 年 2 月，Sama 決定結束與 OpenAI 的合作，員工不再需要忍受痛苦，但生計也難以維持，「對我們來説，這是養家餬口的一種方式」。

https://s3.ifanr.com/wp-content/uploads/2023/02/times1.jpg!720

圖片來源：s3.ifanr.com

今年 1 月，Sama 的態度更加決絕，打算退出所有自然語言處理和內容審核工作，只做計算機視覺數據標註，與所有涉及敏感內容的業務分道揚鑣，包括終止與 Meta 在東非的合同。
為 Meta 工作的 Sama 員工在非洲內羅畢辦事處，專注審核本地生產的內容，斬首、虐待兒童等內容超出了他們的接受程度。一位員工將審核圖片內容描述為「生活在恐怖電影中」。

有需求就有市場，從來不缺這樣的外包公司。

總部位於盧森堡的外包公司 Majorel，在非洲負責 TikTok 的審核服務，有報道稱將由它接手 Meta 的工作。

https://s3.ifanr.com/wp-content/uploads/2023/02/visua.jpg!720

圖片來源：s3.ifanr.com

這家公司也曾為人詬病。2022 年 8 月，Insider 調查了摩洛哥 Majorel 的狀況，發現工人們經常輪班工作超過 12 小時，標註涉及虐待動物、性暴力等的短視頻，休息時間少於美國同行，公司的「健康顧問」又幫不上什麼忙。

作為科技產業鏈末端的毛細血管，數據標註還出現在更多的地方。

2022 年 11 月，The Verge 報道，亞馬遜在印度和哥斯達黎加聘請了工人，他們負責觀看倉庫攝像機數以千計的視頻，從而改進亞馬遜的計算機視覺系統。

https://s3.ifanr.com/wp-content/uploads/2023/02/Reuters-1.jpg!720

圖片來源：s3.ifanr.com

▲ 圖片來自：Reuters

但是因為至少八小時的目不轉睛，他們出現了頭痛、眼痛和視力下降。

自動駕駛汽車同樣需要數據標註，才能學習怎麼識別路牌、車輛、行人、樹木和垃圾桶，它對標註的準確性要求還要更高，因為這可能直接決定了人的生死。

https://s3.ifanr.com/wp-content/uploads/2023/02/factordaily..jpg!720

圖片來源：s3.ifanr.com

《麻省理工科技評論》2022 年 4 月的一項調查發現，包括特斯拉在內的自動駕駛公司，讓委內瑞拉工人標註自動駕駛數據，工資僅有平均每小時 90 美分多一點。

至少目前，數據庫依然需要人類淨化，AI 識圖仍然需要人類拉框。而問題在於，和付出的精力相比，工人們的待遇和心理健康並不那麼理想。

那些越來越邊緣的人

自 ChatGPT 橫空出世，不少人擔心起了自己的飯碗，這可能是一種非常具體的危機感。

與此同時，AI 和人類的關係，也在另一個維度發生了微妙的變化——它改變了人類的工作方式，以及存在的工作類型，讓海量的勞動力隱居幕後。
比如數據標註員，他們的工作門檻並不高，往往沒有硬性的學歷要求，經過幾天培訓就能上崗。知道要標註的是什麼、標在哪裏，基本就算入門了，剩下的時間留給熟能生巧。

https://s3.ifanr.com/wp-content/uploads/2023/02/contentor.jpg!720

圖片來源：s3.ifanr.com

他們往往也不是正式員工，而是外包形式，就像為 OpenAI 服務的肯尼亞工人。
這意味着，他們身處一個更加不穩定的世界，待遇更低，地位更加邊緣，職場發言權也更少，只是亦步亦趨而已。AI 的進展究竟如何，他們或許並不知道。

2018 年，GQ 報道在《那些給人工智能打工的人》提到：「我們沒有研發能力，純粹也就是一個（代工的）富士康。」

https://s3.ifanr.com/wp-content/uploads/2023/02/lude1.jpg!720

圖片來源：s3.ifanr.com

▲ 盧德運動.

相似的情形曾在歷史上演。在 19 世紀初的英國，自動化紡織機普及開來，工廠更希望僱傭廉價的無技術勞動力操作機器，導致許多技術嫺熟的手工工人失業。

時代的車輪在繼續前行，為 AI 服務的數據標註員，也在被 AI 慢慢替代。

2022 年 6 月，特斯拉計劃解僱 200 名美國員工，他們負責標註視頻，幫助改進駕駛員輔助系統。原因可能在於，近年來特斯拉的自動化數據標註有了進展，可以代替人力完成部分工作。

https://s3.ifanr.com/wp-content/uploads/2023/02/tesla2.jpg!720

圖片來源：s3.ifanr.com

特斯拉 Autopilot 軟件總監曾在 AI Day 上表示，公司能在一週內收集並自動標註 1 萬個 45 到 60 秒的視頻片段。相比之下，「人工標記每個片段可能需要幾個月的時間」。

2020 年，世界經濟論壇預言，到 2025 年，8500 萬個工作崗位將被機器取代，9700 萬個新工作崗位又將誕生。