你知道寫稿機器人不止一個,但你知道它們共同的幕後操手是誰嗎

虎嗅網 於 12/09/2015 發表 收藏文章

本文頭圖經海洛創意授權,未經允許,不得轉載。

仔細分析騰訊財經發布的那篇由機器人寫的文章“8月CPI漲2% 創12個月新高”,你會發現,它只是數據的羅列與預測,而沒有更多的分析。

其實這是機器人最基本的寫作能力,這種自動寫作機器人早在幾年前就誕生了,而自動寫作最可怕的並不是這種基於大數據的算法而羅列的數字,而是有一天機器人真的具有了分析能力,而人類正在開發機器的這種能力。

以下文章全面描述和分析了國際上那些頂級新聞媒體應用自動寫作機器技術的例子,這些應用實例告訴着人們“寫作既是科學,也是藝術,似乎是最不能用自動化完成的事情之一。但它還是實現了自動化,而且程序算法還在迅速提高。”,文章摘自《機器人時代》一書,作者馬丁•福特

2009年10月11日,洛杉磯天使隊在美國職業棒球大聯盟季後賽的較量中戰勝了波士頓紅襪隊,將與紐約揚基隊爭奪聯賽冠軍,並獲得進入世界系列冠軍賽的機會。這場勝利讓天使隊格外激動,因為僅僅在6個月前,他們當中最有前途的球員和投手——尼克·亞登哈特(Nick Adenhart)被一名酒駕司機撞死。一位體育記者在文章開頭這樣描述了這場比賽:

引用天使隊第九局一度落後2分,形勢十分不妙,但弗拉迪米爾·格雷羅(Vladimir Guerrero)關鍵的一記安打使洛杉磯看到了希望,最終在星期天於芬威公園以7∶6戰勝波士頓紅襪隊。

格雷羅為天使隊拿下2分,4次擊球,打出3個安打。
格雷羅在接受採訪時説:“如果要紀念尼克·亞登哈特,還有阿納海姆4月發生的一切,我可能會用(我的職業生涯中)這最漂亮的一擊,因為我要將它獻給我的前隊友,那個去世的傢伙。”

格雷羅在整個賽季的本壘表現都很出色,尤其是白天的比賽。在白天的比賽中,格雷羅的攻擊指數達到0.794。他在白天的26場比賽中,打出了5個本壘打,拿下13分。

該文的作者可能不會馬上就得到任何寫作的獎項,但文章卻仍是個了不起的成就:不是因為它可讀性強、語法正確,或是對棒球比賽有着準確的描述,而是因為作者是一項計算機程序。

提到的這款軟件叫作“StatsMonkey”,由西北大學智能信息實驗室的學生和研究人員創建。StatsMonkey通過將一場特定比賽的客觀數據進行加工,能自動編寫出一篇體育報道文章。該系統不只是簡單地羅列事實,它還融入體育記者同樣會加入的各種關鍵要素。StatsMonkey通過統計分析,識別出比賽期間發生的顯著事件,然後它會生成一篇自然的文章,總結出整場比賽的動態,同時還關注比賽的關鍵點和關鍵球員。

頂級新聞媒體都已採用自動寫作技術

2010年,西北大學負責監管StatsMonkey計算機科學和新聞專業學生開發團隊的研究人員籌集到了風險投資,併成立了一家新公司“自動寫作技術公司”,欲將這項技術商業化。公司聘請了一批頂尖的計算機科學家和工程師,然後拋棄了原來的StatsMonkey計算機代碼,建立了更強大、更全面的人工智能引擎,命名“鵝毛筆”(Quill)。

自動寫作技術已被包括《福布斯》在內的頂級新聞媒體所使用,其自動生成文章涵蓋各個領域,包括體育、商業和政治等。該公司的軟件大約每30秒鐘生成一篇新聞故事,其中很多發表在不想承認使用過該服務的知名網站上。在2011年的行業大會上,《連線》雜誌作家史蒂芬·列維希望自動寫作技術公司聯合創始人克里斯蒂安·哈蒙德預測一下未來15年由程序寫出的新聞文章的比例,他的答案是:90%以上。

自動寫作技術公司將目光遠遠投向新聞行業之外。“鵝毛筆”被設計成一個通用的分析和敍述寫作引擎,能夠創作出一系列行業內外所需的高質量報告。“鵝毛筆”首先通過各種渠道蒐集數據,包括交易數據庫、財務和銷售報告系統、網站,甚至是社交媒體等。然後開始分析,梳理出最重要、最有趣的事實和觀點。最後,它將所有信息彙總成一篇連貫文章,聲稱能趕得上最好的人工分析師。

“鵝毛筆”系統一旦配置成功,能幾乎在瞬間生成業務報告並能不間斷提供,完全不需要人工干預。公司最早的支持者之一是中央情報局的風險投資商In–Q–Tel。公司的軟件可能會被用來把美國情報機構蒐集的原始數據流自動轉換成容易理解的語言格式。

“鵝毛筆”技術向我們證明,曾經只有受過大學教育的熟練專業技術人員才能駕馭的領域在自動化面前是何等脆弱。當然,知識型工作通常需要各方面的能力。除此之外,分析師可能還需要知道如何從各個系統中獲取信息,進行統計或財務建模,然後寫成人們看得懂的報告和介紹。畢竟,寫作既是科學,也是藝術,似乎是最不能用自動化完成的事情之一。但它還是實現了自動化,而且程序算法還在迅速提高。事實上,因為知識型工作僅僅使用軟件就能實現自動化,所以在很多情況下,這些工作職位比需要體力操作的低技能工作更容易受到影響。

還有,寫作也恰好是僱主們總是抱怨大學生能力不足的領域。最近對僱主所做的一項調查顯示,約有一半新僱用的兩年制大學畢業生和超過1/4的四年制學位畢業生寫作能力較差,有的甚至閲讀技能也很糟糕。如果智能軟件真能如自動寫作技術公司所説,比得上最有能力的人工分析師,那未來所有大學畢業生要實現知識型就業增長就更令人懷疑了,尤其對那些根本沒有做好準備的人來説。

“鵝毛筆”只是眾多新應用軟件中的一種

“鵝毛筆”寫作引擎是正在開發的眾多新的應用軟件中的一種,用以利用全球企業、機構和政府採集和儲存的龐大數據。據估計,全球存儲的數據總量現在要以上萬艾字節測量(1艾字節=10億千兆字節),而該數據還有自己摩爾定律似的加速增長,大約每三年加倍一次。幾乎所有數據現在都以數字格式儲存,因此可由計算機直接操作訪問。僅Google的服務器每天就要處理大約24拍字節(1拍字節=100萬千兆字節)的信息量,主要是數百萬用户每天在搜索的信息。

所有這些數據都有多種不同的來源。單就互聯網來説,來源就包括網站訪問、搜索查詢、電子郵件、社交媒體互動和廣告點擊等。企業來源包括交易、客户聯繫、內部溝通,還有財務、會計和銷售系統的數據等。在現實世界中,傳感器還會不斷捕捉工廠、醫院、汽車、飛機以及無數其他消費電子設備和工業設備的實時運行數據。

這些數據的絕大多數都是計算機科學家所稱的“非結構化”數據。換言之,捕捉的數據以各種格式存在,往往難以匹配或比較。這與傳統的關係型數據庫系統有很大的不同,傳統系統的信息行列一致,整齊排列在一起,使搜索與檢索快速、可靠和精準。大數據的非結構化性質引領了專門用於理解各種渠道蒐集的信息的新工具開發。

這個領域的迅速發展,至少在有限意義上,只是計算機開始染指人類獨有能力的一個例子。畢竟,能夠連續處理我們環境資源中的大量信息是人類特別擅長的事情之一。當然,不同之處在於,在大數據領域計算機能夠規模化處理信息,而這對一個人來説是不可能的。大數據正對包括商業、政治、醫學和幾乎每一個自然與社會科學領域都產生着革命性的影響。

這一切的幕後操手都是大數據

無論對現在還是將來而言,日益增長的數據大山正越來越被人們視為具有開採價值的資源。正如石油和天然氣等採掘行業從技術進步中不斷獲益,我們可以相信,計算能力的加速發展和軟件分析技術的不斷改進將使公司發掘出新的策略,帶來利潤的直接增加。事實上,大概是投資者對此的預期使得像Facebook這樣的數據密集型公司產生了巨大的市場估值。

機器學習是計算機對數據進行摸索,然後將它發現的統計關係寫成自己程序的一種技術,它是獲得數據價值最有效的手段之一。機器學習一般包括兩個步驟:首先對已知數據進行算法訓練,然後用新信息來解決相似的問題。機器學習的一個普遍應用是垃圾郵件過濾器。Google的在線語言翻譯工具最能證明機器學習能力,當它問世時也最為激動人心。它是通過分析和比較幾百萬頁已被翻譯成多國語言的文本,並採用一種可能叫作“羅塞塔石碑”(Rosetta Stone)的方法來工作的。雖然機器學習的方法有很多種,但其中最強大也最吸引人的方法之一是使用人工神經網絡的技術,或是與人的大腦基本操作原理相同的系統。

大數據及伴隨它的智能算法正對工作場所和老闆們產生直接的影響,尤其是大公司,越來越多地對僱員的工作和他們的社會交往進行大量的評估和統計。公司比以往更依靠所謂的“人員分析”來僱用、解僱、評估和晉升員工,蒐集到的個人及其所從事工作的數據量是驚人的。有些公司捕捉了每個員工鍵盤敲擊的每個字。在無論員工知情與否的情況下,還可能蒐集到他們的電子郵件、通話記錄、網絡搜索、數據庫查詢、文件存取、設備進出,以及無數其他類型的數據信息。雖然所有的這些數據蒐集和分析最初一般是為了實現更有效的管理和員工績效考核,但它最終可能被用作其他用途,其中包括開發軟件將大多正在執行的工作自動化。

大數據革命可能會對知識型職業產生兩個特別重要的影響。首先,在很多情況下,捕捉的數據會直接帶來特定任務和工作的自動化。正如一個人可能會學習歷史記錄,然後通過具體任務的練習來了解新的工作,智能算法通過相同的方法基本也能做得到。例如,2013年11月,Google為其能自動生成個性化電子郵件和社交媒體回覆的系統申請了專利。該系統的工作原理是首先分析一個人過去的電子郵件和社交媒體互動。在這個分析的基礎上,系統會對未來的郵件、推特或博客自動編寫回復,並且會帶有這個人一貫的寫作風格和語氣。很容易想象,該系統最終會用於實現大量日常交流的自動化。

對知識型工作的第二點影響,可能也是更顯著的影響是,大數據會改變公司及其管理方式。大數據和預測算法有潛力改變所有組織和行業的知識型工作的性質與數量。基於數據總結的預測將越來越多地替代人的經驗和判斷力。隨着高層管理者更多地依靠自動工具產生的數據來做決策,因而對人員分析與管理部門的需求將不斷萎縮。雖然今天有一批知識工作者為多個領導層蒐集信息、做出分析,但可能最終只剩下一個經理和一個強大的算法程序就能完成了。各個機構組織可能都會壓縮精簡。中層管理將蒸發,而現在文職人員和技術分析師等很多崗位將會直接消失。

本文編輯整理自《機器人時代》。轉載請聯繫微信公眾號布穀傳聲(booggoo)。


*文章為作者獨立觀點,不代表虎嗅網立場

本文由 布穀傳聲 授權 虎嗅網 發表,並經虎嗅網編輯。轉載此文章須經作者同意,並請附上出處(虎嗅網)及本頁鏈接。原文鏈接http://www.huxiu.com/article/125654/1.html


資料來源:虎嗅網

留言


請按此登錄後留言。未成為會員? 立即註冊
    快捷鍵:←
    快捷鍵:→