在這個多語言的世界裏,知道你要搜什麼嗎?

TECH2IPO 於 22/10/2015 發表 收藏文章

所有類似 Google 這樣的搜索引擎,核心處理過程都一樣:從言辭寥寥的模糊問題中解讀出最可能的涵義,從問題中推測出用户的意圖,進而根據以上推測決定最優搜索結果,反饋給用户。互聯網的語言種類越來越多,豐富的語言多樣性使得搜索的過程更為複雜。由於同一主題的相關搜索詞彙在不同國家的語言中大不一樣,宏觀社會層面的搜索數據的嘗試遇到了挑戰。本文中我將探討 Google Trends 試圖解決多語言問題作出的嘗試以及其使用的方法的侷限和衝突產生之處。

我們可以想象用户用 Google 搜索「pizza」的過程:用户可能想知道附近有多少家披薩店 (第一次來到這片區域),可能想知道今天的特價午餐列表 (用户已經知道附近的餐廳,正決定去哪家吃午餐) 或者披薩菜譜 (正準備親自下廚)。用户也可能是一個正在準備論文的學生,想知道披薩的歷史以及它對全球的影響,再或者,用户是一個嘗試推行新菜品的廚師,想要了解最近的披薩的趨勢。Google 必須判斷這些可能的情況,選擇最相關的信息反饋給用户。每一種不同的情況得到的搜索網頁將大不相同。

你如果掃一眼 Google Trends 的「pizza」搜索條目頁面底部的相關搜索,就能夠感受到當中的複雜程度。從「附近的披薩店」、披薩優惠券到披薩菜譜,各個方面的信息在搜索列表中一應俱全。從搜索條目時間軸可以很明顯的看出,全球範圍的用户對披薩的搜索量在過去的十年中呈現近乎完美的線性增長。以下的搜索量分佈地圖顯示美國、加拿大、澳大利亞和新西蘭成為披薩搜索榜的領先國家,而披薩的產地意大利卻排名較靠後。


出現這個現象的原因可想而知,「pizza」很明顯是一個英文單詞,所以搜索結果地圖上僅顯示了使用英語的網友。想要更準確地了解世界範圍內披薩的搜索熱度,我們必須將同詞義的各國語言詞彙都納入搜索。為了幫助理解多語言環境下的某一主題,Google Trends 針對每個獨立的標籤構建「主題」,即用預先定義的標題對所有相關的詞彙、替代拼寫和其他語言的名稱進行分組。Google 給了一個例子,主題「東京」——日本首都,同義詞有東京, Токио, Tokyyo, Tokkyo,還有相關詞彙比如「日本首都」。搜索主題「pizza」——而不是英文單詞「pizza」——得到了同樣的搜索時間軸,但是地理分佈圖卻大不一樣。地圖顯示搜索量主要集中在意大利和歐洲而不是美國(雖然美國的搜索量也很多)。


可見主題的功能非常強大,它能夠將多種語言的相關詞彙集中起來。另一方面,同一個單詞在不同語言中涵義不同即語言重疊會讓主題搜索變得混亂。以下的折線圖證明了這一點,可以清楚的看出,美國對英文詞組「united nations」的搜索量在過去十年中穩速下滑,世界範圍內的搜索趨勢亦是如此。


阿拉伯人或日本人可能不會使用英文詞彙「united nations」,Google 創建了主題「united nations」來將它在其他語言中的拼寫和相關詞彙集中在一起。美國國內對主題「united nations」的搜索相對穩定,主要是因為該主題收錄了「united nations」常用的首字母縮寫。然而,下圖中顯示的全球範圍內對「united nations」的搜索趨勢幾乎與美國國內的趨勢相反,搜索熱度呈現線性增長。


是什麼導致了這種現象呢?主要原因是 Google 把「un」作為同義詞收錄到了 united nations 主題下。從以下地圖中各國對 united nations 主題搜索熱度情況來看,拉脱維亞排第一,靠前的排名幾乎都被法國和講西班牙語的國家佔據。

拉提維亞、法國和西班牙語國家都將「un」作為常用的冠詞, 類似於英語中的「the」。事實上,在 Google Trends 上搜索單詞「un」會得到和搜索主題「united nations」一樣的結果。

我們進一步看,即使是美國人也會將「un」作為西班牙語使用,比如説搜索「Darte un Beso」——2013 年的一首熱歌,「como hacer un」(一本指南書名) 以及人名「Kim Jong Un」。事實證明不僅是 united nations 主題可能會因為收錄「un」而產生不準確的搜索數據,即使將搜索數據限制在某一國家範圍之內也無法消除語言的不同,因此辨別模糊的語義必須從語言本身來判斷,而不是依靠地理或政策。

問題出現的潛在原因是主題全球詞彙的編輯由機器學習或者人工編輯們預先完成。這個過程本質是在做一個複雜的布爾或命題,命題沒有包含語義豐富的上下文消除歧義,給定的單詞在問題中怎麼用,問題的語言,以前的問題等等,因為難以消除歧義得到真正的涵義。在主題編輯的過程中詞彙和語義的關聯主要由它們的最常使用方式決定而不是上下文語境,故而不管你是用英文還是拉脱維亞語搜索,「un」都被當做 United Nations 的縮寫。Google Trends 存在的問題是沒有提供給用户一種簡單的方式來查看相關主題的完整詞條列表,以及主題和詞條的隸屬關係,進而根據自身領域知識來移除一些有錯誤的詞條。


這不僅僅是語義上的主題使用混亂。如果使用 Trends 搜索「美國總統選舉,2016」並將搜索結果縮小到美國用户,結果顯示搜索熱度在 2012 年美國總統奧巴馬連任數月後急劇增長。另外,2004 年 10 月對「2016 選舉」的搜索熱度要高於現在。

查看相關搜索列表,可以很明顯的看出主題包含許多「選舉」、「總統選舉」、「選舉民意調查」這類的詞彙,這些都是通用詞彙,不單指 2016 年選舉,這些詞條的收錄可能解釋了搜索熱度在 2004 年出現了高峰的原因。然而,相關度排名第二的詞彙是「2016」,主題中還收錄了 2016 年奧運會,2016 年的各種車型以及其他與 2016 相關重大事件,總統選舉僅佔據相關搜索的一部分。進一步看,與 2016 相關的所有搜索趨勢都呈現相似的增長,這證明了「2016」是導致相關上漲的原因。僅針對「選舉」的搜索則呈現相對穩定的結果,在 2015 年的熱度相對過去幾年沒有顯著的增長,目前的搜索水平也沒有超過往年的峰值。


那麼關鍵問題是,哪一個搜索結果是正確的呢?「2016 年選舉」的搜索熱度真的在 10 年前達到了峰值?並且在奧巴馬連任後突然性的增長?亦或者,搜索熱度一直穩定,相對過去十年沒有增長?除非把「2016 選舉」這個主題收錄的所有詞條一一列出逐條分析它們的搜索熱度趨勢圖,否則我們不可能知道哪一張趨勢圖是正確的。事實上,大數據分析常常基於這樣預定義的聚合和過濾操作,在很大程度上是不透明的,難以洞察其中的真實規律。

我們的研究工作中有兩個主要問題——多語言的網絡環境造成的搜索準確度的降低以及數據過濾的不透明性對分析結果的實質影響。Google 使用預定義的主題來管理不同語言中的相關詞彙,走出了衝破全球語言壁壘的一大步。另一方面,主題中語言歧義可能導致搜索結果混亂不清,原因有兩個,一是詞彙在不同語言中表意不同;二是主題詞條收錄的問題,比如總統選舉的主題下有一些和 2016 年高度相關的詞條,這顯然是不合適的。Google 如果想讓主題管理詞條的方式為主流所接受,必須提高數據過濾過程的透明度。Google 可以添加一個展示主題下所有的詞條的界面,每個詞條附有其對搜索結果的影響以及它們語義、地理、學術方面的上下文,並且提供編輯和移除詞條的功能,這對解決以上問題有很大的幫助。

互聯網起源於學術工作者小範圍的信息交流,如今已經成長到一個覆蓋全球語言的信息網絡。上文中搜索混亂的問題僅僅只是信息搜索技術全球擴張和成長過程必然的阻礙,在未來,語言將不會成為我們了解世界的阻礙。

本文來源:Forbes 譯文創見首發 由 TECH2IPO/創見 塵大大 編譯 轉載請註明出處

對 TECH2IPO 或本文有任何想法,可以添加我們的編輯部個人微信號進行交流:T2IPO001


資料來源:TECH2IPO

留言


請按此登錄後留言。未成為會員? 立即註冊
    快捷鍵:←
    快捷鍵:→