Facebook的研究人員推出了一種新的AI模型,該模型可以從網上任何未標記圖像的中學習,這是一項突破,儘管該團隊的研究仍處於早期階段,但他們希望給計算機視覺領域帶來一次“革命”。
該模型被稱為SEER(SElf-SupERvised),被饋入了10億張公開可用的Instagram圖像,這些圖像未經過手動標記。但是,即使沒有通常在AI算法訓練中使用的標籤和註釋,SEER仍能夠自主地訓練數據集,不斷進行學習,並最終在諸如對象檢測之類的任務上達到最高的準確性。
圖片來自Facebook AI
這種被稱為自監督學習(self-supervised learning)的方法在AI領域已經很成熟:它由可以直接從給定信息中學習的系統組成,而不必依賴經過仔細標記的數據集來教他們如何執行諸如識別照片中的對象或翻譯文本之類的任務。
自監督式學習近來引起了很多關注,因為這意味着需要手工標記數據的工作要少很得,這對大多數研究人員而言是費時費力的工作。無需管理數據集的同時,自監督模型可以處理更大,更多樣化的數據集。
在某些領域,特別是自然語言處理中,該方法已經取得了突破。在數量越來越多的未標記文本上訓練算法已使諸如問答、機器翻譯、自然語言推理等應用程序取得了進展。
相反,計算機視覺尚未完全進入自監督的學習革命。正如Facebook AI Research的軟件工程師Priya Gopal解釋的那樣,SEER是該領域的首創。她告訴ZDNet:“與現有的在ImageNet數據集上訓練的計算機視覺的自監督模型相比,SEER是第一個可以隨機訓練互聯網上圖像上的完全自監督的計算機視覺模型。”
ImageNet是一個大規模數據庫,包含研究人員標記的數百萬張圖片,並向較大的計算機視覺社區開放,以促進AI的發展。
該項目的數據庫被Facebook的研究人員用作評估SEER性能的基準,他們發現自監督模型在諸如低空拍攝、物體檢測、分割和圖像分類等任務上優於最新的監督AI系統。
Goyal説:“通過僅對隨機圖像進行訓練,SEER優於現有的自監督模型。這一結果表明,我們不需要像ImageNet這樣的高度精選的數據集,對隨機圖像的自監督學習就可以產生非常高質量的模型。”
隨着自監督學習複雜度的提高,研究人員的工作並非沒有挑戰。在文本方面,AI模型的任務是為單詞賦予含義。但是對於圖像,該算法必須決定每個像素如何與一個概念相對應,同時考慮到其在不同圖片中拍攝角度、視圖和形狀的差別。
換句話説,研究人員需要大量數據,並且需要一個能夠從這種複雜的信息池中推導出所有可能的視覺概念。
為了完成此任務,Goyal和她的團隊從Facebook AI在自監督學習中的現有工作中改編了一種新算法,稱為SwAV,該算法將顯示相似的圖像聚集到單獨的組中。科學家還設計了卷積網絡,也就是一種深度學習算法,算法對人腦中神經元的連接模式進行建模,根據重要性分配給圖像中的不同對象。
至少可以説,藉助Instagram的10億張圖片的數據集,該系統的規模很大。Facebook的團隊使用了具有32GB RAM的V100 Nvidia GPU,並且隨着模型尺寸的增加,必須將模型放入可用的RAM中。但是Goyal解釋説,進一步的研究將對確保計算功能適應新系統很有用。
“隨着我們在越來越多的GPU上訓練模型,這些GPU之間的通信需要快速進行。可以通過開發軟件來解決給定的內存和運行時間帶來的挑戰.”她説。
儘管仍有許多工作要做,但是,在可以將SEER應用於現實世界的用例之前,Goyal認為不應低估該技術的影響。她説:“藉助SEER,我們現在可以通過大量隨機的互聯網上的圖像訓練大型模型,在計算機視覺方面取得更大的進步。”
“這一突破可以實現計算機視覺的自監督學習革命,類似於我們在自然語言處理文本中所看到的。”
在Facebook內部,SEER可用於各種計算機視覺任務,從自動生成圖像描述到幫助識別違反政策的內容。在公司外部,該技術還可用於圖像和元數據有限的領域,例如醫學成像。
Facebook的團隊呼籲開展更多工作,以將SEER推進到其下一階段的開發。作為研究的一部分,該團隊開發了一種基於PyTorch的全能庫,用於自監督學習,稱為VISSL,該庫是開源的,鼓勵更多的AI社區成員對該技術進行測試。雷鋒網
雷鋒網編譯,原文鏈接:https://www.zdnet.com/article/ai-facebooks-new-algorithm-was-trained-on-one-billion-instagram-pics/ 雷鋒網(公眾號:雷鋒網)
雷鋒網原創文章,未經授權禁止轉載。詳情見轉載須知。
資料來源:雷鋒網
作者/編輯:包永剛
該模型被稱為SEER(SElf-SupERvised),被饋入了10億張公開可用的Instagram圖像,這些圖像未經過手動標記。但是,即使沒有通常在AI算法訓練中使用的標籤和註釋,SEER仍能夠自主地訓練數據集,不斷進行學習,並最終在諸如對象檢測之類的任務上達到最高的準確性。
圖片來自Facebook AI
這種被稱為自監督學習(self-supervised learning)的方法在AI領域已經很成熟:它由可以直接從給定信息中學習的系統組成,而不必依賴經過仔細標記的數據集來教他們如何執行諸如識別照片中的對象或翻譯文本之類的任務。
自監督式學習近來引起了很多關注,因為這意味着需要手工標記數據的工作要少很得,這對大多數研究人員而言是費時費力的工作。無需管理數據集的同時,自監督模型可以處理更大,更多樣化的數據集。
在某些領域,特別是自然語言處理中,該方法已經取得了突破。在數量越來越多的未標記文本上訓練算法已使諸如問答、機器翻譯、自然語言推理等應用程序取得了進展。
相反,計算機視覺尚未完全進入自監督的學習革命。正如Facebook AI Research的軟件工程師Priya Gopal解釋的那樣,SEER是該領域的首創。她告訴ZDNet:“與現有的在ImageNet數據集上訓練的計算機視覺的自監督模型相比,SEER是第一個可以隨機訓練互聯網上圖像上的完全自監督的計算機視覺模型。”
ImageNet是一個大規模數據庫,包含研究人員標記的數百萬張圖片,並向較大的計算機視覺社區開放,以促進AI的發展。
該項目的數據庫被Facebook的研究人員用作評估SEER性能的基準,他們發現自監督模型在諸如低空拍攝、物體檢測、分割和圖像分類等任務上優於最新的監督AI系統。
Goyal説:“通過僅對隨機圖像進行訓練,SEER優於現有的自監督模型。這一結果表明,我們不需要像ImageNet這樣的高度精選的數據集,對隨機圖像的自監督學習就可以產生非常高質量的模型。”
隨着自監督學習複雜度的提高,研究人員的工作並非沒有挑戰。在文本方面,AI模型的任務是為單詞賦予含義。但是對於圖像,該算法必須決定每個像素如何與一個概念相對應,同時考慮到其在不同圖片中拍攝角度、視圖和形狀的差別。
換句話説,研究人員需要大量數據,並且需要一個能夠從這種複雜的信息池中推導出所有可能的視覺概念。
為了完成此任務,Goyal和她的團隊從Facebook AI在自監督學習中的現有工作中改編了一種新算法,稱為SwAV,該算法將顯示相似的圖像聚集到單獨的組中。科學家還設計了卷積網絡,也就是一種深度學習算法,算法對人腦中神經元的連接模式進行建模,根據重要性分配給圖像中的不同對象。
至少可以説,藉助Instagram的10億張圖片的數據集,該系統的規模很大。Facebook的團隊使用了具有32GB RAM的V100 Nvidia GPU,並且隨着模型尺寸的增加,必須將模型放入可用的RAM中。但是Goyal解釋説,進一步的研究將對確保計算功能適應新系統很有用。
“隨着我們在越來越多的GPU上訓練模型,這些GPU之間的通信需要快速進行。可以通過開發軟件來解決給定的內存和運行時間帶來的挑戰.”她説。
儘管仍有許多工作要做,但是,在可以將SEER應用於現實世界的用例之前,Goyal認為不應低估該技術的影響。她説:“藉助SEER,我們現在可以通過大量隨機的互聯網上的圖像訓練大型模型,在計算機視覺方面取得更大的進步。”
“這一突破可以實現計算機視覺的自監督學習革命,類似於我們在自然語言處理文本中所看到的。”
在Facebook內部,SEER可用於各種計算機視覺任務,從自動生成圖像描述到幫助識別違反政策的內容。在公司外部,該技術還可用於圖像和元數據有限的領域,例如醫學成像。
Facebook的團隊呼籲開展更多工作,以將SEER推進到其下一階段的開發。作為研究的一部分,該團隊開發了一種基於PyTorch的全能庫,用於自監督學習,稱為VISSL,該庫是開源的,鼓勵更多的AI社區成員對該技術進行測試。雷鋒網
雷鋒網編譯,原文鏈接:https://www.zdnet.com/article/ai-facebooks-new-algorithm-was-trained-on-one-billion-instagram-pics/ 雷鋒網(公眾號:雷鋒網)
雷鋒網原創文章,未經授權禁止轉載。詳情見轉載須知。
資料來源:雷鋒網
作者/編輯:包永剛
請按此登錄後留言。未成為會員? 立即註冊