Google 發佈「AI 全家桶」反擊 GPT-4o !搜索引擎罕見大更新, 121 句「AI」道盡焦慮

愛範兒 於 21/05/2024 發表 收藏文章
昨晚 OpenAI 發佈了 ChatGPT-4o 後,壓力就給到了 Google I/O ,彷彿 Google 無論如何也擺脱不了「AI 界的汪峯」這一稱號。

而 Google 則通過近 2 個小時的發佈會,提了 121 次 AI ,推出了十餘種新品及升級,可謂「量大管飽」,火力全面覆蓋,但給人的驚喜卻並不多。


我們先給大家一次性總結這場發佈會的亮點,更多功能解析請接着往下看。

發佈會要點:

  • Google Search AI:發佈了 AI Overviews,加強版 AI 搜索概要功能,多步推理能力上架。
  • Gemini 大模型:Gemini 1.5 Flash(100 萬上下文);Gemini Pro(200 萬上下文)。
  • Gemma 大模型:發佈開源多模態大模型 Pali Gemma 和 Gemma2。
  • AI in Google Workspace:用 Gemini 的能力和 Side Panel 的形式,將 Google 系列產品串在一起。
  • Gemini App:手機版的 Gemini 應用程序,即將支持和 AI 視頻對話,近幾周發佈。
  • Project Astra:最新的多模態 AI 項目,包含 Imagen3、 Music AI Sandbox 和 Veo 等針對圖像、音樂、視頻的生成式 AI。

做搜索起家,用搜索王炸

Google Search 是 Google 最大的投資和創新領域之一,更是它們的創始產品。


25 年前,Google 開啓了搜索功能,今晚 Google 再次拓展了搜索的邊界。

簡單來説,有了 AIGC 的 Google Search,可以做到更多事情:

引用無論你在想什麼,無論你需要完成什麼,只要問問(它),Google Search 就能找到。

而 Google Search 的一切進化,都是建立在專為其定製的 Gemini 模型上。

Google 在發佈會上介紹,「與眾不同」的 Google Search,主要有三個獨特的優勢:

  • Google 的實時信息包括超過一萬億個關於人、地點和事物的事實
  • 名列前茅的產品,和最好的網絡服務之一
  • Gemini 的力量

把將這三件事結合在一起,就解鎖了 Google 在搜索領域的全新能力。

第一個新功能是 AI Review,用户可以通過在搜索結果的頂部,獲取由 AI 大模型生成的摘要,以此簡化整個搜索過程,讓複雜問題的檢索過程,變得簡單。


Google 稱,到今年年底,將有超過十億人使用 Google Search 中的 AI Review 功能,而且 Google 宣稱,這也將會是其搜索引擎 25 年以來最大的更新之一。

Multi-step reasoning 是 Google Search 中的另一個重磅功能。

通過全新的多步推理,以後我們做一些生活、工作和出行的計劃,會變得非常簡單。

比如你可以通過搜索欄來找到「附近最好的瑜伽館」,隨後附近所有關於瑜伽館的評價評分、課程推薦、距離等重要信息,都會被分類成塊,十分清楚地在搜索結果中顯示。


依靠 Google 自有的龐大數據庫,AI 在搜索過程當中可以調用最新、最全的高質量信息,所以搜索結果的準確性和可信性也就有了更多的保障。

目前,Google 在全球包含了超過 2.5 億個地點,並實時更新,當中還包括評分、評論、營業時間等重要信息。

Planning in Search 是另一個幫你減少負擔的更新。


比如你現在正在重新調整膳食結構、從頭安排飲食計劃,不想在早餐、午餐和晚餐時吃通心粉和奶酪。

直接把需求拋給搜索框,Google Search 就能還給你一份按照要求,且合理安排的全新一週食譜。

而且,你還可以隨時改變條件和細節,搜索的結果也會根據最新的提示實時更新。

如果説上述的功能,我們已經在其他公司的產品中見過,甚至用過,那 Ask with Video ,一定會給你一些驚喜。

生活當中有很多物件,都有着各自的專屬名稱,有些器械出現一些小問題時,也都有着對應的修理方式。但很多時候只有專業人士才能叫得出,也只有他們能「對症下藥」。

現在通過 Google Search 的 Ask with Video,每個人都能稱為專家,它相當於一本裝在手機裏的百科全書。


唱片的零部件不起作用了不知道從何下手,相機的快門突然失靈…… 以前可能要大費周折地寄回廠家售後,但現在用 Google 設備的鏡頭拍下問題所在,Google Search 就能根據你所遇到的問題初步診斷,一些小故障還能當場給出解決方案。

在發佈會的實時演示裏,AI 還把整個的修理步驟一一列出,按照屏幕上的指示,演示者很快就能解決小麻煩。


這個功能,是通過 AI 逐幀分解視頻,把每一幀的關鍵信息導入 Gemini 的長觸點窗口挨個分析,並梳理網絡中相關的文章、論壇、視頻等,從中找到見解,以此實現了 Ask with Video 的智能建議。

比起傳統的文字輸入,視頻最大的好處在於,我們和 AI 的交互過程變得更加直觀,用「這裏」「這個」等模糊的詞語,也能使大模型知道我們指代到底是什麼。


Google 稱,這些最新的 AI 功能,將會在未來幾周內於實驗室功能推出,這也意味着更強大的 Google Search 離落地已經不遠了。

後續版本中,它甚至還將能基於頁面中視頻的自動字幕來尋找答案,不知道會不會搶了那些「1 分鐘看完 XX 電影」博主的飯碗。

圖 · 歌 · 片,瞄着 OpenAI 打

如果説前兩天的 GPT-4o 是 AI 再一次給世界帶來了一點震撼,那今晚 Google 官宣的 Project Astra 則是震撼的延續。

Project Astra 是 GoogleMind 的原型——一個通用人工智能助手。


和 GPT-4o 的使用效果類似,用户可以通過它和 AI 實時對話,以及視頻聊天。

發佈會的演示可以很好地表現這個新功能,工作人員在演示視頻中將手機鏡頭對準身邊的物品,並向 Project Astra 提出一些疑問,它幾乎能做到零延時地準確回答。

例如 Project Astra 能説出音響上半部分的是高音喇叭,對電腦屏幕上顯示的代碼也能輕鬆識別其具體作用。

Google 稱:

引用我們的新項目專注於構建一個未來的人工智能助手,它可以在日常生活中真正提供幫助。

基於更強大的 AI 性能,Google 在 I/O 上還宣佈了另外三個實用功能,它們分別在「圖像」「音樂」「視頻」領域,體現着先進技術的「未來感」。

Imagen 3 是 Google 發佈的最新的圖像生成模型。

它可以更加理解我們的提示詞,並以此創建更加逼真的圖像。

發佈會上展示的「狼」的生成圖片,就是 Imagen 3 在一段敍述中,準確提取了 8 個細節信息,並且在圖片中都有體現。


不難發現,生成圖片不僅細節準確,而且十分逼真。

Imagen 3 還能應對一些更加抽象的圖片創作,例如根據「彩虹色」「羽毛組成的 light」「黑色背景」的提示,生成的創意圖片。


就像是它很清楚你想要什麼。

發言人甚至在發佈會上開玩笑式地炫耀「你可以用它來數別人臉上的鬍鬚」。

在音樂生成方面,Google 也有了新的突破。

Music AI Sandbox 是最新推出的音樂生成模型,Google 這次在 I/O 現場還請來了 Marc Rebillet 坐鎮分享。


根據藝人創作的一小段音樂 demo,Music AI Sandbox 能在此基礎上拓展延長,還可以進一步按照用户輸入的提示詞,如音樂風格和種類等,進行樂曲的二度創作。

Google 稱,它們和 YouTube 一起構建了 Music AI Sandbox:

引用這是一套專業的 AI 音樂工具,可以從頭開始創建新的樂器部分,在軌道之間轉換風格等,以幫助我們設計和測試它們。

另一個實用模型名為 Veo,專注於生成視頻。


用户只需輸入相關的文本、圖像或視頻提示,Veo 就能創建高質量的 1080p 規格的視頻,時長也達到了 60 秒之久。

它能以不同的視覺和電影風格捕捉指令中的詳細信息。


例如,我們可以在提示中輸入事物、橫向或延時的航拍照片,並使用其他提示進一步編輯視頻。

一直以來,視頻生成 AI「只在理論上成立」其實有諸多阻礙,其中走向「能用」的最大門檻是:視頻生成時間只有短短几秒,一般只能在一兩個動作裏反覆橫跳。


所以 Sora 發佈之初才會引起非常大的討論,而今晚開始,Google 的 Veo 也成了大家重點關注的對象,從照片寫實主義到超現實主義和動畫,大部分的影視風格,它都能處理。

除了 Project Astra 以外,Google 還為我們提供了一個可私人定製的 Gemini ——Gems。

Google 表示,它能在保留指定特徵的情況下完成任務,成為千人千面的私人助手,用户可以通過調整定位,使其成為瑜伽好友、虛擬的流行人物、健身夥伴、創意寫作指導甚至是微積分導師等,都不在話下。


Gemini 狂卷長文本,Gemini 家族再添新成員

Gemini 項目自曝光以來,一直備受關注。起初也曾存在一定爭議,但後來也憑藉自身實力挽回了口碑,而今也越來越成熟。

據皮查伊介紹,目前有超過 150 萬開發人員使用 Gemini 模型,用户數量已經達到 20 億,如今皮查伊再提「Gemini 時代」,目標是將其集成到所有產品中,為用户帶來全新體驗,也為創造者、開發者、創業公司創造新的機會。


目前最新的 Gemini 1.5 Pro 支持 100 萬 token 文本量,今年晚些時候據稱這個數字將會達到 200 萬,能夠同時處理 2 小時的視頻、22 小時的音頻、超過 60,000 行代碼或超過 140 萬個單詞。

此外,大會還宣佈了基於 Gemini 1.5 Pro 的 Gemini Advanced,據稱它可以處理「多個大型文檔,總計最多 1500 頁,或彙總 100 封電子郵件」,還支持 35 種語言和 150 多個國家 / 地區。

不得不説,在文本量方面,Gemini 確實很卷,「朝着將任何輸入轉為任何輸出的目標邁出了一大步」。


安全永遠是重中之重

自 AI 誕生之初以來,關於如何辨別 AI 生成內容的爭論就一直沒有停止。Google 的對策是通過 SynthID,為 AI 生成的圖像和音頻添加不可見的水印,使其更易於區分,

未來 Google 將會把這一範圍推廣到文本及視頻中,並在接下來的幾個月裏,通過更新生成式 AI 工具包開源 SynthID 文本水印,幫助更多開發人員更輕鬆地負責任地構建 AI。


Gemini 融入其中後,Android 會在通話過程中,檢測到可疑活動時發出警告,例如被要求提供您的社會安全號碼和銀行信息,屬於是直接把「反詐中心」裝手機上了。

還有無障礙功能 TalkBack 也將通過 Gemini Nano 增強,圖像描述將更加清晰和豐富,幫助視力不佳的用户通過語音反饋更好地操作手機,體現出 Google 一貫的人文關懷。


而對於 Google 今晚的表現,英偉達 NVIDIA 研究經理 Jim Fan 的評價,十分中肯。

Google 新發布的模型似乎是多模態輸入,但不是多模態輸出的 Imagen3 和 Music AI Sandbox 仍然作為獨立組件與 Gemini 分離。將所有模態 I/O 原生合併是不可避免的未來。

它可以執行任務,如「使用更機器人化的聲音」「編輯這幅圖像」「生成一致的漫畫條帶」。

而且還不會在模態邊界上丟失信息,例如情感和背景聲音,全新模型打開了新的上下文能力,用户也能通過少量示例教導模型,並以新穎的方式結合不同的意義。


GPT-4o 並不完美,但它正確地掌握了形式因素,用安德烈的 LLM- 作為操作系統的比喻來説:

引用我們需要模型本地支持儘可能多的文件擴展名。

Google 做對了一件事:他們終於在將人工智能整合到搜索框中做出了認真的努力。

Gemini 不必是最好的那一個,但卻可以成為最廣泛使用的一個。

*王萌對本文亦有貢獻


資料來源:愛範兒(ifanr)
標籤: Google  GPT-4o  

留言


請按此登錄後留言。未成為會員? 立即註冊
    快捷鍵:←
    快捷鍵:→