全方位超越 Sora，Meta 最新的 AI 視頻模型到底強在哪裏？精選

由愛範兒於 10/10/2024 發表收藏文章

這兩天，視頻生成模型領域因為 Meta Movie Gen 的發佈，又炸開了鍋。

行業內外感嘆最多的地方，無外乎兩點，一是生成效果自然逼真，還能同步生成與畫面匹配的聲音，很像當時 Sora 發佈後引起的討論和轟動；二是 Meta AI 的新模型自定義性很強，無論是視頻畫面比例，還是視頻元素與細節，都能根據用户的需求進行調整。

document.createElement('video');

https://s3.ifanr.com/wp-content/uploads/2024/10/AQP1vMJJ3LCIfFzI3RV-_eHkSkSEVWdq6fuX90b37Gg2JWzlrsz0PmjT8HeeKUIgX8CtBz10MEaoREtg0i2WVzga.mp4
所以，可能會引領視頻生成新變革的 Meta Movie Gen 到底有哪些細節？這些在官網和演示視頻裏的驚豔效果是怎麼煉成的？Meta AI 的視頻模型負責人 Andrew Brown 專門為 Meta Movie Gen 的理論技術做了解讀：

Movie Gen 在整體質量和一致性方面顯著優於 Sora。真實性和美觀性考驗照片寫實性，Movie Gen 全面獲勝。
Meta Movie Gen 是一組可以進行文本到視頻生成、文本到圖像生成、個性化、編輯和視頻到音頻生成的模型。
擴展數據、計算和模型參數非常重要，將其與流匹配相結合，並轉向簡單的常用 LLM 架構 (Llama)，從而實現了 SOTA 視頻生成質量。
我們（Meta AI）是第一個使用 Llama arch 進行媒體生成的人。
Movie Gen 是一個 30B 參數轉換器，可生成不同寬高比和同步音頻的 1080p 視頻，最大持續時間為 16 秒（16fps）。
我們（Meta）為 T2V 模型提供了多階段訓練方案。T2I + T2V 聯合訓練，導致收斂速度慢得多且質量更差。
文本到視頻的評估很困難。自動化指標非常差，並且與人類評估沒有很好的相關性。

視頻生成的「超級個體」

Meta Movie Gen 首發當天，APPSO 在第一時間報道解讀了這個最新的視頻生成模型，總體來説，Movie Gen 具有四種功能：視頻生成、個性化視頻生成、精準編輯和音頻生成。
先看最基礎的視頻生成 Movie Gen Video，多模態的能力使得新模型可以勝任多種不同的輸入方式，用户不僅可以通過簡單的文本、少許提示詞生成相應的視頻，還能直接把需要處理的圖片放到模型裏，根據文字要求，讓靜態的圖片變成動態的視頻。

https://s3.ifanr.com/wp-content/uploads/2024/10/AQOGoRNNttaiv6GurKZSTJInN2JKv-I_KDeLmKlP0ezuMNoFSnPj2w_UKfMrU7TJ6OuhC5bYmfjbOwcXXRMldykb.mp4

▲ 提示文本：一個女孩正在海灘上奔跑，手裏拿着一隻風箏；她穿着牛仔短褲和一件黃色 T 恤；陽光照耀着她。

你甚至還能讓 Movie Gen 幫忙重新生成或者優化一段視頻。不管選擇哪種輸入方式，Movie Gen 目前在官網的演示視頻，效果都非常好，人物表情自然，畫面細節到位，也能比較準確地按照提示詞或文本的要求來生成相應結果。
https://s3.ifanr.com/wp-content/uploads/2024/10/AQPoimKxH0OjSM2nrwEMvGZ4p1MPTVxM86qgLLo3WWrQcs_3k7q2AFxNgDU7wQR9AiODYnzhAvNv66EYk5CL-JjC.mp4

Andrew Brown 介紹到，在視頻生成的過程中，擴展數據、計算和模型參數非常重要，將其與流匹配相結合，並轉向簡單的常用 LLM 架構 (Llama)，從而實現了 SOTA 視頻生成質量。

而且，新模型中的 T2V、個性化和編輯模型都來自相同的培訓方案。在預訓練期間，Meta 首先訓練 T2I，然後訓練 T2V。使用該模型作為初始化，然後進行 T2V 後期訓練，並訓練個性化 T2V 和 V2V 編輯的能力。

https://s3.ifanr.com/wp-content/uploads/2024/10/11.png!720

圖片來源：s3.ifanr.com

另外，模型的訓練也按照分辨率的高低進行，先是低分辨率（256px）訓練，然後是高分辨率訓練（768px）。Meta AI 嘗試聯合訓練 T2I + T2V，但這導致收斂速度慢得多且質量比之前的還要差勁。

https://s3.ifanr.com/wp-content/uploads/2024/10/22.png!720

圖片來源：s3.ifanr.com

Movie Gen Video 之所以能夠做到逼真的生成結果，本質上還是因為高達 30B 參數轉換器模型的卓越能力，這個模型能夠以每秒 16 幀的速度生成長達 16 秒的視頻，而且最長能夠生成 45 秒的高質量和高保真音頻。
Meta 官方還在論文中透露：

引用這些模型可以推理物體運動、主體與物體之間的相互作用和相機運動，並且可以學習各種概念的合理運動。

這句話一共有三層意思，首先是模型本身可以幾乎還原出現實世界的物理運動，以及各種「合乎常理」的物理規律，而對於用户而言，看上去「自然且逼真」就是模型技術最成功的地方。

https://s3.ifanr.com/wp-content/uploads/2024/10/AQODlBNBPphoHO0OxyhgRUjxX2_ypK3-g7d8uLcSSfQKz-BWwxaw6O3ru8Hj8P4hsQvePxUXjMkQP1s6LZS0dP-B.mp4

Movie Gen Video 能夠準確理解物理世界的運動規律，Meta AI 是下了大功夫的。該團隊在數億個視頻和數十億張圖像上，對全新的模型進行了大量的預訓練。通過不停的重複、學習、總結、推理和運用，Movie Gen Video 才有了在官網裏的優異表現。
接着，模型還能主動模仿學習專業電影的運鏡、畫面、蒙太奇等。也就是説，通過 Movie Gen Video 生成的視頻，還有了類似電影拍攝的專業性和藝術性。

https://s3.ifanr.com/wp-content/uploads/2024/10/AQNJgXGFWj-R5P_psMtiR6l5TLrDr8g45ckHVx0tERIlod4irfm29mLts61SShKHI7Gfnry7P6aWDk0FB8R9xZ3B.mp4

不過 Andrew Brown 提到，文本到視頻的評估很困難。因為自動化指標非常差，並且與人類評估沒有很好的相關性。也就是説，在視頻生成模型研製的早期，生成結果和人們印象中和觀察中的真實物理世界差別太大，最後 Meta 還是決定這種真實性的判斷，完全依賴人類的評估。

引用我們花費了大量精力將視頻評估分解為多個正交質量和對齊軸。

結果 Movie Gen 在和 1000 個提示評估集上的模型進行比較時，在質量和一致性方面獲勝或全面處於同等水平。

https://s3.ifanr.com/wp-content/uploads/2024/10/44.png!720

圖片來源：s3.ifanr.com

最後，模型能在此基礎上，推理和創作出接下來的內容，它就像一個專業的導演，指揮着畫面裏的一舉一動；也像一個經驗豐富的擬聲師，根據視頻內容或者文本提示，實時生成和畫面一一對應的配樂。
https://s3.ifanr.com/wp-content/uploads/2024/10/AQM2lzIy5kQwBQ7F0FEBzOwq2YGB-hFKnmoz5SZmOmGhZCMKRc1sqsG0tK7EOVl8133rQjPhHxfRlp_WFBurPqR4.mp4

▲ 煙花爆炸瞬間的音效

同步生成音頻的能力，依靠得是 Movie Gen Audio。這是一個 13B 參數轉換器模型，可以接受視頻輸入以及可選的文本提示，以實現可控性生成與視頻同步的高保真音頻。

https://s3.ifanr.com/wp-content/uploads/2024/10/AQOqaT9K5XXcswrfjz54HfHzFkGfKM815Wkif-RD-wo9OUIzwCUDqt7zVOWR9pgOCohjBFxpKaMIZd7uZDS3t6Al.mp4

和 Movie Gen Video 一樣， Movie Gen Audio 也進行了「海量」練習，Meta AI 將數百萬個小時的音頻參考投餵到模型的訓練裏。經過大量的對比總結，目前模型已經掌握了聲音和畫面之間的對應關係，甚至還能瞭解不同的 bgm 會帶給觀眾哪些不同的感受。
因此在遇到有關情緒和環境的提示詞時，Movie Gen Audio 總能找到和畫面完美契合的音樂。

https://s3.ifanr.com/wp-content/uploads/2024/10/AQNH70f1iPeyIzxUYOBL3qIYNRE-HKJl1P2VXipWwPwO-NkFeTPsBB5dyJCeezKQbqm8ANlae1-riMBHhS77F90Q.mp4

同時，它可以生成環境聲音、樂器背景音樂和擬音聲音，在音頻質量、視頻到音頻對齊和文本到音頻對齊方面提供最先進的結果。

引用這使它們成為同類中最先進的模型。

雖然我們不敢就此和官方一樣，下一個如此自信的定論，但無論是從官方的視頻長度、畫面質量，還是背景音樂的貼合程度，Movie Gen Video 相較於以往的視頻生成模型，有了非常明顯的進步。
而且，和先前的偶像實力派 Sora 相比，Movie Gen 在整體質量和一致性方面都有着比較明顯的領先，Andrew Brown 毫不掩飾地説到在這場與 Sora 的比賽中：

引用Movie Gen 全面獲勝。

視頻編輯的「全能專家」

在 Movie Gen Video 和 Movie Gen Audio 的協同配合下面，Meta AI 全新的視頻生成模型有了全新的能力，不過上述的進步還只是技術基礎，同時具備音視頻生成能力後，Meta 還繼續擴展了全新模型的適用範圍，使它能夠支持個性化視頻的生成。

個性化顧名思義，就是結合用户需求，根據要求生成指定的視頻內容。
雖説先前的視頻模型也能做到個性化生成結果，但這個結果總是不盡人意，要麼是不能更改細節，只能重新來過，要麼是在連續更改細節時，畫面裏的其他元素無法保持一致性，總是會因為新視頻的生成而多少受到點影響。

https://s3.ifanr.com/wp-content/uploads/2024/10/AQN93-PQzwvk9hXxtg_CXRKF0iuS3vDfYDAd6o7L2PLo9s46t2mt3PfVgBJfLqyzKvmH3_avUhVuR5vlaFA3KEiY.mp4

Movie Gen Video 在官網的演示中，很好地展現了他們在這方面的優勢。新模型不僅可以按照提示詞/參考圖像的要求，生成個性化的視頻，還能在該視頻的基礎上，繼續優化調整細節，並且保證其他的生成內容不受干擾，也就是「精細化修改」。

與需要專業技能或缺乏精確度的生成工具的傳統工具不同，Movie Gen 保留了原始內容，僅針對相關像素。

引用在創建保留人類身份和動作的個性化視頻方面，我們的模型取得了最先進的成果。

這項功能，對於很多自媒體工作室，或有視頻編輯需求的人，非常有用，它可以對更改對象進行全局修改，或者細節修改。大到根據文本重新生成整個畫面，小到只改變人物的髮色、眼鏡的樣式等。比如可以通過模型來消除背景當中的無關雜物。

https://s3.ifanr.com/wp-content/uploads/2024/10/AQOlcQl6jghERiA76vaIS8d0NbfUpcoRGuHFWNH6-eyueaTqKtLemFcJEZhv90zsF4xwtPoRtIyN_tKlsKHGG4Jx.mp4

或者給原視頻換上新的背景，不管是樣式還是顏色，都能隨時改變，而且還可以把白天秒變成黑夜。
另外 Movie Gen Video 還能針對很多細節做出細微的調整，在保證視頻構圖、畫整體不變的同時，改變人物的衣服顏色、眼鏡佩戴樣式，主體穿着和寵物毛色等。

比如去除視頻裏的無關雜物、更換畫面背景樣式，增加視頻細節，改變主體衣着顏色等方面，都是他的強項。

https://s3.ifanr.com/wp-content/uploads/2024/10/AQOgCjxW2-d5hyadozHguLaOWtBEbQbaGhvUFwsC94LlfL0kSDCRsE75H5mCtOBUJXON-J91a8-HeGuqKK9e6RC7.mp4

不過這還只是一種暢想，因為 Movie Gen Video 目前只支持 1080P、16 秒、每秒 16 幀的高清長視頻，或者最長 45 秒的高質量和高保真音頻。這樣的畫面分辨率以及視頻長度，對於一個有創作需求的個體或公司來説，好像都不太夠用。
但這種技術的突破，使得 AI 擁有了對視頻文件無級調節的編輯能力，個性化定製、精準調節，加上 Movie Gen Audio 打開了視頻配音的大門，Movie Gen Video 雖然要等到明年才會和公眾正式見面，但以目前官方的演示結果來看，它真有可能為視頻、影視和 AI 行業注入新的動力，甚至帶來一場新的變革。

https://s3.ifanr.com/wp-content/uploads/2024/10/AQNqaqS1K8y127TjMDSqVQFKxytdhtS2LIigdvwG1m1B7PSQ9MVJzbHUsmJ2r6NlDo5676AovslXGGRsFDAJof5C.mp4

包括 Movie Gen Video 在內的最新、最前沿的工具，正在試圖打破這種 AI 在視頻生成領域的刻板印象，雖然目前以他們的能力，這一天的到來還有很久。

對於視頻生成模型來説，一開始很難直接影響，甚至觸及到普通人的日常生活，直到有了某部由 AI 創作的電影，可能才會在新鮮感上，引起大眾的注意。當下用 AI 做出的電影、番劇、動漫，多少都有些畫面不真實、動作很違和的缺點。
https://s3.ifanr.com/wp-content/uploads/2024/10/AQOuOxod5gTk4x2RfQBdpu5EARkJdH_eqk-WC6V_5YLxIiD0Q8-9XD3dOjwIDskByjO4lIRgylv_LwkPkEb1vgX2.mp4

Meta AI 也在官網表示，隨着模型技術的改善與發展，他們將會與電影製作人和創作者密切合作，整合他們的反饋。當下，無論是 Runway、Sora，還是最新的 Meta AI，都在飛速發展，起碼和一年前的生成效果比較起來，可以看到肉眼可見的進步。

AI 技術對人們生活的影響，不一定會在第一時間顯現出來，當大家還都在探討 AI「有什麼用」的時候，那它對於大多數人的最大意義，就是多了一個好用的工具、一個好玩兒的玩具：

引用無論一個人是希望在好萊塢大展身手的電影製作人，還是喜歡為觀眾製作視頻的創作者，我們都相信每個人都應該有機會使用有助於提高創造力的工具。

資料來源：愛範兒（ifanr）

標籤: Sora Meta AI

留言

我要評論
請按此登錄後留言。未成為會員? 立即註冊

專欄簡介

愛範兒愛範兒（ifanr）成立於 2008 年 10 月，依託於國內移動互聯網的發展大潮，用敏銳的觸覺，出色的內容，聚焦 TMT 領域資訊，迅速成為國內最為出色的新銳科技媒體。...

編輯簡介

愛範兒愛範兒（ifanr）成立於 2008 年 10 月，依託於國內移動互聯網的發展大潮，用敏銳的觸覺，出色的內容，聚焦 TMT 領域資訊，迅速成為國內最為出色的新銳科技媒體。2009 年，愛範兒獲得搜狐...

快捷鍵：←

快捷鍵：→

全方位超越 Sora，Meta 最新的 AI 視頻模型到底強在哪裏？ 精選

留言

專欄簡介

編輯簡介

下載 FanPiece 手機 App

全方位超越 Sora，Meta 最新的 AI 視頻模型到底強在哪裏？精選