神秘「香蕉」AI 火爆海外,10 輪極限測試後,我相信 P 圖這個詞已經過時了

愛範兒 於 12 小時前發表 收藏文章
上半年,大家還在為 4o 的「吉卜力風生圖」刷屏驚歎。

最近,一個神秘代號 nano-banana 的新模型在社交媒體上爆火,它不是拼畫質取勝,而是憑藉前所未有的圖像編輯能力,讓網友直呼「這才是真正的 AI P圖」。

有多強呢,過去我們印象中的 AI 編輯圖片,可能用最多的就是 AI 消除,抹掉照片裏面的路人;或者 AI 摳圖,把照片的主體摳出來然後複製到其他背景上。

但現在是能直接生成一張完全看不出編輯痕跡的圖片,圖片裏面的人物、背景、甚至小到一個字母,都可以自由的修改,且看不出一點 AI 味。

下面幾張圖片是我們從 X 上找的一些使用 nano-banana 編輯的實例,我只想説,它能火起來,真的值得。

▲ 圖片來源:X@arrakis_ai

這個網友提供了上方只顯示側臉的女生,同時輸入提示詞,「創建一張有人直視前方照片。」

而下方的這張 OUTPUT 輸出圖片,就是使用 nano-banana 模型生成的。這個輸出效果,完全可以説是同一時間拿手機另外拍的一張照片。


還有網友分享添加這兩張圖片並輸入提示詞,「讓他們自拍」。

▲ 圖片來源:X@RetropunkAI

和你唯一的合照,終於不用只是畢業照了。Billie 的大金鍊子和耳環、以及劉海等信息完全沒丟失,Michael 的臉從滿是噪點的失真,到自拍合影裏,與 Billie 一樣有着真實、清晰的皮膚質感。

在 X 上網友們反覆安利這個圖像編輯模型,從這些截圖分享裏面,我們大致總結了 nano banana 最讓人驚歎的幾點特質。

  1. 角色一致性極強:無論換背景還是換表情,都不會換臉,甚至嘴角弧度都能保持。
  2. 光影邏輯合理:不像濾鏡貼圖,它能重新計算光源和陰影,讓場景符合物理規律。
  3. 照片級逼真:幾乎看不出 AI 痕跡,生成的效果像是「同一時刻另一台手機拍下的照片」。
  4. 風格轉換自然:從老照片復原到素描、水彩、卡通,都能保持主體特徵不變。

首先,跟之前的圖像編輯模型有着質的不同,就是 nano banana 在轉換圖像的過程中,基本上能夠保持整個照片一致的色調和照片內容,不會自己額外生成別的東西。

▲ 風格保持高度一致,輸入右邊兩張圖,得到左邊的產品廣告圖。圖片來源:X@Dari_Designs

除了色調和照片內容,更重要的是保持人物角色的統一。不管是更換背景、還是讓某個人的表情修改成微笑,nano banana 生成的人物五官和神態幾乎不會出現換臉的情況,連嘴角的弧度都能保持穩定。

舉個例子,當我們使用固定的一個人物角色創建圖片的時候,這個角色可以在不同的場景下保持一致。

▲ 原圖是左邊,輸入提示詞制定背景為埃菲爾鐵塔得到右圖。圖片來源:X@zan_sihay

由於能保持與輸入圖片高度一致的色調、氛圍、場景和人物主體等,還有網友通過 nano-banana 將整個場景轉變為一個新的故事。

▲ 原圖在左上角,先是輸入提示詞讓她們坐在台球桌邊上,然後讓她們開始打枱球,形成一個完整的故事流。圖片來源:X@D_studioproject

在確保了照片內容的高品質後,nano banana 生成的圖片還非常真實。和此前大部分生圖模型得到的 AI 味極濃的圖片不同,nano banana 的特點就是自然和逼真。

▲Flux 生成的圖片,皮膚質感還是有明顯的蠟質化,不夠真實。

最後是 nano banana 將場景轉換為各種藝術風格方面表現,同樣非常出色,包括水彩、油畫和卡通風格,以及寫實照片。

▲ 能夠「復活」老照片。圖片來源:X@DiegoGarey_jpg

我們也在 LMArena 裏面測試了 nano banana 這個神秘模型,看看它是不是真的這麼強大。

體驗地址:https://lmarena.ai/?chat-modality=image (選擇 battle 模式才會出現)

多人畢業照,也能變成專屬你們倆的合影

首先,我們找了一張畢業合照,看看它是不是真的能生成一張兩個人的合照。


它真的做到了,雖然這個田徑場草皮生成的不是很像,但是在多輪的測試裏面,Qwen、Flux、Seed 生成的圖片全部都還是多人的,只有 nano-banana 明白了指令,提取出了兩個人。

我們繼續拿只有一張人臉的照片來測試,用開頭那張照片,要求它生成一張白底證件照試試。

下面有六張照片,大家可以猜猜哪個是 nano-banana 生成的,或者你最喜歡哪個。

▲ 添加開頭的照片,並輸入提示詞,「生成一張她的標準白底證件照,能直接用來申請護照。」

你沒看錯,第一張也是模型生成的,實在不知道什麼護照可以用這樣的照片。


答案揭曉,nano-banana 雖然看起來是最漂亮、最温柔的,但是 GPT-IMG 生成的更像證件照,因為有露出來一點點耳朵;Flux 好像不知道什麼是證件照;Qwen 就很標準證件照了,但是太「標準」了,彷彿沒參考我發給他的圖片一樣。

我們繼續拿 nano-banana 生成的這張證件照,要求它為我們生成一張全身照,看看能不能在 AI 編輯的過程中,保持住這個角色原本的樣子。


直接揭曉答案,這次 Gemini 的表現竟然不錯,照片很真實,而且場景和衣服都搭配得很好;nano banana 的表現也不錯,但總覺得和證件照裏面的女生,風格不太一樣了。

對於單張照片的單一角色,能做的編輯還非常多,像是下面這張圖片,要求馬斯克作出拳擊的動作,人物基本上是做到了 100% 的複製,馬斯克的他眼神、臉型、鼻子、還有嘴巴都很好的複製過來了。


單張照片的處理能做到完美複製,多張照片,nano banana 的表現又如何。

我們找了兩張有人臉的照片,告訴模型將這兩個人拼湊在一起,看看是否還能像真實照片一樣,看不出瑕疵。

▲ 輸入右下角兩張圖片,提示詞為「讓這兩個人在拳擊擂台上自由搏擊」

圖片左邊就是來自 nano-banana,而右上角則是 Gemini 生成的效果,可以看到明顯的差距,nano-banana 非常真實,且一眼就能認出來,藍色衣服的是小扎。

nano-banana 對物理世界也有驚人的理解能力

除了保持人物的樣子不改變,nano banana 還能在物體、背景等元素上,保持與輸入圖片做到完全一致。

例如下面兩張房間的圖片,我們顯示讓它開燈;然後又找了一張圖片讓它關燈。


當要求開燈時,乍一看 nano banana 和 Flux 都做的不錯,但是有一個細節是 nano banana 不僅點亮了落地燈,更關鍵的是,它似乎重新計算了整個房間的光影邏輯。茶几的影子不再主要受窗外光影響,而是正確地投向了遠離新光源的方向。

它並非簡單地在圖片上「貼」一個發光效果,而更像是在三維空間感和物理規律的層面「理解」了指令,就像 Google 前段時間發佈的世界模型 Genie 3 一樣。相比之下,Flux的結果更像是一個濾鏡,氛圍是到了,但邏輯還是有點問題。


關燈的效果差別就更明顯了,Flux 是直接把落地燈都給弄消失了,而 nano banana 成功把燈關掉了,還做了很全面的陰影和色調調節。

創造力也能保持一致,純文生圖不如 GPT

風格轉換也是 nano banana 的一大優點。無論是讓黑白的照片重新煥發彩色的生機,還是讓失真的圖片變得真實,nano banana 在 LMArena 裏都做的比其他圖像編輯模型要好。


Flux 生成的魯迅,總覺得是色彩飽和度沒有調節好,nano-banana 生成這張給我感覺就很真實,保留了那種年代感。

我們還找了最近熱映的《浪浪山小妖怪》電影預告片的截圖,然後要模型從動畫風格轉換成其他風格。

不過是 AI 都有可能會出錯,就像這張圖片,nano banana 是直接給我了原圖,但是 Qwen 把風格轉換得很好。

當然也有可能是「吉卜力風格」會違反一些模型的使用規則,就像現在 4o 也沒有辦法直接輸入吉卜力風格提示詞生成照片。

▲ 還是開頭那張照片,提示詞「生成這張照片的素描畫」

素描風格,nano-banana 就有辦法處理了,右上的那張圖,就是來自 nano-banana 的素描結果,我覺得比左下那張要好,因為看起來,真的更像是素描。

此外,nano-banana 的重點還是作為一個圖像編輯模型,在純粹的文生圖能力上,表現並不算出色。

X 上有網友用 nano-banana 來做了一個高難度/複雜質感,以及光影/高級質感海報生成測試,結果還是 GPT-IMG 勝出。

▲ 圖片來源:X@ZHO_ZHO_ZHO

Nano-banana 目前還是一個「未知」的模型,它只隨機地出現在 LMArena 的盲測對抗測試中。

在我們的測試裏面,輸入 prompt,兩張圖生成完畢,投票選出更好的一張,最後才會揭曉哪張來自哪一個模型;有時候連續五六次都沒能遇到它。

雖然這個模型的官方來源或開發者還沒有正式確認,但網絡上的討論,以及生成圖像的紋理和壓倒性的質量,大部分人認為它很可能是 Google 的一個未公開項目。

畢竟,Google 也確實有在內部使用水果或者小吃等名稱作為代碼名稱的歷史。

而當我們嘗試要它把自己的模型名字,顯示在電腦屏幕上時,nano-banana 很自信的打上了 Gemini Pro。


最新的消息是,Google DeepMind 的負責人 Logan Kilpatrick 在 Google Pixel 10 發佈前一天,發了一條推文,內容只有一個香蕉的 emoji,這基本上證實了這個模型就是來自 Google。


Google 這次為 Pixel 10 系列帶來了 AI 編輯圖片工具 Ask Photos,我們只需要輸入想要對照片進行的編輯請求,然後由 AI 來完成,我們不需要再選擇複雜的滑塊、筆刷等各種工具。

為了防止圖像篡改帶來的負面影響,Google 也表示所有使用 AI 功能編輯的圖像都會在 C2PA(內容來源和真實性聯盟) 內容憑證中註明。

X 博主 testingcatalog 發文提到 nano-banana 這個圖像編輯模型,將不僅僅用在 Gemini 和 Whisk(Google 實驗室圖像生成產品)上,也將出現在 Flow(Google 視頻生成產品) 裏面。

其實也不難想到,Flow 的圖生視頻功能,也正是像我們測試的圖片編輯一樣,讓圖片中的人物主體動起來。
在這篇爆料中還提到,Google 正在測試垂直寬高比的視頻生成,以更好的在 TikTok、YouTube Shorts 等平台觀看和傳播。


Google 這段時間頗有不聲不響做了很多事情,先是世界模型 Genie 3、然後在 LMArena 大語言模型競技場上拿第一、接着又這個神秘模型 nano-banana;這讓我越來越期待 Gemini 3 的發佈了。

▲Google 的模型在 LMArena 多個任務上都是第一

如果説當時的 4o 代表了 AI 生圖的極致,nano-banana 已經開始在重新定義圖像編輯。


資料來源:愛範兒(ifanr)
標籤: nano-banana  

留言


請按此登錄後留言。未成為會員? 立即註冊
    快捷鍵:←
    快捷鍵:→