GPT-4o 上半年帶來的那波熱度,不僅讓奧特曼感受到了 GPU 融化的氣息,也讓生圖、理解視覺幾乎變成了所有大模型的標配賣點。
但到了今年下半年,真正刷足存在感的卻是那根「香蕉」:Nano Banana。
為了搶回頭把交椅,OpenAI 今天正式推出了最新圖像視覺模型 GPT-Image-1.5。這也是繼 GPT-5.2 之後,OpenAI 紅色警報計劃中又一記重拳。
省流版如下:
告別「抽卡」玄學,編輯細節能力拉滿
GPT-Image-1.5 最大的升級點在於「精準編輯」。
以前用 AI 改圖,簡直像碰上了一個聽不懂人話的「託尼老師」,你只想修修劉海,它反手就給你剃了個光頭。現在,模型終於聽懂了人話。你改哪裏,它就動哪裏。
光線、構圖、人物特徵,在輸入、輸出和後續編輯的閉環都能保持一致性。
聽起來很抽象?看看官方給出的示例。
一套連招下來,畫面邏輯居然沒崩。這説明 GPT-Image-1.5 不再是靠「蒙」,而是真的理解了畫面結構,並完成增刪改查。而能改得準、穩得住,才是現在的技術護城河。
再來看幾個我實際測試的案例。
你或許看過《千里江山圖》這幅傳世名作,但你或許還遺漏了億點點細節。
同理可得,誰説《百駿圖》裏,不能突然出現一隻從現代穿越過來的網紅柴犬 Kabosu。
就連馬斯克和扎克伯格那場沒打成的籠中決鬥,在 GPT-Image-1.5 的加持下,一次性就成功把主角換成了奧特曼。臉沒崩,違和感也幾乎為零。
我們要一張細節豐富、逼真寫實的極端仰拍照片,馬斯克坐在珠江岸邊單手搭着廣州塔尖。為了體現巨物感,還得在他的腳邊撒上微小的遊船和遊客。
結果,它也確實懂了什麼是「比例感」。
▲提示詞:一張細節豐富、逼真寫實的極端仰拍照片,畫面中的馬斯克正在坐在珠江岸邊,一隻手搭在廣州塔的塔尖上,為了體現巨大的體型比例,可在他的腳邊加入一些微小的遊船、觀光遊客等,2K,16:9
終於不再畫「鬼畫符」,但中文表現……
相比初版圖像模型,GPT-Image-1.5 更擅長遵循複雜、細緻的指令,能保持各元素之間的預設關係。
官方展示了一個 6×6 的網格圖案例,每一行都要按指定內容佈置,希臘字母、動物、物品、圖標、單詞,模型排列得井井有條,強迫症看了都得説聲舒服。
經過實測,把線稿轉成真實圖片這種操作,現在也成了基操。
文本渲染能力也進一步提升,能更好地處理密集、小字體內容。比如將一段 Markdown 格式的內容呈現為自然的報紙文章佈局,內容包括 GPT-5.2 發佈説明、性能基準對比等,格式和數字都能保持完整準確。
這個能力聽起來可能不起眼,但對於需要生成海報、宣傳圖、信息圖表的用户來説,簡直是剛需。
在 Nano Banana Pro 出現之前,生成式 AI 的文本渲染一直抽象得離譜,現在終於能看了。不過我們得潑盆冷水,GPT-Image-1.5 的英文能力確實能打,但中文表現依然是災難現場。
我讓它畫個「擎天柱征服火星」的中文漫畫,它能給你自創一門火星文。
亦或者讓其生成一張古人在牆壁寫水調歌頭的圖片,不僅文字錯漏百出,握筆姿勢還居然是拿鋼筆的手法。
好在生成速度快了 4 倍,這邊還在畫着,那邊你可以同時開幾個新任務,試錯成本大大降低。物體知識儲備也還算在線,問它往水裏加鹽雞蛋會怎樣,生成的圖片倒是有模有樣。
▲左為原圖,右為生成的圖片。提示詞:如果往水中加入大量鹽,生成一張圖片,展示雞蛋會發生什麼。
博主 @Yuchenj_UW 則認為 GPT Image 1.5 的生成效果大致達到了 Nano Banana Pro 水準,但「智商/推理能力」明顯落後於 Nano Banana Pro,尤其在數學題上(以及其他物理/迷宮類問題)表現更差。
你的下一位設計師,何必是人?ChatGPT 申請出戰
OpenAI 這次還在 ChatGPT 裏專門開闢了一個圖像創作入口。
網頁和移動端側邊欄都能看到這個新入口,裏面塞滿了預設濾鏡和熱門提示詞,還會定期更新。上傳一次肖像,以後張張都是你,不用反覆喂圖。
説實話,這功能 Nano Banana 沒有,但國內的生圖模型早就玩爛了。 某種程度上,GPT-Image-1.5 也算是在摸着國內同行的石頭過河。
剛剛,奧特曼也在社交媒體上分享了自己用 GPT-Image-1.5 生成的聖誕性感月曆男模照片。
來都來了,我們也順手給奧特曼換了幾套皮膚。貼紙風、搖頭娃娃風、素描風,預計今天過後,奧特曼又要成為互聯網上最忙的男人。
有個細節很值得點贊,當你要求生成預設方案時,OpenAI 會公開預設的提示詞。從這一點來看,OpenAI 確實 open 了。
除此之外,製作賀卡、創建專輯封面,修復老照片,拍攝專業求職照片等也都是非常實用的預設方案。比如,那張經典的魯迅和泰戈爾的合照,經過修復後,其實效果還是挺不錯。
OpenAI 應用 CEO Fidji Simo 在博客中寫道:「人類的思維並不只是由文字組成。事實上,我們最有創意的想法,往往起源於腦海中的圖像、聲音、動作或模式。」
她透露,ChatGPT 正在從一個反應式、以文本為核心的產品,轉變為一個更直觀、更能貼合你各種任務需求的工具。從純文字向多媒體和動態界面轉變,是這一進化過程中的重要一步。
很多用户第一次接觸 ChatGPT,都是通過文字生成圖片。這種「把文字變成畫面」的過程充滿魔力,但 ChatGPT 的聊天界面最初並不是為此設計的。圖像創作和編輯是一種完全不同的任務,需要專門的視覺空間來支持。
OpenAI 乾脆給它搞了個專屬入口,讓圖像生成有了一個更像創意工作室的環境。
計劃還不止於此。
OpenAI 未來還將引入更多視覺元素,優化 ChatGPT 的整體體驗。未來在進行搜索查詢時,結果將更多地包含圖片和清晰來源。在單位換算或查閲體育比分等任務中,你需要的是一目瞭然的可視化結果,而不是一段文字描述。
甚至寫作體驗也在改,未來內置的寫作模塊讓你在聊天中就能直接編輯,還能一鍵導出 PDF 或直接調用郵件應用發送。ChatGPT 早已不是一款單純的語言模型,它正在變成一個真正的多模態工作台。
當然,除了普通用户,開發者也能通過 API 用上 GPT-Image-1.5。
相比 GPT-Image-1,GPT-Image-1.5 具備更強的品牌元素與關鍵視覺保持能力,適合電商、品牌營銷等需要生成大量變體圖片的場景。圖像輸入輸出費用降低 20%,同樣預算可生成更多圖像。
降價+提效,這套組合拳打得還是挺實在的。
除此之外,迪士尼上週已經宣佈向 OpenAI 投資 10 億美元,並達成了合作協議。根據這項為期三年的授權協議,OpenAI 旗下的 Sora 和圖像生成模型都能生成迪士尼、漫威、皮克斯和星球大戰旗下角色,並計劃在明年初正式上線相關功能。
內容 IP 加 AI 生成,這背後想象空間確實挺大。
更重要的是,GPT-Image-1.5 的發佈,標誌着圖像生成工具正在從「玩具」向「工具」轉變。
目前市面上大多數 AI 改圖工具,一改就崩,毫無一致性可言。
GPT-Image-1.5 至少在這個方向上邁出了堅實的一步。它開始具備後期編輯能力,能像 Nano Banana Pro 一樣控制細節,確保畫面連貫。
在模型能力較弱的情況下,GPT-Image-1.5 通過更完善的圖片生成預設方案, 以及功能設置來完成對新版 Nano Banana 的反擊, 也確實是不錯的選擇。
專屬圖像創作入口、預設濾鏡庫等等,這些看似不起眼的產品設計, 恰恰擊中了普通用户的痛點。很多人並不需要最強的模型, 他們需要的是「能快速上手、不用反覆調教、生成結果八九不離十」的工具。
模型能力領先只是第一步, 如何把能力轉化為好用、易用、愛用的產品,才是真正的護城河。
資料來源:愛範兒(ifanr)
但到了今年下半年,真正刷足存在感的卻是那根「香蕉」:Nano Banana。
為了搶回頭把交椅,OpenAI 今天正式推出了最新圖像視覺模型 GPT-Image-1.5。這也是繼 GPT-5.2 之後,OpenAI 紅色警報計劃中又一記重拳。
省流版如下:
- 指令執行更準確
- 編輯更精確
- 細節保留更完整
- 比之前快 4 倍
告別「抽卡」玄學,編輯細節能力拉滿
GPT-Image-1.5 最大的升級點在於「精準編輯」。
以前用 AI 改圖,簡直像碰上了一個聽不懂人話的「託尼老師」,你只想修修劉海,它反手就給你剃了個光頭。現在,模型終於聽懂了人話。你改哪裏,它就動哪裏。
光線、構圖、人物特徵,在輸入、輸出和後續編輯的閉環都能保持一致性。
聽起來很抽象?看看官方給出的示例。
- 將兩個男性和一隻狗合成到一張 2000 年代膠片風格的兒童生日派對照片中 →
- 添加背景中吵鬧投擲東西的孩子們 →
- 將左邊的男人改為復古手繪風格,把狗變成毛絨玩具風格,右邊男子和背景保持不變 →
- 為所有人換上 OpenAI 毛衣 →
- 最後只保留狗,把畫面放入一場 OpenAI 的直播中……
一套連招下來,畫面邏輯居然沒崩。這説明 GPT-Image-1.5 不再是靠「蒙」,而是真的理解了畫面結構,並完成增刪改查。而能改得準、穩得住,才是現在的技術護城河。
再來看幾個我實際測試的案例。
你或許看過《千里江山圖》這幅傳世名作,但你或許還遺漏了億點點細節。
同理可得,誰説《百駿圖》裏,不能突然出現一隻從現代穿越過來的網紅柴犬 Kabosu。
就連馬斯克和扎克伯格那場沒打成的籠中決鬥,在 GPT-Image-1.5 的加持下,一次性就成功把主角換成了奧特曼。臉沒崩,違和感也幾乎為零。
我們要一張細節豐富、逼真寫實的極端仰拍照片,馬斯克坐在珠江岸邊單手搭着廣州塔尖。為了體現巨物感,還得在他的腳邊撒上微小的遊船和遊客。
結果,它也確實懂了什麼是「比例感」。
▲提示詞:一張細節豐富、逼真寫實的極端仰拍照片,畫面中的馬斯克正在坐在珠江岸邊,一隻手搭在廣州塔的塔尖上,為了體現巨大的體型比例,可在他的腳邊加入一些微小的遊船、觀光遊客等,2K,16:9
終於不再畫「鬼畫符」,但中文表現……
相比初版圖像模型,GPT-Image-1.5 更擅長遵循複雜、細緻的指令,能保持各元素之間的預設關係。
官方展示了一個 6×6 的網格圖案例,每一行都要按指定內容佈置,希臘字母、動物、物品、圖標、單詞,模型排列得井井有條,強迫症看了都得説聲舒服。
經過實測,把線稿轉成真實圖片這種操作,現在也成了基操。
文本渲染能力也進一步提升,能更好地處理密集、小字體內容。比如將一段 Markdown 格式的內容呈現為自然的報紙文章佈局,內容包括 GPT-5.2 發佈説明、性能基準對比等,格式和數字都能保持完整準確。
這個能力聽起來可能不起眼,但對於需要生成海報、宣傳圖、信息圖表的用户來説,簡直是剛需。
在 Nano Banana Pro 出現之前,生成式 AI 的文本渲染一直抽象得離譜,現在終於能看了。不過我們得潑盆冷水,GPT-Image-1.5 的英文能力確實能打,但中文表現依然是災難現場。
我讓它畫個「擎天柱征服火星」的中文漫畫,它能給你自創一門火星文。
亦或者讓其生成一張古人在牆壁寫水調歌頭的圖片,不僅文字錯漏百出,握筆姿勢還居然是拿鋼筆的手法。
好在生成速度快了 4 倍,這邊還在畫着,那邊你可以同時開幾個新任務,試錯成本大大降低。物體知識儲備也還算在線,問它往水裏加鹽雞蛋會怎樣,生成的圖片倒是有模有樣。
▲左為原圖,右為生成的圖片。提示詞:如果往水中加入大量鹽,生成一張圖片,展示雞蛋會發生什麼。
博主 @Yuchenj_UW 則認為 GPT Image 1.5 的生成效果大致達到了 Nano Banana Pro 水準,但「智商/推理能力」明顯落後於 Nano Banana Pro,尤其在數學題上(以及其他物理/迷宮類問題)表現更差。
你的下一位設計師,何必是人?ChatGPT 申請出戰
OpenAI 這次還在 ChatGPT 裏專門開闢了一個圖像創作入口。
網頁和移動端側邊欄都能看到這個新入口,裏面塞滿了預設濾鏡和熱門提示詞,還會定期更新。上傳一次肖像,以後張張都是你,不用反覆喂圖。
説實話,這功能 Nano Banana 沒有,但國內的生圖模型早就玩爛了。 某種程度上,GPT-Image-1.5 也算是在摸着國內同行的石頭過河。
剛剛,奧特曼也在社交媒體上分享了自己用 GPT-Image-1.5 生成的聖誕性感月曆男模照片。
來都來了,我們也順手給奧特曼換了幾套皮膚。貼紙風、搖頭娃娃風、素描風,預計今天過後,奧特曼又要成為互聯網上最忙的男人。
有個細節很值得點贊,當你要求生成預設方案時,OpenAI 會公開預設的提示詞。從這一點來看,OpenAI 確實 open 了。
除此之外,製作賀卡、創建專輯封面,修復老照片,拍攝專業求職照片等也都是非常實用的預設方案。比如,那張經典的魯迅和泰戈爾的合照,經過修復後,其實效果還是挺不錯。
OpenAI 應用 CEO Fidji Simo 在博客中寫道:「人類的思維並不只是由文字組成。事實上,我們最有創意的想法,往往起源於腦海中的圖像、聲音、動作或模式。」
她透露,ChatGPT 正在從一個反應式、以文本為核心的產品,轉變為一個更直觀、更能貼合你各種任務需求的工具。從純文字向多媒體和動態界面轉變,是這一進化過程中的重要一步。
很多用户第一次接觸 ChatGPT,都是通過文字生成圖片。這種「把文字變成畫面」的過程充滿魔力,但 ChatGPT 的聊天界面最初並不是為此設計的。圖像創作和編輯是一種完全不同的任務,需要專門的視覺空間來支持。
OpenAI 乾脆給它搞了個專屬入口,讓圖像生成有了一個更像創意工作室的環境。
計劃還不止於此。
OpenAI 未來還將引入更多視覺元素,優化 ChatGPT 的整體體驗。未來在進行搜索查詢時,結果將更多地包含圖片和清晰來源。在單位換算或查閲體育比分等任務中,你需要的是一目瞭然的可視化結果,而不是一段文字描述。
甚至寫作體驗也在改,未來內置的寫作模塊讓你在聊天中就能直接編輯,還能一鍵導出 PDF 或直接調用郵件應用發送。ChatGPT 早已不是一款單純的語言模型,它正在變成一個真正的多模態工作台。
當然,除了普通用户,開發者也能通過 API 用上 GPT-Image-1.5。
相比 GPT-Image-1,GPT-Image-1.5 具備更強的品牌元素與關鍵視覺保持能力,適合電商、品牌營銷等需要生成大量變體圖片的場景。圖像輸入輸出費用降低 20%,同樣預算可生成更多圖像。
降價+提效,這套組合拳打得還是挺實在的。
除此之外,迪士尼上週已經宣佈向 OpenAI 投資 10 億美元,並達成了合作協議。根據這項為期三年的授權協議,OpenAI 旗下的 Sora 和圖像生成模型都能生成迪士尼、漫威、皮克斯和星球大戰旗下角色,並計劃在明年初正式上線相關功能。
內容 IP 加 AI 生成,這背後想象空間確實挺大。
更重要的是,GPT-Image-1.5 的發佈,標誌着圖像生成工具正在從「玩具」向「工具」轉變。
目前市面上大多數 AI 改圖工具,一改就崩,毫無一致性可言。
GPT-Image-1.5 至少在這個方向上邁出了堅實的一步。它開始具備後期編輯能力,能像 Nano Banana Pro 一樣控制細節,確保畫面連貫。
在模型能力較弱的情況下,GPT-Image-1.5 通過更完善的圖片生成預設方案, 以及功能設置來完成對新版 Nano Banana 的反擊, 也確實是不錯的選擇。
專屬圖像創作入口、預設濾鏡庫等等,這些看似不起眼的產品設計, 恰恰擊中了普通用户的痛點。很多人並不需要最強的模型, 他們需要的是「能快速上手、不用反覆調教、生成結果八九不離十」的工具。
模型能力領先只是第一步, 如何把能力轉化為好用、易用、愛用的產品,才是真正的護城河。
資料來源:愛範兒(ifanr)


請按此登錄後留言。未成為會員? 立即註冊