打敗 Midjourney,這個 Google 大牛推出的 AI 產品憑什麼彎道超車

愛範兒 於 03/04/2024 發表 收藏文章
沒有誰能一直稱王,但加上前綴誰都有稱王的機會。

AI 文生圖,還能玩出什麼新花樣?

在這片羣雄割據的紅海,頭部被 Midjourney、DALL·E、Stable Diffusion 等佔據,其餘還能讓人眼前一亮的產品並不多。

然而,仍有黑馬殺出:Ideogram,前 Google 工程師創立,硅谷 AI 大神投資,去年 8 月面世,2 月底發佈了最新的模型。


Ideogram 的特別在於,擅長生成包含文本的圖片,這恰恰是幾大巨頭都在改善的難題。

事實證明,從別人跌倒的地方爬起來,不失為一種彎道超車的方式。

能「畫圖」和「攝影」,但 AI 可能還是個「文盲」

讓 AI 精準生成文字,向來是個痛點,哪怕生成的人物和風景像相機拍出來的,如同亂碼的扭曲文字,瞬間讓 AI 原形畢露。

▲ Midjourney v5.2 生成的錯誤文字.

Ideogram 站出來表示,拒絕讓 AI 繼續做個「文盲」,不妨先從它開始。

接觸 Ideogram 的門檻很低,打開網頁(https://ideogram.ai/)登錄就能用,界面看起來也清爽不復雜。

生成一張圖片的步驟不多,在輸入框填完提示詞,再根據你想要的效果,勾選圖片長寬比,以及照片、海報、3D 渲染等圖片樣式。


Ideogram 還考慮到了人類可能是提示詞「苦手」,今年 2 月推出了「魔法提示」,這就像一個內置的 ChatGPT,幫你完善提示詞,由 AI 拿捏同類的心思。

包含文本內容的圖片有哪些?產品標誌、T 恤印花、書籍封面、電影海報……

我們先來個入門級考驗,讓幾個人舉起寫着動物名稱的指示牌,乍看文本對了,但臉和手不太正常,兩者相互抵消,原來短板沒有消失,只是轉移了。


如果只讓 Ideogram 寫字,效果便驚豔得多。

讓 AI 生成馬斯克的經典句子「我寧願樂觀而錯誤,也不願悲觀而正確」,除了「W」有瑕疵,其他單詞都寫對了。

字體活潑了些,70 後的馬斯克不知道能不能接受,但碰撞的黑白色,應該能讓爆改小藍鳥的他滿意。


再拿經典諺語「只工作不玩耍,聰明的孩子也變傻」作為考題,雖然提示詞強調了使用打印機字體,但 Ideogram 沒能做到。看來光用提示詞還不能定義字體,只能取個近似值。


接着,命令 AI 為一家叫作「Coffee AI」的 AI 初創公司設計 logo。

主體是個電路圖案的咖啡杯,右上角有個機器人咖啡師,公司名稱用粗體大寫字母寫成,排版簡單和剋制,作為 logo 來看很直觀,但總體來説在意料之中,很難讓甲方心動拍板。


該給 AI 上難度了,句子更長,對設計的要求更高。

我要求 Ideogram 為兒童繪本設計內頁,不僅要在醒目的位置寫着「穿襪子的狐狸和戴禮帽的兔子」,底部還得標註「匿名」。

對於這兩行文字,Ideogram 基本完成了任務,用上了手繪字體和粉筆塗鴉,甚至配了符合題意的插圖,繪本的味道對了,但錯誤也很顯眼,「in」這個單詞有些問題,兔子長得像狐狸還和狐狸稱兄道弟。


Ideogram 同樣可以拿來電影海報,不妨拿前段時間爆火的、阮經天主演的電影《周處除三害》試試水。

我在提示詞裏雜糅了典故和電影,背景用到俠士剪影、海、山的意象,文字部分參考電影的英文名:豬、蛇和鴿子。

除了漏了一個「the」,最終的海報效果還不錯,融合了古典的形象和現代的字體,鴿子塗鴉堪稱點睛之筆,但總體更像西幻風,讓人覺得陌生,很難聯想到電影的劇情。

體驗下來發現,其實 Ideogram 在文字上出錯的概率不小,有時候生成兩三次,才能得到一字不差的理想結果。

就算文本對了,人物的臉和手指經常翻車。

它可能還會加些花裏胡哨的小動作,隨機生成無意義且扭曲的文字,自己打臉自己。

▲ 這裏的小字就糊成一團了.

但總體來説,Ideogram 讓人驚喜,可以寫對長句子,並且用上合適的字體和排版方式配合畫面氛圍,儘管目前還不能寫中文,但如同鬼畫符的幾個字非常貼合衣服褶皺。

▲ 這四個字其實是「恭喜發財」.

瑕不掩瑜,Ideogram 的就業場景已經很多了。設計 logo、海報、T 恤圖案時,它都可以作為靈感參考和創意輔助。

以前擔心 AI 會「畫畫」和「攝影」,以後還怕 AI 有文化和會設計。

審美不輸 Midjourney,還是個表情包神器

AI 的進步按天衡量,可能一覺醒來世界就發生了變化。雖然 Ideogram 表示自己的文本渲染能力最強,但對手們也不服輸。

還未公開發布和開源的 Stable Diffusion 3 在 2 月官宣,改進了文字拼寫能力。

▲ Stable Diffusion 3 的拼寫能力.

去年 12 月發佈測試版的 Midjourney v6,是第一個具有可靠文本生成功能的 Midjourney 版本。

不過,它的要求也依然比較苛刻,除了必須把文字放在引號內,提示詞最好解釋文本的位置和書寫方式,並用到「印刷」「寫下」等關鍵詞,一到兩個詞的文本生成效果最好。

▲ Midjourney v6 的文本生成功能.

被追趕的 Ideogram 團隊不慌,認為優勢在我,Ideogram 仍然擁有更高的準確率,並且能夠處理複雜的長句。

Ideogram 的系統評估也表明,Ideogram 1.0 渲染文本的準確性最高,與 DALL·E 3 等其他模型相比,錯誤率降低了近 2 倍。


光説不練假把式,不如拿相同的提示詞,讓 Ideogram 1.0 和 Midjourney V6、DALL·E 3 同台競技。

先來比較生成文本的準確度,我要求 AI 們繪製一幅浮世繪風格的日出插圖,《飄》的經典台詞「明天又是新的一天」放置在合適的位置,表現希望和新生。

這次,Ideogram 完勝,拼寫準確,線條和色彩的設計也很大膽和出眾。


向來差點藝術細胞的 DALL·E 竟然意外得有質感,文字基本對了但沒完全對,畫風更加抽象,Midjourney 不僅文字不準確,審美也落了下風,甚至沒有認真聽題。

▲ 左為 DALL·E,右為 Midjourney.

二是比拼造梗能力,Ideogram 官方特意提到了生成表情包的功能,藉助「魔法提示」,AI 會發揮自己的想象力擴寫提示詞,配上文案,讓圖片有感情色彩。

我想看 AI 能不能生成打工貓表情包,於是輸入了提示詞:「畫一個有趣的梗圖,關於一隻戴着領結和襯衫、在電腦前打字的淚流滿面的貓,比喻人類打工的辛苦。」

Ideogram 發揮腦洞,自覺地加了句文案「貓也得工作」。

美中不足的是多了個「have」,前爪的指頭數量也不對,看來 AI 不僅僅對人手犯難,拿貓爪也沒轍。對比原版表情包,算是中規中矩,不能像「流淚貓貓頭」一擊即中。

▲ 左為網圖,右為 Ideogram.

Midjourney 的貓嚴肅且優雅,彷彿是個已經財富自由的作家,看起來更像在拍雜誌寫真,但這鼠標不知道怎麼回事。

▲ 左為 Midjourney,右為 DALL·E.

DALL·E 情感最為到位,畫風雖然隨意了些,但粗糙有粗糙的好處,彷彿不在一個圖層的麪條淚有內味了,真的很適合拿來當表情包用。

三是對複雜的長提示詞的理解能力,尤其是提示詞的元素是否齊全、出現的位置是否準確,所以我輸入了比較囉嗦的提示詞,規定了各個主體的位置。


Ideogram 在整體構圖上表現得更好,提示詞説到的幾個要點都覆蓋了,心形牌子、機器人、宇航員、氣球和獎牌都有,雖然宇航員的手、獎牌的字等細節出了問題。


相比之下,Midjourney 更有藝術感,但要素缺失,又多了些有的沒的裝飾,更有自己的想法和個性,DALL·E 不僅要素缺失,細節出錯,還不好看。

▲ 上為 Midjourney,下為 DALL·E.

所以拋開文字,光看出圖質量,Ideogram 也不差,有時候對提示詞裏各個物體空間關係的還原,比其他 AI 還要更加準確。

從使用體驗來説,Ideogram 的生成速度比 Midjourney 快,一般十幾秒就能完成四張圖片。

甚至根據行業的評估規則,人類評估者在提示對齊、圖像連貫性、整體偏好和文本渲染質量方面,更喜歡 Ideogram 1.0,而不是 DALL·E 3 和 Midjourney V6。


哪怕你不滿意 Ideogram 生成的圖,把它的魔法提示詞拿去用,在 Midjourney 和 DALL·E 的生成效果,可能也比自己手搓更好,不失為一種優化提示詞的方式。

沒人能在我的 BGM 裏打敗我,但同個提示詞給不同 AI 使用,勝負還真不一定。

Google 工程師創辦的明星公司,接地氣的 AI 產品

Ideogram 成立於去年 8 月,今年 2 月推出最新的模型 Ideogram 1.0。

這又是一家明星公司,創始團隊共 7 人,來自 Google Brain、加州大學伯克利分校、卡內基梅隆大學和多倫多大學,其中 4 位是 Google 文生圖擴散模型 Imagen 研究論文的作者。

謹小慎微的 Google 經常在推出產品時慢半拍,多次眼睜睜看着對手在全球聲名大噪,聊天機器人被 ChatGPT 搶先,Imagen 也被 DALL·E 2 超車。

從工程師們的角度看,研究成果無法落地為面向消費者的應用並非好事。不少人選擇了離開,親自打造新的產品,儘量開放使用,先積累下用户規模和口碑。

Ideogram 一天 25 次提示詞的免費額度,可能也是出於這樣的考慮。

市場很看好這個產品,Ideogram 完成了硅谷風投 a16z 領投的 8000 萬美元 A 輪融資,投資者中還有 AI 大神,包括 Google 首席科學家 Jeff Dean、OpenAI 創始團隊成員 Andrej Karpathy。

其實在體驗了很多 AI 產品之後,我暗暗有一個疑問:怎麼定義一款產品的好用?

▲ Ideogram 生成的 T 恤圖案.

之前讓我覺得好用的,是插件「沉浸式翻譯」,它不像 Google 翻譯覆蓋原文,可以中英文對照,不僅是新聞網頁,X 信息流、YouTube 字幕、PDF 文件,都能用上。

Ideogram 似乎也是這樣接地氣。一方面,它可以更加精準地生成用户所需的文字內容,並適配各種風格的圖片。另一方面,它也能無中生有,為圖片配上契合的文字,比如表情包。

雖然 Ideogram 生成的結果很多也不能拿來就用,但至少基本符合提示詞要求,文字大多可讀。

我也在體驗中發現, Ideogram 的寫實類圖片一般,但塗鴉、插圖、繪畫方面不錯,藝術天賦向 Midjourney 看齊。
▲ Ideogram 生成的塗鴉藝術插圖.

Ideogram 的官網還有各種作品的熱度排行榜。打開網站的瞬間,你彷彿誤入了一個 ins 風的圖片社區,上面的提示詞也都可以學習。


當 AI 工具兼具了創意、便利和分享,就很容易讓人上頭,具體的表現是,一天的 25 次提示詞很快用完,這焦急的感覺,和等待 Suno 的積分更新差不多。

如果是每月 7 美元或者 16 美元的會員,除了更多生成次數,Ideogram 還提供了圖像上傳和編輯器的功能。

圖像上傳指的是,用户上傳自己的圖片,然後通過 Remix 功能再創作。

▲ 左為原圖,右為輸出.

編輯器除了裁剪、縮放等常規功能,還有一個很有意思的繪圖工具,從一幅抽象的圖畫生成圖片。人類的畫工粗糙勾勒各個元素的形狀、構圖、顏色等,AI 負責化腐朽為神奇,有些神筆馬良的既視感。

Ideogram 能從血雨腥風裏殺出,好用當然是最重要的,同時它的定位也很準確。

如果美學是最重要的標準,那麼 Midjourney 一騎絕塵。雖然 DALL·E 的水平時好時壞,但內置於 ChatGPT 調用方便,開源的 Stable Diffusion 則帶來了自由。

單論用户規模,Ideogram 可能哪個都打不過,但它的長板做得很好,應當也能收穫自己穩固的受眾。

至少免費可用的 AI 圖像生成器裏面,Ideogram 的整體質量領先,網頁使用方便,提供免費額度,文本渲染強大,魔法提示功能和創作者社區提供創意和靈感。

文生圖模型們還遠非完美,仍在努力地還原物理世界,或者向畫家和設計師看齊。更多的 Ideogram,或許仍能找到自己的一席之地。

這也正是 AI 競爭的殘酷和魅力所在,不知道誰能笑到最後,但永遠有新的對手瞄準阿喀琉斯之踵加入。


資料來源:愛範兒(ifanr)
標籤: Midjourney  Ideogram  

留言


請按此登錄後留言。未成為會員? 立即註冊
    快捷鍵:←
    快捷鍵:→