打敗 Midjourney，這個 Google 大牛推出的 AI 產品憑什麼彎道超車精選

由愛範兒於 03/04/2024 發表收藏文章

沒有誰能一直稱王，但加上前綴誰都有稱王的機會。

AI 文生圖，還能玩出什麼新花樣？

在這片羣雄割據的紅海，頭部被 Midjourney、DALL·E、Stable Diffusion 等佔據，其餘還能讓人眼前一亮的產品並不多。

然而，仍有黑馬殺出：Ideogram，前 Google 工程師創立，硅谷 AI 大神投資，去年 8 月面世，2 月底發佈了最新的模型。

https://s3.ifanr.com/wp-content/uploads/2024/03/hard1.gif

圖片來源：s3.ifanr.com

Ideogram 的特別在於，擅長生成包含文本的圖片，這恰恰是幾大巨頭都在改善的難題。

事實證明，從別人跌倒的地方爬起來，不失為一種彎道超車的方式。

能「畫圖」和「攝影」，但 AI 可能還是個「文盲」

讓 AI 精準生成文字，向來是個痛點，哪怕生成的人物和風景像相機拍出來的，如同亂碼的扭曲文字，瞬間讓 AI 原形畢露。

https://s3.ifanr.com/wp-content/uploads/2024/03/xia1.jpg!720

圖片來源：s3.ifanr.com

▲ Midjourney v5.2 生成的錯誤文字.

Ideogram 站出來表示，拒絕讓 AI 繼續做個「文盲」，不妨先從它開始。

接觸 Ideogram 的門檻很低，打開網頁（https://ideogram.ai/）登錄就能用，界面看起來也清爽不復雜。

生成一張圖片的步驟不多，在輸入框填完提示詞，再根據你想要的效果，勾選圖片長寬比，以及照片、海報、3D 渲染等圖片樣式。

https://s3.ifanr.com/wp-content/uploads/2024/03/jiemian1.jpg!720

圖片來源：s3.ifanr.com

Ideogram 還考慮到了人類可能是提示詞「苦手」，今年 2 月推出了「魔法提示」，這就像一個內置的 ChatGPT，幫你完善提示詞，由 AI 拿捏同類的心思。

包含文本內容的圖片有哪些？產品標誌、T 恤印花、書籍封面、電影海報……

我們先來個入門級考驗，讓幾個人舉起寫着動物名稱的指示牌，乍看文本對了，但臉和手不太正常，兩者相互抵消，原來短板沒有消失，只是轉移了。

https://s3.ifanr.com/wp-content/uploads/2024/03/pai1-1.jpg!720

圖片來源：s3.ifanr.com

如果只讓 Ideogram 寫字，效果便驚豔得多。

讓 AI 生成馬斯克的經典句子「我寧願樂觀而錯誤，也不願悲觀而正確」，除了「W」有瑕疵，其他單詞都寫對了。

字體活潑了些，70 後的馬斯克不知道能不能接受，但碰撞的黑白色，應該能讓爆改小藍鳥的他滿意。

https://s3.ifanr.com/wp-content/uploads/2024/03/font2.jpg!720

圖片來源：s3.ifanr.com

再拿經典諺語「只工作不玩耍，聰明的孩子也變傻」作為考題，雖然提示詞強調了使用打印機字體，但 Ideogram 沒能做到。看來光用提示詞還不能定義字體，只能取個近似值。

https://s3.ifanr.com/wp-content/uploads/2024/03/work1.jpg!720

圖片來源：s3.ifanr.com

接着，命令 AI 為一家叫作「Coffee AI」的 AI 初創公司設計 logo。
主體是個電路圖案的咖啡杯，右上角有個機器人咖啡師，公司名稱用粗體大寫字母寫成，排版簡單和剋制，作為 logo 來看很直觀，但總體來説在意料之中，很難讓甲方心動拍板。

https://s3.ifanr.com/wp-content/uploads/2024/03/coffee2.jpg!720

圖片來源：s3.ifanr.com

該給 AI 上難度了，句子更長，對設計的要求更高。
我要求 Ideogram 為兒童繪本設計內頁，不僅要在醒目的位置寫着「穿襪子的狐狸和戴禮帽的兔子」，底部還得標註「匿名」。

對於這兩行文字，Ideogram 基本完成了任務，用上了手繪字體和粉筆塗鴉，甚至配了符合題意的插圖，繪本的味道對了，但錯誤也很顯眼，「in」這個單詞有些問題，兔子長得像狐狸還和狐狸稱兄道弟。

https://s3.ifanr.com/wp-content/uploads/2024/03/hat2.jpg!720

圖片來源：s3.ifanr.com

Ideogram 同樣可以拿來電影海報，不妨拿前段時間爆火的、阮經天主演的電影《周處除三害》試試水。

我在提示詞裏雜糅了典故和電影，背景用到俠士剪影、海、山的意象，文字部分參考電影的英文名：豬、蛇和鴿子。

https://s3.ifanr.com/wp-content/uploads/2024/03/zhou1-1.jpg!720

圖片來源：s3.ifanr.com

除了漏了一個「the」，最終的海報效果還不錯，融合了古典的形象和現代的字體，鴿子塗鴉堪稱點睛之筆，但總體更像西幻風，讓人覺得陌生，很難聯想到電影的劇情。

體驗下來發現，其實 Ideogram 在文字上出錯的概率不小，有時候生成兩三次，才能得到一字不差的理想結果。

就算文本對了，人物的臉和手指經常翻車。

它可能還會加些花裏胡哨的小動作，隨機生成無意義且扭曲的文字，自己打臉自己。

https://s3.ifanr.com/wp-content/uploads/2024/03/ideo1.jpg!720

圖片來源：s3.ifanr.com

▲ 這裏的小字就糊成一團了.

但總體來説，Ideogram 讓人驚喜，可以寫對長句子，並且用上合適的字體和排版方式配合畫面氛圍，儘管目前還不能寫中文，但如同鬼畫符的幾個字非常貼合衣服褶皺。

https://s3.ifanr.com/wp-content/uploads/2024/03/money1.jpg!720

圖片來源：s3.ifanr.com

▲ 這四個字其實是「恭喜發財」.
瑕不掩瑜，Ideogram 的就業場景已經很多了。設計 logo、海報、T 恤圖案時，它都可以作為靈感參考和創意輔助。

以前擔心 AI 會「畫畫」和「攝影」，以後還怕 AI 有文化和會設計。

審美不輸 Midjourney，還是個表情包神器

AI 的進步按天衡量，可能一覺醒來世界就發生了變化。雖然 Ideogram 表示自己的文本渲染能力最強，但對手們也不服輸。

還未公開發布和開源的 Stable Diffusion 3 在 2 月官宣，改進了文字拼寫能力。

https://s3.ifanr.com/wp-content/uploads/2024/03/apple1-1.jpg!720

圖片來源：s3.ifanr.com

▲ Stable Diffusion 3 的拼寫能力.

去年 12 月發佈測試版的 Midjourney v6，是第一個具有可靠文本生成功能的 Midjourney 版本。

不過，它的要求也依然比較苛刻，除了必須把文字放在引號內，提示詞最好解釋文本的位置和書寫方式，並用到「印刷」「寫下」等關鍵詞，一到兩個詞的文本生成效果最好。

https://s3.ifanr.com/wp-content/uploads/2024/03/mj16.jpg!720

圖片來源：s3.ifanr.com

▲ Midjourney v6 的文本生成功能.

被追趕的 Ideogram 團隊不慌，認為優勢在我，Ideogram 仍然擁有更高的準確率，並且能夠處理複雜的長句。

Ideogram 的系統評估也表明，Ideogram 1.0 渲染文本的準確性最高，與 DALL·E 3 等其他模型相比，錯誤率降低了近 2 倍。

https://s3.ifanr.com/wp-content/uploads/2024/03/rate1.jpg!720

圖片來源：s3.ifanr.com

光説不練假把式，不如拿相同的提示詞，讓 Ideogram 1.0 和 Midjourney V6、DALL·E 3 同台競技。

先來比較生成文本的準確度，我要求 AI 們繪製一幅浮世繪風格的日出插圖，《飄》的經典台詞「明天又是新的一天」放置在合適的位置，表現希望和新生。

這次，Ideogram 完勝，拼寫準確，線條和色彩的設計也很大膽和出眾。

https://s3.ifanr.com/wp-content/uploads/2024/03/sun2.jpg!720

圖片來源：s3.ifanr.com

向來差點藝術細胞的 DALL·E 竟然意外得有質感，文字基本對了但沒完全對，畫風更加抽象，Midjourney 不僅文字不準確，審美也落了下風，甚至沒有認真聽題。

https://s3.ifanr.com/wp-content/uploads/2024/03/damj2.jpeg!720

圖片來源：s3.ifanr.com

▲ 左為 DALL·E，右為 Midjourney.

二是比拼造梗能力，Ideogram 官方特意提到了生成表情包的功能，藉助「魔法提示」，AI 會發揮自己的想象力擴寫提示詞，配上文案，讓圖片有感情色彩。
我想看 AI 能不能生成打工貓表情包，於是輸入了提示詞：「畫一個有趣的梗圖，關於一隻戴着領結和襯衫、在電腦前打字的淚流滿面的貓，比喻人類打工的辛苦。」

Ideogram 發揮腦洞，自覺地加了句文案「貓也得工作」。

美中不足的是多了個「have」，前爪的指頭數量也不對，看來 AI 不僅僅對人手犯難，拿貓爪也沒轍。對比原版表情包，算是中規中矩，不能像「流淚貓貓頭」一擊即中。

https://s3.ifanr.com/wp-content/uploads/2024/03/cat12.jpeg!720

圖片來源：s3.ifanr.com

▲ 左為網圖，右為 Ideogram.

Midjourney 的貓嚴肅且優雅，彷彿是個已經財富自由的作家，看起來更像在拍雜誌寫真，但這鼠標不知道怎麼回事。

https://s3.ifanr.com/wp-content/uploads/2024/03/mjda3.jpeg!720

圖片來源：s3.ifanr.com

▲ 左為 Midjourney，右為 DALL·E.

DALL·E 情感最為到位，畫風雖然隨意了些，但粗糙有粗糙的好處，彷彿不在一個圖層的麪條淚有內味了，真的很適合拿來當表情包用。
三是對複雜的長提示詞的理解能力，尤其是提示詞的元素是否齊全、出現的位置是否準確，所以我輸入了比較囉嗦的提示詞，規定了各個主體的位置。

https://s3.ifanr.com/wp-content/uploads/2024/03/dog888.jpg!720

圖片來源：s3.ifanr.com

Ideogram 在整體構圖上表現得更好，提示詞説到的幾個要點都覆蓋了，心形牌子、機器人、宇航員、氣球和獎牌都有，雖然宇航員的手、獎牌的字等細節出了問題。

https://s3.ifanr.com/wp-content/uploads/2024/03/dog4.jpg!720

圖片來源：s3.ifanr.com

相比之下，Midjourney 更有藝術感，但要素缺失，又多了些有的沒的裝飾，更有自己的想法和個性，DALL·E 不僅要素缺失，細節出錯，還不好看。

https://s3.ifanr.com/wp-content/uploads/2024/03/mjda4.jpeg!720

圖片來源：s3.ifanr.com

▲ 上為 Midjourney，下為 DALL·E.

所以拋開文字，光看出圖質量，Ideogram 也不差，有時候對提示詞裏各個物體空間關係的還原，比其他 AI 還要更加準確。

從使用體驗來説，Ideogram 的生成速度比 Midjourney 快，一般十幾秒就能完成四張圖片。

甚至根據行業的評估規則，人類評估者在提示對齊、圖像連貫性、整體偏好和文本渲染質量方面，更喜歡 Ideogram 1.0，而不是 DALL·E 3 和 Midjourney V6。

https://s3.ifanr.com/wp-content/uploads/2024/03/list4.jpg!720

圖片來源：s3.ifanr.com

哪怕你不滿意 Ideogram 生成的圖，把它的魔法提示詞拿去用，在 Midjourney 和 DALL·E 的生成效果，可能也比自己手搓更好，不失為一種優化提示詞的方式。

沒人能在我的 BGM 裏打敗我，但同個提示詞給不同 AI 使用，勝負還真不一定。

Google 工程師創辦的明星公司，接地氣的 AI 產品

Ideogram 成立於去年 8 月，今年 2 月推出最新的模型 Ideogram 1.0。

這又是一家明星公司，創始團隊共 7 人，來自 Google Brain、加州大學伯克利分校、卡內基梅隆大學和多倫多大學，其中 4 位是 Google 文生圖擴散模型 Imagen 研究論文的作者。

https://s3.ifanr.com/wp-content/uploads/2024/03/team1.jpg!720

圖片來源：s3.ifanr.com

謹小慎微的 Google 經常在推出產品時慢半拍，多次眼睜睜看着對手在全球聲名大噪，聊天機器人被 ChatGPT 搶先，Imagen 也被 DALL·E 2 超車。

從工程師們的角度看，研究成果無法落地為面向消費者的應用並非好事。不少人選擇了離開，親自打造新的產品，儘量開放使用，先積累下用户規模和口碑。
Ideogram 一天 25 次提示詞的免費額度，可能也是出於這樣的考慮。

市場很看好這個產品，Ideogram 完成了硅谷風投 a16z 領投的 8000 萬美元 A 輪融資，投資者中還有 AI 大神，包括 Google 首席科學家 Jeff Dean、OpenAI 創始團隊成員 Andrej Karpathy。

其實在體驗了很多 AI 產品之後，我暗暗有一個疑問：怎麼定義一款產品的好用？

https://s3.ifanr.com/wp-content/uploads/2024/03/plane6.jpg!720

圖片來源：s3.ifanr.com

▲ Ideogram 生成的 T 恤圖案.

之前讓我覺得好用的，是插件「沉浸式翻譯」，它不像 Google 翻譯覆蓋原文，可以中英文對照，不僅是新聞網頁，X 信息流、YouTube 字幕、PDF 文件，都能用上。

Ideogram 似乎也是這樣接地氣。一方面，它可以更加精準地生成用户所需的文字內容，並適配各種風格的圖片。另一方面，它也能無中生有，為圖片配上契合的文字，比如表情包。

雖然 Ideogram 生成的結果很多也不能拿來就用，但至少基本符合提示詞要求，文字大多可讀。

我也在體驗中發現， Ideogram 的寫實類圖片一般，但塗鴉、插圖、繪畫方面不錯，藝術天賦向 Midjourney 看齊。

https://s3.ifanr.com/wp-content/uploads/2024/03/dog1.jpg!720

圖片來源：s3.ifanr.com

▲ Ideogram 生成的塗鴉藝術插圖.

Ideogram 的官網還有各種作品的熱度排行榜。打開網站的瞬間，你彷彿誤入了一個 ins 風的圖片社區，上面的提示詞也都可以學習。

https://s3.ifanr.com/wp-content/uploads/2024/03/ins1.jpg!720

圖片來源：s3.ifanr.com

當 AI 工具兼具了創意、便利和分享，就很容易讓人上頭，具體的表現是，一天的 25 次提示詞很快用完，這焦急的感覺，和等待 Suno 的積分更新差不多。

如果是每月 7 美元或者 16 美元的會員，除了更多生成次數，Ideogram 還提供了圖像上傳和編輯器的功能。

圖像上傳指的是，用户上傳自己的圖片，然後通過 Remix 功能再創作。

https://s3.ifanr.com/wp-content/uploads/2024/03/road1.jpeg!720

圖片來源：s3.ifanr.com

▲ 左為原圖，右為輸出.

編輯器除了裁剪、縮放等常規功能，還有一個很有意思的繪圖工具，從一幅抽象的圖畫生成圖片。人類的畫工粗糙勾勒各個元素的形狀、構圖、顏色等，AI 負責化腐朽為神奇，有些神筆馬良的既視感。

https://s3.ifanr.com/wp-content/uploads/2024/03/loca1.gif

圖片來源：s3.ifanr.com

Ideogram 能從血雨腥風裏殺出，好用當然是最重要的，同時它的定位也很準確。

如果美學是最重要的標準，那麼 Midjourney 一騎絕塵。雖然 DALL·E 的水平時好時壞，但內置於 ChatGPT 調用方便，開源的 Stable Diffusion 則帶來了自由。

單論用户規模，Ideogram 可能哪個都打不過，但它的長板做得很好，應當也能收穫自己穩固的受眾。

至少免費可用的 AI 圖像生成器裏面，Ideogram 的整體質量領先，網頁使用方便，提供免費額度，文本渲染強大，魔法提示功能和創作者社區提供創意和靈感。

文生圖模型們還遠非完美，仍在努力地還原物理世界，或者向畫家和設計師看齊。更多的 Ideogram，或許仍能找到自己的一席之地。
這也正是 AI 競爭的殘酷和魅力所在，不知道誰能笑到最後，但永遠有新的對手瞄準阿喀琉斯之踵加入。

資料來源：愛範兒（ifanr）

標籤: Midjourney Ideogram

留言

我要評論
請按此登錄後留言。未成為會員? 立即註冊

專欄簡介

愛範兒愛範兒（ifanr）成立於 2008 年 10 月，依託於國內移動互聯網的發展大潮，用敏銳的觸覺，出色的內容，聚焦 TMT 領域資訊，迅速成為國內最為出色的新銳科技媒體。...

編輯簡介

愛範兒愛範兒（ifanr）成立於 2008 年 10 月，依託於國內移動互聯網的發展大潮，用敏銳的觸覺，出色的內容，聚焦 TMT 領域資訊，迅速成為國內最為出色的新銳科技媒體。2009 年，愛範兒獲得搜狐...

快捷鍵：←

快捷鍵：→

打敗 Midjourney，這個 Google 大牛推出的 AI 產品憑什麼彎道超車 精選

留言

專欄簡介

編輯簡介

下載 FanPiece 手機 App

打敗 Midjourney，這個 Google 大牛推出的 AI 產品憑什麼彎道超車精選