在我的電腦上就能製作沒有文字亂碼的完美海報?免費開放的設計 AI 'Ideogram 4.0'

展示電腦螢幕中生成一張包含複雜結構圖與多種語言文字的完美海報的影像
AI Summary

不再只是畫出漂亮的圖,而是能夠精準控制從海報上的文字到透明去背背景、擁有 93 億個參數規模的尖端設計專用 AI,現在已經免費公開,讓所有人都能在自己的電腦上使用。

想像一下。為了解決週末即將舉辦的社區跳蚤市場或學校慶典,您急需製作一張精美的宣傳海報。您決定拜託最近流行的聰明人工智慧 (AI),在輸入框中打下:「在充滿秋天氛圍的咖啡杯旁邊,幫我用又大又漂亮的字體寫上『來跳蚤市場玩吧』」。雖然只要短短 1 分鐘,圖畫就能瞬間生成,但最重要的引導文字卻變成了「來跳蚤市場元吧」或是像外星語一樣嚴重亂碼、無法辨識的形態。無可奈何之下,您只好把畫得很好的咖啡杯單獨裁切下來,為了把它貼到簡報檔案或傳單上,還得打開 Photoshop,熬夜握著滑鼠,為了細緻地消除後面的白色背景(俗稱「去背」)而苦苦掙扎。身處最尖端的人工智慧時代,您是否也曾有過至少一次這樣令人沮喪且繁瑣的經驗?

首先,讓我們來釐清「文字生成影像 (Text-to-Image) 人工智慧」究竟是什麼,以及它的基本原理。這項技術顧名思義,就是一種能將使用者用文字寫下的描述與說明,轉換為非常直觀的照片或圖畫的革命性軟體工具。只要使用者在畫面的輸入框中,自由輸入自己腦海中想像且希望看到的場景,人工智慧就會像海綿一樣吸收這些單字與上下文,並基於這些描述在您眼前創造出全新的影像。這些彷彿魔法般的事情,都是因為人工智慧機器學習模型已經事先努力學習了龐大數量的照片、圖畫以及與之對應的說明文字資料集,才得以實現。多虧了這項技術,即使是不會拿畫筆的人,也能非常輕鬆簡單地進行視覺創作 100% Free AI Image Generator Online -TexttoImage, No Sign-up

一直以來,許多全球 IT 企業開發的人工智慧各自展現了令人驚嘆的繪畫技巧與藝術性,但令人驚訝的是,在「寫出人類可讀的正確文字」以及「將物體配置在想要的地方的精密空間控制」這些實務設計非常基礎的領域中,它們總是難以避免不及格的命運。然而就在今天,一個足以將這些鬱悶感一掃而空的震撼消息席捲了設計界與全球技術社群。那就是以驚人的視覺真實度以及完美地在畫中寫入文字的技術而建立獨特聲譽的企業「Ideogram」,將其匯聚了最新且最頂尖技術能力的人工智慧模型「Ideogram 4.0」,以「開源 (Open-source)」的形式全面公開,讓世界上的任何人都能不限次數免費使用 Show HN: Ideogram 4.0 – open-weight 9.3B text-to-image model。簡單來說,就是任何人都能免費看到世界頂尖設計機器人的設計圖了。

這對我們的日常生活與工作為何重要?

為了理解這個巨大事件為何如此重要,我們需要先回顧這家公司的發展軌跡。原本 Ideogram 就是作為一種能將腦海中模糊的靈感轉化為肉眼可見的生動現實的視覺化工具,在創作者之間廣受喜愛 Ideogram。他們的服務展現了獨特的文字-影像融合藝術性,引領了許多重新定義藝術的創作社群加入 [Ideogram AI: Creative Text & Image Fusion Top AI Tools](https://topaitools-com.firebaseapp.com/tools/ideogram-ai)。

在初期,這項服務是基於使用者以日常自然語言(人類平時使用的語言)輸入的描述,透過稱為「深度學習 (Deep Learning,讓電腦像人腦一樣自行學習數據的技術)」的高度發展人工神經網路方法論,瞬間生成數位影像,作為一種免費增值 (Freemium,基本功能免費,但進階功能需付費的方式) 模型提供給大眾 Ideogram (text-to-image model) - Wikipedia。也就是說,雖然任何人都可以連上網站免費享受基本的影像生成功能,但如果為了商業目的而大量使用,或是想要深入存取更複雜且專業的控制功能,就必須每個月定期支付昂貴的費用,這是一種封閉的方式。

過去當 Ideogram 2.0 版本出現時,它就已經以能比任何其他商業模型更清晰地將文字寫入畫作中的功能開始嶄露頭角 Ideogram 2 AI Image Generator。接著到了 Ideogram 3.0 版本,在將人物與風景的視覺真實度 (Visual realism) 提升至極致的同時,也大幅進化為專為需要連一個拼寫都不會錯的完美文字輸出的專業創作者量身打造的 AI,將業界標準提高了一個層次 [Ideogram 3.0 - Fast, Realistic Images ImagineArt](https://www.imagine.art/features/Ideogram-3.0)。

但是,無論技術如何發展,一般的開發者或小型新創企業仍然沒有權限將這種最高級的人工智慧直接安裝在自己公司的伺服器或個人電腦上,並隨心所欲地操作。因為相當於人工智慧模型大腦的內部參數與核心數據權重,都被作為原開發公司的營業機密而嚴密隱藏起來。然而,這次全面公開的最新版 Ideogram 4.0,是該公司漫長歷史上首次解開那扇緊閉的門栓,對大眾完全開放的基礎模型 (Foundation model) Show HN: Ideogram 4.0 – open-weight 9.3B text-to-image model

這個決定不僅僅是代表網路上「多了一個免費繪圖程式」這麼輕巧的意義。這是一項驚人的宣言,意味著全世界天才般的開發者與設計師們,都能直接免費下載這個強大 AI 的整個大腦結構,永久安裝在自己的電腦上,並根據自己專案的口味修改內部,將能創造出全新客製化設計自動化工具的無盡材料免費釋放到世界上 ideogram-ai/ideogram-4-fp8 · Hugging Face。這就等於是讓一個擁有與地球人口數量相近、約 93 億個腦細胞的天才設計師,免費進駐到我的 PC 裡一樣。

簡單易懂:93 億個微型開關與全新的建築設計圖

這個全新且開放的人工智慧與過去的工具相比,究竟聰明到什麼壓倒性的程度?讓我們從稍微技術面,但非常淺顯易懂的角度來深入探討。Ideogram 4.0 的核心大腦容量,被高達「93 億個 (9.3B)」的參數 (Parameter,人工智慧用來處理資訊與做出決策的數值) 緊密地填滿 Ideogram 4.0 Day-0 Support in ComfyUI: Open Weights and …

如果這個龐大的數字讓您覺得難以體會,請試著想像一間巨大的音樂錄音室。打個比方,您可以把它想像成人工智慧的大腦裡,安裝了一個尺寸驚人、密密麻麻地排列著 93 億個微型音量調節開關的音訊混音控台,可以非常細緻地調節畫作整體的色調、筆觸的感覺、細線的粗細、各國語言文字的微小形狀、以及物體的準確位置等 Show HN: Ideogram 4.0 – open-weight 9.3B text-to-image model …。當使用者坐在電腦前,按下 Enter 鍵輸入「充滿秋天氛圍的咖啡杯與文字」這一行字時,人工智慧內部的 93 億個開關就會以比閃電還快的速度同時「噠噠噠」地運作,這就是精準組合並產出最完美符合使用者意圖的最佳畫作的機制。

最令人驚訝且備受學界矚目的一點在於,這個龐大的 93 億個開關板究竟是「如何被製造出來的」。近年來人工智慧業界流行的高性價比且高效的製作方式,是為了節省龐大的訓練時間與超級電腦昂貴的運算成本,以已經被打造得很聰明的巨大第三方 AI 作為基礎骨架,並在上面補充數據以使其在特定領域的功能表現得稍微好一點的「微調 (Fine-tune)」方式。然而,Ideogram 開發團隊放棄了這條捷徑,選擇了一條完全不同的艱辛道路。Ideogram 4.0 是一項完全沒有重複使用任何現有模型骨架或知識哪怕 1%,而是從最底層的基礎數據開始,在什麼都沒有的白紙狀態下,完全從零開始,以近乎無腦般的誠懇態度進行訓練 (Trained from scratch) 的最尖端模型 ideogram-ai/ideogram-4-fp8 · Hugging Face

如果用建築來比喻,您就能立刻理解這差距有多大。它絕對不是保留著別人以前用剩的二手建築柱子,隨便拆除外觀破舊的牆壁,貼上漂亮的壁紙進行翻修,只求表面好看的建築。這是在一塊空地上挖得很深,從最堅固的地基工程開始一步一步來,每一個骨架都只嚴格挑選最高級的建材,完美設計的客製化大樓。他們採用了一種被稱為「單流擴散 Transformer (Single-stream diffusion transformer,將影像與文字融合在單一流水線中俐落處理的最新 AI 結構)」的創新工法,來打造這棟建築的內部結構 Show HN: Ideogram 4.0 – open-weight 9.3B text-to-image model …。這是一棟為了達成「讓使用者完美控制設計」這個單一目的,毫不妥協地從基礎開始建立的最高級客製化智慧大樓。

那麼,在這個精心打造的全新技術大樓裡,具體來說能為設計師施展哪些魔法呢?

第一,是壓倒市場上所有其他模型的獨創 「文字渲染 (Text Rendering)」 能力。雖然在以前的版本中寫英文字就已經相當不錯,但這次的 4.0 版本不僅超越了英文,更標榜在眾多多語言 (Multilingual) 環境中也能刷新最高水準的效能 Show HN: Ideogram 4.0 – open-weight 9.3B text-to-image model。即使指示要在複雜的宣傳海報上混合寫入韓文、英文、西班牙文、數字與符號,文字也不會在中間糊成一團或拼錯,它能畫出非常乾淨且清晰的文字,就像是有著 20 年經驗的專業字體排印設計師用心挑選字體並調整字距所完成的作品一樣。隨著多語言處理變得自由,韓語使用者的實用性也獲得了極大的提升 GPTImage2: Try ChatGPT Images 2.0 Free Online, No Sign-up

第二,是可以比公司主管更挑剔、更準確地指定具體位置的 「作業指示 (Controllability)」 系統變為可能。過去,我們只能對人工智慧丟出像「幫我漂亮又協調地排好」這種含糊不清的話,所以標誌或文字每次都會隨機出現在奇怪的角落。但現在,透過電腦系統可以完美讀取並掌握的結構化數據文件「JSON (用於交換資料的簡單文字格式)」,我們可以對 AI 下達毫無誤差的數學指令 Show HN: Ideogram 4.0 – open-weight 9.3B text-to-image model …

使用這個 JSON 文件,簡單來說就等於是寫下施工現場的「精密作業指示書」。如果您寫下具體的座標數值:「商標標誌要精確地放在以畫面右上角為基準、寬 10 公分、高 5 公分的盒子區域內,絕對不能超出」,AI 就會心領神會並服從指令 [Ideogram 4.0 API Runware Docs](https://runware.ai/docs/models/ideogram-4-0)。在專業術語中,這被稱為能靈活感知空間的 「邊界框 (Bounding-box) 版面控制」,這是一種非常強大且必要的技術,它允許您隨心所欲地將看不見的透明數學方形盒子配置在畫面的任何地方,並控制 AI 絕對不能偏離該線段框架哪怕 1 個像素,只能在其中生成物體或文字 Show HN: Ideogram 4.0 – open-weight 9.3B text-to-image model

第三,是能絕對左右影像整體感性與氛圍的 「調色盤控制 (Color palette control)」 功能被深度整合到了核心引擎中 Show HN: Ideogram 4.0 – open-weight 9.3B text-to-image model …。在進行設計工作時,有時候會因為公司規定而必須使用特定的顏色,相反地,有時也需要阻止 AI 隨心所欲地在畫面上潑灑俗氣的顏色。只要活用這個顏色控制功能,就能從頭到尾堅定不移地維持完全符合企劃意圖的色調與風格。

現況:究竟能活用到什麼程度?成為主流的免費設計引擎

既然如此,有了這麼聰明驚人的技術,我們今天在實務上具體能創造出什麼呢?Ideogram 4.0 絕對不是單純用來畫可愛小狗圖片、笑一笑就過去的娛樂玩具。這個模型是為了解決資訊圖表 (Infographic)、智慧型手機 App 畫面設計 (UI Mockup)、商業產品照片、街頭海報製作等需要高度複雜性的專業圖形工作,為了使其生產力呈現爆炸性成長而完美聚焦的工具 [Ideogram 4.0 API Runware Docs](https://runware.ai/docs/models/ideogram-4-0) GPTImage2: Try ChatGPT Images 2.0 Free Online, No Sign-up
從解析度規格開始就是壓倒性的專家級。所有生成出來的影像,都會直接以只有在最高階螢幕上才能看到的清晰 2K 解析度超高畫質輸出提供 [Ideogram 4.0 API Runware Docs](https://runware.ai/docs/models/ideogram-4-0)。不僅是網站上的大型主視覺橫幅,就連只要品質稍微下降,在印刷時就會全部碎裂的實體雜誌印刷品,也能在不需要任何額外補強作業的情況下直接使用,這是一種令人驚嘆的清晰度水準。
但在實務中,讓無數熬夜工作的設計師與行銷人員最為狂熱的魔法般部分,莫過於預設搭載的 「透明背景 (Transparent background) 生成」 功能 [Ideogram 4.0 API Runware Docs](https://runware.ai/docs/models/ideogram-4-0)。過去普通的 AI 服務,無論能把多麼帥氣的角色或時尚的標誌畫得多麼絕妙,在拍攝主體後面總是會混雜著無用的白色單色背景或難以分離的風景。因此,最後還是必須由人類親手用滑鼠沿著輪廓一針一線地描繪並剔除背景,經歷極大的時間浪費(去背)。

然而這次公開的 Ideogram 4.0,只要使用者下達命令,從一開始生成影像的那一刻起,就會完美且俐落地吐出主體背後完全挖空的透明形態 (PNG 格式) 成果。只要把完成的標誌或商品圖片拖曳過來,隨意地放在 PowerPoint 文件或 YouTube 影片字幕旁邊,漫長且痛苦的合成作業就能在短短 1 秒鐘內結束。

最重要的是,整個技術界評價最令人振奮的事實是,這個模型一以完全開源的形式公開,生態系統就展現出了爆炸性的反應速度。目前在全球基於人工智慧的圖形工作者之間,最受歡迎的必備軟體中,有一個名為「ComfyUI」的程式。這是一個即使不懂複雜的程式碼,也能將 AI 的各種特殊功能像樂高積木一樣用線連接起來,設計出強大的客製化工作流程的免費工具。

當 Ideogram 4.0 的核心數據權重 (Open-weights) 檔案一在開源自由生態系統中釋出,全球的開發者社群便立即展開行動。令人驚訝的是,從模型推出的第一天起,官方就奇蹟般地提供了支援,讓這個性能驚人的模型能在 ComfyUI 環境中,在沒有任何錯誤的情況下完美且自然地運作 Ideogram 4.0 Day-0 Support in ComfyUI: Open Weights and …。這象徵著歷史性的一天,我們不需要支付昂貴的按月美元訂閱費,只要有一台插著合適顯示卡 (GPU) 的個人電腦,就能免費在自己的房間裡建立全球最先進的尖端視覺設計生產工廠。

未來將會如何?無限擴張的人類創造力素描本

一直以來,在我們周遭有太多人,即使擁有出色且閃耀的想法,卻僅僅因為不會操作像 Photoshop 或 Illustrator 這種繁重的專業軟體而感到挫折。又或者,有許多準創作者為了從數萬種字體中挑選,或是為了將版面的留白調整到像素等級而浪費了寶貴的人生時間,最終只能放棄創作。

從這個角度來看,擁有 93 億個大腦細胞的巨人——Ideogram 4.0 的完全開源開放,絕對不是「又出了一個新奇有趣的免費玩具」這種程度的輕鬆消息。

由於這塊出色的核心技術精華已經化為程式碼釋放出來,全世界的任何人都能自由地窺探其內部、拆解並重新組裝,因此在未來的幾週或幾個月內,地球村各處的無數天才程式設計師們,將開始按照自己的喜好改造這個堅固的骨架模型。不久之後,數千、數萬種專為特殊目的特化的「變體特化 AI 模型」將會如瀑布般湧現。舉例來說,可能會有一個只在全世界最絕妙地渲染韓國古色古香傳統書法筆觸的 AI,或是專門設計行動購物 App 按鈕配置版面的聰明凌晨秘書,將會華麗地重生。

現在的影像生成人工智慧,已經完全脫離了那個不管使用者說什麼,都只會閉著眼睛、隨心所欲地亂揮五顏六色顏料畫筆的「不聽話的怪才畫家」階段。取而代之的,它已經成功進化為在精確計算的座標位置上、只使用嚴格遵守公司規定的顏色、並且不容許出現任何錯字,能夠按照接收到的指令數值俐落地印出清晰的多語言文字並服從的,一位非常誠懇且一絲不苟的「首席製圖師」。一直以來,那道阻礙著我們將腦海中的抽象想法清晰地轉化為視覺現實的沉重技術障礙,就在今天以 Ideogram 4.0 為起點,被徹底地打破了。


MindTickleBytes 的 AI 記者視角 在過去幾年中,隨著高度發展的人工智慧突飛猛進,業界充滿了恐懼的悲觀聲音,認為人類設計師所有的工作機會最終都會被無情地剝奪。然而,像 Ideogram 4.0 這種從設計階段開始就能被人類透過數值控制,並接收結構化語言指示的順從工具的出現,反而清晰地展現了完全不同方向的充滿希望的未來。

人工智慧並不是要試圖成為自己擠出偉大靈感、陷入苦思的具有主體性的天才設計師。這個龐大的神經網路,只是正在成為歷史上最出色、最忠實的「終極數位畫筆」,它能毫無怨言地、不分晝夜地完美執行人類設計師最嚴苛的要求與條件指示。創造出震驚世界、無中生有的創造力,將永遠是流淌著溫暖血液的人類所獨有的領域;而這些被重新鍛造的人工智慧工具,將僅僅扮演耀眼的催化劑,將這股創造力突破物理限制、在廣闊世界上綻放光芒的速度,提升至無限大的水準。


參考資料

  1. Ideogram (text-to-image model) - Wikipedia
  2. Show HN: Ideogram 4.0 – open-weight 9.3B text-to-image model
  3. Show HN: Ideogram 4.0 – open-weight 9.3B text-to-image model …
  4. Ideogram 4.0 Day-0 Support in ComfyUI: Open Weights and …
  5. [Ideogram 4.0 API Runware Docs](https://runware.ai/docs/models/ideogram-4-0)
  6. ideogram-ai/ideogram-4-fp8 · Hugging Face
  7. 100% Free AI Image Generator Online -TexttoImage, No Sign-up
  8. [Ideogram AI: Creative Text & Image Fusion Top AI Tools](https://topaitools-com.firebaseapp.com/tools/ideogram-ai)
  9. [Ideogram 3.0 - Fast, Realistic Images ImagineArt](https://www.imagine.art/features/Ideogram-3.0)
  10. GPTImage2: Try ChatGPT Images 2.0 Free Online, No Sign-up
  11. Ideogram 2 AI Image Generator
  12. Ideogram
測試你的理解
Q1. Ideogram 4.0 模型與之前其他模型或一般的影像生成 AI 相比,在製作方式上最大的特徵是什麼?
  • 在現有模型上加入新數據進行微調 (Fine-tune)。
  • 不重複使用任何現有模型,完全從零開始從頭訓練 (Trained from scratch)。
  • 簡化結構使其只能理解簡單的文字提示。
Ideogram 4.0 並非現有模型的衍生或微調版本 (Fine-tune),而是完全獨立、從白紙狀態開始全新訓練 (trained from scratch) 的模型。
Q2. 在 Ideogram 4.0 中,使用者為了精準指定影像中物體或文字的位置,所使用的控制技術名稱是什麼?
  • 邊界框 (Bounding-box) 版面控制
  • 自然語言情感分析控制
  • 隨機雜訊過濾控制
使用者可以結合電腦易於理解的 JSON 結構與邊界框控制功能,像透明盒子一樣精準指定影像中特定元素出現的位置與大小。
Q3. 下列何者是 Ideogram 4.0 模型基本上能生成的影像最高解析度品質?
  • HD (720p)
  • Full HD (1080p)
  • 2K (超高畫質)
最新的 Ideogram 4.0 模型可以產出達到 2K 解析度 (2K output) 的高品質輸出,能夠直接應用於專業的設計作品中。