一款不仅能绘制精美图片,还能极其精准地控制海报内文字甚至透明去背背景、拥有93亿参数规模的顶尖设计专用AI,现已免费开源,任何人都能在自己的电脑上使用了。
想象一下。周末社区要办跳蚤市场或者学校要办庆典,您需要紧急制作一张精美的宣传海报。您决定求助于最近流行的智能人工智能(AI),在输入框中敲下:“在一个充满秋日氛围的咖啡杯旁边,用又大又漂亮的字体写上‘欢迎来跳蚤市场玩’”。仅仅1分钟,图片就做出来了,但最关键的提示文字却变成了“欢莹来跳蚤市长丸”或者像外星文一样严重乱码,根本看不懂。无奈之下,您只能把画得很好的咖啡杯单独截取下来,想要贴到演示文档或传单上,结果为了精细地擦除背后的白色背景(俗称“抠图”),您不得不打开Photoshop,熬夜握着鼠标苦苦挣扎。明明生活在尖端的人工智能时代,您是否也曾有过这样令人郁闷和繁琐的经历?
首先,我们来梳理一下“文本到图像(Text-to-Image)人工智能”到底是什么,它的基本原理又是什么。顾名思义,这项技术是一款革命性的软件工具,能将用户用文字写下的描述和说明转换为非常直观的照片或图画。用户只需在屏幕输入框中自由敲下脑海中想象并希望看到的场景,人工智能就会像海绵一样吸收这些单词和上下文,并基于这些说明创造出呈现在您眼前的全新图像。所有这些仿佛魔法般的体验,都要归功于人工智能机器学习模型提前努力学习了庞大的图像数据集,这些数据集中包含了无数的照片、图画以及与之对应的说明文字。得益于这项技术,即使是不会拿画笔的人,也能非常轻松简单地进行视觉创作 100% Free AI Image Generator Online -TexttoImage, No Sign-up。
一直以来,许多全球IT企业开发的人工智能都在各自展现出令人惊叹的绘画实力与艺术性,但令人吃惊的是,在实际设计业务中最基本的领域,即“写出人类可读的准确文字”和“将物体放置在所需位置的精细空间控制”方面,它们却总是无法及格。然而今天,一个彻底驱散这些烦恼的重磅消息席卷了设计界和全球技术社区。这是因为一家以令人惊叹的视觉真实感和在图像中完美书写文字的技术而积累了独一无二声誉的企业“Ideogram”,将其最新且汇聚了最高技术实力的AI模型“Ideogram 4.0”以“开源(Open-source)”的形式全面公开,世界上任何人都可以毫无次数限制地免费拿来使用 Show HN: Ideogram 4.0 – open-weight 9.3B text-to-image model。简而言之,就是任何人都可以免费看到世界上最顶尖的设计机器人的蓝图了。
为什么这对我们的日常生活和工作如此重要?
| 要理解这个重大事件为何如此重要,我们首先需要回顾一下这家公司的发展历程。原本,Ideogram作为一款可视化工具,在创作者群体中广受喜爱,它能将只在脑海中盘旋的模糊灵感转化为肉眼可见的生动现实 Ideogram。他们的服务展现了独特的文本-图像融合艺术性,引领了众多致力于重新定义艺术的创作社区的加入 [Ideogram AI: Creative Text & Image Fusion | Top AI Tools](https://topaitools-com.firebaseapp.com/tools/ideogram-ai)。 |
早期,这项服务通过一种名为“深度学习(Deep Learning,计算机像人脑一样自主学习数据的技术)”的高级人工神经网络方法论,将用户用日常自然语言输入的描述转化为数字图像,并作为一种“免费增值(Freemium,基础功能免费,高级功能收费的模式)”模型提供给大众 Ideogram (text-to-image model) - Wikipedia。也就是说,任何人都可以访问网站免费体验基本的图像生成功能,但如果想将其大量用于商业目的,或是深入接触更复杂、更专业的高级控制功能,就必须每月定期支付昂贵的费用,这是一种封闭的模式。
| 过去,从Ideogram 2.0版本问世起,它就已经开始凭借比任何其他商业模型都更清晰地在图像中写入文本的功能崭露头角 Ideogram 2 AI Image Generator。到了随后推出的Ideogram 3.0版本,它极大地提升了人物和风景的视觉真实感(Visual realism),同时演变成了一款专为那些需要完美无拼写错误的文本输出的专业创作者量身定制的AI,将行业标准提升到了一个新的高度 [Ideogram 3.0 - Fast, Realistic Images | ImagineArt](https://www.imagine.art/features/Ideogram-3.0)。 |
但是,无论技术如何发展,普通开发者或小型初创企业仍然没有权限将这种最高级的AI直接安装在自己的公司服务器或个人电脑上并随意操作。这是因为,相当于人工智能模型大脑的内部参数(Parameters)和核心数据权重,被作为核心原厂开发公司的商业机密给严严实实地隐藏了起来。然而,此次震撼公开的最新版Ideogram 4.0,是该公司漫长历史上首次解开那紧闭的门闩,向大众完全开放的基础模型 Show HN: Ideogram 4.0 – open-weight 9.3B text-to-image model。
这个决定绝不仅仅意味着互联网上“多了一个免费画图软件”这么简单。这是一个重磅宣言,意味着无穷无尽的素材已经免费投放到世界上,全世界才华横溢的开发者和设计师们都能直接免费下载这个强大AI的整个大脑结构,将其永久安装在自己的电脑上,并根据自己的项目需求进行内部改造,从而创造出完全崭新的定制化设计自动化工具 ideogram-ai/ideogram-4-fp8 · Hugging Face。这等同于一个拥有约93亿个脑细胞(数量与地球人口相近)的天才设计师免费入驻了你的个人电脑中。
轻松理解:93亿个微调开关与全新建筑蓝图
从稍微偏技术性但通俗易懂的角度来看看,这个全新开放的人工智能与过去那些工具相比,究竟聪明到了什么程度呢?Ideogram 4.0的核心大脑容量被填满了高达“93亿个(9.3B)”参数(Parameter,人工智能用来处理信息和做出决定的数值) Ideogram 4.0 Day-0 Support in ComfyUI: Open Weights and …。
如果这个庞大的数字让您觉得难以体会,不妨想象一个巨大的音乐录音棚。打个比方,可以将其理解为一个规模惊人的音频混音台,在这个人工智能的大脑里,密密麻麻地安装了多达93亿个微调开关,能够极其细致地调节图像的整体色彩、笔触质感、纤细线条的粗细、各国语言文字的细微形状以及物体的精确位置等 Show HN: Ideogram 4.0 – open-weight 9.3B text-to-image model …。当用户坐在电脑前敲下一行“秋日氛围的咖啡杯和文字”并按下回车键的瞬间,AI内部这93亿个开关就会以闪电般的速度同时滴答作响,精密地组合并输出最完美符合用户意图的最佳图像。
最令人惊叹并引起学术界关注的一点是,这个庞大的93亿开关板究竟是“如何被制造出来的”。最近在人工智能行业流行一种性价比高且高效的制作方式,即为了节省庞大的训练时间和超级计算机昂贵的运算成本,把别人已经做好的聪明的大型AI作为基础骨架,再补充特定领域的数据,让它在某方面做得稍微更好一些,这就是“微调(Fine-tune)”方式。然而,Ideogram开发团队放弃了捷径,选择了一条截然不同的艰难之路。Ideogram 4.0没有回收利用任何现有模型的骨架或知识哪怕1%,而是完全从零开始、从最基础的数据起步,近乎“愚公移山”般从头开始踏踏实实训练(Trained from scratch)出来的最尖端模型 ideogram-ai/ideogram-4-fp8 · Hugging Face。
如果用建筑来比喻,您就能一眼看出这两者的差距有多大。它绝不是那种随便保留别人废弃的二手建筑柱子,随便推倒表面破旧的墙壁,再贴上漂亮的壁纸进行翻新,只求表面好看的建筑。它是从空地开始深挖地基,一步一步踏踏实实打下最坚固的基础,每一根骨架都严格挑选最高级材料,完美设计而成的定制大楼。他们采用了一种被称为“单流扩散 Transformer(Single-stream diffusion transformer,将图像和文本融为同一处理流并干净利落地同步处理的最新AI结构)”的创新工艺来建造这座大楼的内部结构 Show HN: Ideogram 4.0 – open-weight 9.3B text-to-image model …。可以说,这是一座为了达成“让用户实现完美设计控制”这唯一目的、绝不妥协、从地基拔地而起的顶级定制智能大厦。
那么,在这座精心建造的新技术大厦里,到底能为设计师们施展哪些魔法般的操作呢?
第一,压倒市场上所有其他模型的独一无二的“文本渲染(Text Rendering)”能力。虽然在之前的版本中写英文字母已经相当不错,但这次的4.0版本不仅限于英语,在众多多语言(Multilingual)环境中同样刷新了最高水平的性能 Show HN: Ideogram 4.0 – open-weight 9.3B text-to-image model。即使你指示它在复杂的宣传海报上混合使用韩文、英文、西班牙文、数字和符号,文字也不会出现中途模糊或拼写错误的情况,它能非常干净清晰地绘制出文字,就像拥有20年经验的专业排版设计师精心挑选字体并调整字距所做出的作品一样。随着多语言处理变得游刃有余,韩语用户的实用性也得到了极大提升 GPTImage2: Try ChatGPT Images 2.0 Free Online, No Sign-up。
第二,能够比职场上司更加挑剔且准确指定具体位置的“控制力(Controllability)”系统成为现实。过去,只能对人工智能抛出像“把它布置得漂亮又和谐”这样模棱两可的话,因此徽标或文字常常随机出现在莫名其妙的角落里。但现在,我们可以通过计算机系统能够完美读取和解析的结构化数据文档——“JSON(用于交换数据的轻量级文本格式)”,向AI下达分毫不差的数学命令 Show HN: Ideogram 4.0 – open-weight 9.3B text-to-image model …。
| 简单来说,使用这个JSON文档就像在建筑工地上写下“精密施工指令”。如果您写下诸如“品牌徽标必须精确地放置在距离屏幕右上角宽10厘米、高5厘米的方框区域内,绝不可超出”的具体坐标数值,AI就能完全听懂并绝对服从 [Ideogram 4.0 API | Runware Docs](https://runware.ai/docs/models/ideogram-4-0)。在专业术语中,这种智能识别空间的技术被称为“边界框(Bounding-box)布局控制”。您可以随意在屏幕任何位置放置不可见的透明数学方块框架,并控制AI绝对不越界1像素,只在其中生成物体或文本,这是一项非常强大且必不可少的技术 Show HN: Ideogram 4.0 – open-weight 9.3B text-to-image model。 |
第三,绝对主导图像整体情感和氛围的“调色板控制(Color palette control)”功能已深度集成到核心引擎中 Show HN: Ideogram 4.0 – open-weight 9.3B text-to-image model …。在进行设计工作时,有时因为公司规定必须只使用特定颜色,或者相反,需要阻止AI随心所欲地在画面上泼洒土气的颜色。运用这种色彩控制功能,就能自始至终坚定不移地维持符合策划意图的完美调性与风格。
现状:能应用到什么程度?已成主流的免费设计引擎
| 那么,利用变得如此聪明惊人的技术,我们今天到底能在实际工作中创造出什么呢?Ideogram 4.0绝不仅仅是用来画可爱小狗图片逗乐的娱乐玩具。这个模型是一个完全对准焦点的工具,旨在引爆需要高度复杂性的正规图形专业工作的生产力,例如信息图表(Infographics)、智能手机应用界面设计(UI Mockup)、商业产品摄影、街头海报制作等 [Ideogram 4.0 API | Runware Docs](https://runware.ai/docs/models/ideogram-4-0) GPTImage2: Try ChatGPT Images 2.0 Free Online, No Sign-up。 |
| 单从分辨率规格来看,就达到了碾压其他产品的专家级别。所有生成输出的图像都会直接提供清晰的2K分辨率超高清画质,这种画质通常只能在最高级的显示器上看到 [Ideogram 4.0 API | Runware Docs](https://runware.ai/docs/models/ideogram-4-0)。这不仅能用于网站首页的大型横幅,其惊人的清晰度甚至可以不经过任何额外修图处理,就直接应用于品质稍有下降在印刷时就会全部糊掉的线下杂志印刷品中。 |
| 然而,让无数在实际工作中熬夜加班的设计师和营销人员最为之狂热的魔法般的功能,莫过于默认搭载的“透明背景(Transparent background)生成”功能了 [Ideogram 4.0 API | Runware Docs](https://runware.ai/docs/models/ideogram-4-0)。现有的普通AI服务无论能把帅气的角色或精美的Logo画得多么绝妙,总是会连同主体背后无用的白色纯色背景或难以剔除的风景一起生成。因此,最终只能由人拿着鼠标一针一线地勾勒边缘、把背景挖掉,忍受巨大的时间浪费(抠图)。 |
但是,这次发布的Ideogram 4.0只需用户下达指令,它在生成图像的最初瞬间,就能完美且干净利落地吐出背后被彻底掏空的透明形式(PNG格式)结果。只需将生成好的Logo或商品图片拖放并放在PowerPoint文档或YouTube视频字幕旁边,原本漫长而痛苦的合成工作在短短1秒内就结束了。
最令人振奋、也被整个技术界给予极高评价的事实是,当这个模型以完全开源的形式发布后,生态系统所展现出的爆发性响应速度。目前,在全球基于AI的图形工作者中最受欢迎的必备软件之一是一个叫作“ComfyUI”的程序。这是一个即使不懂复杂代码,也能像拼乐高积木一样将AI的各项特殊功能用线连接起来,设计出强大定制化工作流的免费工具。
随着Ideogram 4.0的核心数据——权重(Open-weights)文件被投放到开源自由生态系统的瞬间,全球的开发者社区便立即行动了起来。令人吃惊的是,在模型发布的第一天,就已经奇迹般地实现了官方支持,让这款性能惊人的模型在ComfyUI环境中毫无报错、完美自然地运行 Ideogram 4.0 Day-0 Support in ComfyUI: Open Weights and …。这标志着一个历史性的一天:您无需每月支付昂贵的美元订阅费,只要拥有一台插有适当显卡(GPU)的个人电脑,就能在自己的房间里免费构建全球最先进的尖端视觉设计生产工厂。
未来会怎样?无限膨胀的人类创造力素描本
一直以来,我们身边有太多人因为不懂得操作Photoshop或Illustrator等笨重的专业软件而感到挫败,尽管他们脑海中闪烁着绝妙的点子。也有无数预备创作者在成千上万种字体中苦苦寻找,或者只是为了在像素级别上调整布局空白,白白浪费了宝贵的人生时间,最终选择放弃创作。
从这个角度来看,拥有93亿个脑细胞的巨人——Ideogram 4.0的完全开源开放,绝对不仅仅是一个停留在“又出了个新奇有趣的免费玩具”这种轻量级层面上的消息。
因为这套卓越的核心技术块已化作代码向全世界开放,任何人都可以自由窥探其内部、将其拆解并重新组装。所以在未来的几周或几个月内,全球各地的无数天才程序员将开始根据自己的口味改造这个坚固的骨架模型。不久的将来,数以千万计为特殊目的量身定制的“变体专用AI模型”将如瀑布般涌现。例如,可能会华丽诞生出专精于在世界上最完美渲染韩国古风传统书法毛笔字的AI,或是专门负责设计移动购物App按钮布局的智能黎明秘书。
如今,图像生成人工智能已经完全摆脱了那种不管用户说什么,只管闭着眼睛随意挥舞五颜六色画笔的“不听话的怪人画家”阶段。取而代之的是,它已经成功进化为一位极其诚恳且细致的“首席绘图师”,绝对服从指令,在精确计算的坐标位置,严格使用符合公司规定的颜色,一字不差地印制出被要求的多语言清晰文本。阻碍我们将脑海中抽象的想法拉进清晰的视觉现实过程中的那道沉重的技术门槛,正是以今天的Ideogram 4.0为起点,被彻底推翻了。
MindTickleBytes的AI记者观点 在过去的几年里,随着高级人工智能以可怕的速度发展,整个行业充斥着充满恐惧的悲观声音,认为它们最终会无情地夺走人类设计师的所有工作。然而,像Ideogram 4.0这种从设计阶段就能由人类通过数值进行控制、通过结构化语言接受指令的顺从工具的出现,反而清晰地向我们展示了一个充满希望的、截然不同的未来。
人工智能并不是想成为靠自己绞尽脑汁挤出伟大灵感的主观天才设计师。这个庞大的神经网络正在成为历史上最优秀、最忠诚的“终极数字画笔”,它夜以继日、毫无怨言地完美执行人类设计师最苛刻的要求和各种附带条件的指令。创造从无到有、惊艳世界的那份创造力,将永远属于流淌着温热血液的人类本身,而这些被重新打磨的人工智能工具,只是一剂耀眼的催化剂,将这种创造力突破物理限制、走向广阔世界的速度提升到无限大。
参考资料
- Ideogram (text-to-image model) - Wikipedia
- Show HN: Ideogram 4.0 – open-weight 9.3B text-to-image model
- Show HN: Ideogram 4.0 – open-weight 9.3B text-to-image model …
- Ideogram 4.0 Day-0 Support in ComfyUI: Open Weights and …
-
[Ideogram 4.0 API Runware Docs](https://runware.ai/docs/models/ideogram-4-0) - ideogram-ai/ideogram-4-fp8 · Hugging Face
- 100% Free AI Image Generator Online -TexttoImage, No Sign-up
-
[Ideogram AI: Creative Text & Image Fusion Top AI Tools](https://topaitools-com.firebaseapp.com/tools/ideogram-ai) -
[Ideogram 3.0 - Fast, Realistic Images ImagineArt](https://www.imagine.art/features/Ideogram-3.0) - GPTImage2: Try ChatGPT Images 2.0 Free Online, No Sign-up
- Ideogram 2 AI Image Generator
- Ideogram
- 在现有模型基础上添加新数据进行了微调(Fine-tune)。
- 没有回收利用任何现有模型,而是完全从零开始进行从头训练(Trained from scratch)。
- 简化了结构,使其只能理解简单的文本提示词。
- 边界框(Bounding-box)布局控制
- 自然语言情感分析控制
- 随机噪声过滤控制
- HD (720p)
- Full HD (1080p)
- 2K (超高清)