主要观点总结
本文介绍了Ideogram 2.0模型在生成图像领域的突破,其文本渲染能力强大,可生成不同风格的图像,并优化了AI在文本渲染方面的问题。与其他模型如Midjourney和Flux相比,Ideogram 2.0在文本渲染和图像质量方面表现更优秀。此外,Ideogram还开放了API构建,并上线了App Store应用程序。然而,该模型目前仅限于英文文本渲染,其他语种的渲染还需等待。
关键观点总结
关键观点1: Ideogram 2.0模型推出并支持生成不同风格的图像。
Ideogram 2.0能够生成一般、写实、设计、3D和动漫等不同风格的图像。其中,写实风格可以生成照片样的图像,设计风格则可以轻松生成logo、海报等。
关键观点2: Ideogram 2.0解决了AI生成图像领域的文本渲染问题。
Ideogram 2.0模型具备强大的文本渲染能力,可以轻松处理约20个单词的内容,在生成图像时能够正确呈现文本内容,这在AI生图模型中是非常突出的。
关键观点3: Ideogram 2.0与其他模型如Midjourney和Flux相比表现更优秀。
在对比实验中,Ideogram 2.0在文本渲染和图像质量方面表现优于Midjourney和Flux。例如,在面对复杂的文本内容时,Ideogram能够更准确地呈现文本内容,而Midjourney和Flux则表现不佳。
关键观点4: Ideogram 2.0开放了API构建并上线了App Store应用程序。
开发人员可以将Ideogram 2.0集成到自己的应用程序中,该API能以更低的成本提供更卓越的图像质量。此外,App Store上也上线了Ideogram的应用程序,方便用户使用。
关键观点5: Ideogram 2.0的文本渲染功能目前仅限于英文。
目前,Ideogram 2.0的文本渲染功能仅限于英文,其他语种的渲染还需等待。这可能是因为中文的复杂笔画和汉字数量对AI来说是一个巨大的挑战。
正文
Ideogram,一个一年前发布的AI生图模型,在生成图片领域一直不温不火,甚至大有要被遗忘的趋势。但就在昨晚,Ideogram重磅推出他们模型的2.0版本,成功以超强的文字渲染能力,一骑绝尘。![](http://mmbiz.qpic.cn/mmbiz_png/5fknb41ib9qGcOuknxkUoPjX5MgptoHWnHX2puvO8r0VfF6lxPFkicWg8dGAicnx02evlr8zMhbptmOFv2YnfcA0A/640?wx_fmt=png&from=appmsg)
Ideogram宣布,该模型支持生成5种不同的风格的图片:一般、写实、设计、3D和动漫。写实风格可以生成照片样的,设计风格可以轻松生成logo、海报等。据评估,Ideogram 2.0明显优于Midjourney和OpenAI的DALLE-3。令人眼前一亮的是,Ideogram称自己的文本渲染是业界领先水平,新的模型解决了AI生成图像领域的文本渲染问题,可以轻松处理约20个单词的内容。要知道,一直以来,AI生图模型在文本渲染方面饱受诟病。哪怕是想在图片中生成寥寥数语,AI的表现也不尽人意。这里拿比较火的Midjourney和Flux Schnell展示一下,我给它们输入这样的prompt:An illustration of a letter pad with the text "Hi, I’m Xi Xiaoyao. I’m a content creator and If you love AI, please follow. From - Xi Xiaoyao". The letter pad is on a wooden.
信笺的插图,上面写着“hi,我是夕小瑶。我是一名内容创作者,如果你喜欢AI,请关注我。来自——夕小瑶。信笺位于木板上。
这是Midjourney给我的反馈,只能说文本内容一塌糊涂,单词错误、词不成句。我甚至一度怀疑,Flux是不是有什么文本方面的幻觉。但我拿着同样的prompt去问Ideogram时,我的感觉就是:Wow!单词形状、拼写都没有问题,图片生成也符合要求。我真的震惊了家人们,这是AI能做到的效果吗?美中不足的是,内容不完全正确(缺了一个I am、多了一个if),信纸的形状也有些奇怪。此外,我还试了一下其他风格的图片生成,比如这个蝙蝠侠看报:A cinematic shot of Batman sitting on a rooftop. He is reading a newspaper with the headline "The Joker Terrorizes Zavalia". The background contains a city skyline.
蝙蝠侠坐在屋顶上的电影镜头。他正在阅读一份标题为“小丑恐吓萨瓦利亚”的报纸。背景包含城市天际线。
符合要求,文字内容也正确,甚至在报纸上还印上了小丑的头像。只是右手处的报纸形状不太正确;此外蝙蝠侠的脸也非常的“AI风”。我认为蝙蝠侠的形象部分,Midjourney比Ideogram要写实一些。但还是输在了文本内容方面。总觉得这段文字没有很好的融入到图片中。还有Flux,生成质量也不差。但是文本方面是真的不忍直视:此外,在文字渲染的加持下,从设计方面看,Ideogram也非常强大:A modern website design with a bubble tea theme. The background is a soft teal color. There's a peach bubble tea with tapioca pearlsin a clear cup. Next to the cup is a peach laptop with a blog post open. There's a comfortable teal chair with a curved back. The text "Relax, create, and work from home" is written in a modern font.
一个以珍珠奶茶为主题的现代网站设计。背景是柔和的青色。透明杯子里有一杯桃子珍珠奶茶,里面有木薯珍珠。杯子旁边是一台桃色笔记本电脑,上面打开着一篇博客文章。有一张舒适的青色椅子,带有弧形靠背。以现代字体书写“在家放松、创造和工作”文字。
这设计感,大家怎么评价?反正我要打印出来,贴在我们办公室的墙上了。再拿Midjourney和Flux的图片对比一下吧!从文本上就输了,这简直比不了啊:感觉Ideogram 2.0的文本渲染能力,简直领先其他家模型一个世纪啊!Ideogram还在3D、动漫等领域也颇有建树,我就不进行对比了,只展示一下Ideogram 2.0的效果:![](http://mmbiz.qpic.cn/mmbiz_png/5fknb41ib9qGcOuknxkUoPjX5MgptoHWnqRYG6TtBVjHObwajw32kibqCfqWrLKB7xhleFiaiaaEqP5C1VXdmYWxlw/640?wx_fmt=png&from=appmsg)
Ideogram还开放了API构建。开发人员可以将Ideogram 2.0集成到自己的应用程序中,与其他同赛道产品相比,该API能以更低的成本提供更卓越的图像质量。不仅如此,App Store上也上线了Ideogram的应用程序:令人捧腹的是,就在Ideogram 2.0上线数小时后,midjourney似乎是想做出一些反制措施:Midjourney宣布,在网页版中向所有人开放免费试用!