专栏名称: AGI Hunt
关注AGI 的沿途风景!
目录
相关文章推荐
英国大家谈  ·  重磅!英国政府更新入籍要求 ·  18 小时前  
英国大家谈  ·  英国大家谈商务合作及转载须知 ·  2 天前  
印象笔记  ·  低能量自救指南:如何快速提升能量? ·  3 天前  
51好读  ›  专栏  ›  AGI Hunt

马斯克x.ai的Grok 是首个推出基于token的图像生成器吗?

AGI Hunt  · 公众号  ·  · 2024-12-27 00:00

正文

基于Token的图像生成技术终于迎来了突破性进展?

马斯克的x.ai团队再次刷新了AI图像生成的边界,其旗下的Grok模型或成为了 首个成功部署基于Token的图像生成器 的AI系统。

这是一个什么样的创新突破呢?

Nabil Alouani(@Nabil_Alouani_)给出了专业解读:


目前大多数LLM/助手都是先将图像转换为文本描述,然后再将文本转换为token。而Grok直接将输入图像分解为token。不过,包括Grok在内的大多数图像生成器仍在使用文本到图像的管道。

是的,你没看错,Grok真的能 直接处理图像token

Aurora:Grok的秘密武器

Latent Spacer(@LatentSpacer)爆料了这项技术背后的关键:

根据他们的博客:「我们用一个代号为Aurora的新模型增强了Grok的图像生成能力。Aurora是一个自回归专家混合网络,经过训练可以从交错的文本和图像数据中预测下一个token。」

Mark Kretschmann(@mark_k)更是透露:

Grok即将添加图像编辑功能。到时它将能完美复制输入图像,并进行各种修改。

实战表现如何?

Tibor Blaho(@btibor91)进行了实测:

它连OpenAI的logo都能完美重现。

有趣的是,🍓🍓🍓(@iruletheworldmo)做了对比测试:

谷歌的表现也不错。

技术原理大揭秘

Alejandro Rivero(@arivero)分享了一个重要观点:

如果你要为图像训练一个稀疏变换器,你肯定能免费获得一个基于token的图像生成器。同样的原理也适用于声音,这就是为什么你的模型可以生成音乐和模仿任何声音。

但他也指出了一个关键问题:

但不知为何,两年后的今天,似乎所有人都认为图像读取只是CLIP的某种变体,而这种变体在训练中并不使用图像输出。

竞争对手也不甘示弱

歸藏(@op7418)分享了竞品的进展:

Recraft V3也能在图像中生成大段文本。

而manbearbigfoot(@manbearbigfoot)补充道, Redraft甚至可以创建SVG,这对平面设计师来说是个游戏规则改变者







请到「今天看啥」查看全文