专栏名称: AGI Hunt

关注AGI 的沿途风景！

目录

相关文章推荐

英国大家谈 · 重磅！英国政府更新入籍要求 · 18 小时前

最英国 · 突发！英国政府出手：非法入境者将被永生拒绝英 ... · 昨天

英国那些事儿 · 多邻国“追命小绿鸟”去世？！网友喜大普奔：终 ... · 昨天

英国大家谈 · 英国大家谈商务合作及转载须知 · 2 天前

印象笔记 · 低能量自救指南：如何快速提升能量？ · 3 天前

51好读 › 专栏 › AGI Hunt

马斯克x.ai的Grok 是首个推出基于token的图像生成器吗？

AGI Hunt · 公众号 · · 2024-12-27 00:00

正文

基于Token的图像生成技术终于迎来了突破性进展？

马斯克的x.ai团队再次刷新了AI图像生成的边界，其旗下的Grok模型或成为了 首个成功部署基于Token的图像生成器 的AI系统。

这是一个什么样的创新突破呢？

Nabil Alouani(@Nabil_Alouani_)给出了专业解读：

目前大多数LLM/助手都是先将图像转换为文本描述，然后再将文本转换为token。而Grok直接将输入图像分解为token。不过，包括Grok在内的大多数图像生成器仍在使用文本到图像的管道。

是的，你没看错，Grok真的能 直接处理图像token ！

Aurora：Grok的秘密武器

Latent Spacer(@LatentSpacer)爆料了这项技术背后的关键：

根据他们的博客：「我们用一个代号为Aurora的新模型增强了Grok的图像生成能力。Aurora是一个自回归专家混合网络，经过训练可以从交错的文本和图像数据中预测下一个token。」

Mark Kretschmann(@mark_k)更是透露：

Grok即将添加图像编辑功能。到时它将能完美复制输入图像，并进行各种修改。

实战表现如何？

Tibor Blaho(@btibor91)进行了实测：

它连OpenAI的logo都能完美重现。

有趣的是，🍓🍓🍓(@iruletheworldmo)做了对比测试：

谷歌的表现也不错。

技术原理大揭秘

Alejandro Rivero(@arivero)分享了一个重要观点：

如果你要为图像训练一个稀疏变换器，你肯定能免费获得一个基于token的图像生成器。同样的原理也适用于声音，这就是为什么你的模型可以生成音乐和模仿任何声音。

但他也指出了一个关键问题：

但不知为何，两年后的今天，似乎所有人都认为图像读取只是CLIP的某种变体，而这种变体在训练中并不使用图像输出。

竞争对手也不甘示弱

歸藏(@op7418)分享了竞品的进展：

Recraft V3也能在图像中生成大段文本。

而manbearbigfoot(@manbearbigfoot)补充道， Redraft甚至可以创建SVG，这对平面设计师来说是个游戏规则改变者 。

请到「今天看啥」查看全文

推荐文章

英国大家谈 · 重磅！英国政府更新入籍要求

18 小时前

最英国 · 突发！英国政府出手：非法入境者将被永生拒绝英籍！政策立即生效！

昨天

英国那些事儿 · 多邻国“追命小绿鸟”去世？！网友喜大普奔：终于！不用！学外语了！

昨天

英国大家谈 · 英国大家谈商务合作及转载须知

2 天前

印象笔记 · 低能量自救指南：如何快速提升能量？

3 天前

同道大叔 · 12月17日十二星座运势分析

8 年前

政知见 · 成立14年的小组，为何由中央纪委移交国务院

7 年前

滑州百事通 · 滑县中原文化大舞台与全省同步启动众艺术家齐献艺

7 年前

半岛晨报 · 想弄死老子没那么容易！宝宝出生，手里紧握避孕环…

7 年前

FashionWeek · 杜鹃：未来未完待续，做好自己最重要

7 年前

Sov5搜索 · 小百科 · 今天看啥 · 移动版

51好读 - 好文章就要读起来!