专栏名称: 硅星GenAI
比一部分人更先进入GenAI。
目录
相关文章推荐
做書  ·  1月的15本新书 ·  2 天前  
中国日报网  ·  夜·赏|《山海经》五行神 ·  昨天  
中国日报网  ·  夜·赏|《山海经》五行神 ·  昨天  
51好读  ›  专栏  ›  硅星GenAI

新的多模态盲测榜单来了,一眼望过去全是国产模型 | AI鲜测

硅星GenAI  · 公众号  ·  · 2024-05-30 00:00

正文

作者 椰子
邮箱 [email protected]

让两个随机的匿名模型运行同一个 Prompt,可以在排除人为因素的干扰下,很直观的看到模型能力的不同。

通过给结果投票 ,最终得出一个排名,得票最多的模型自然就是生成结果最让人满意的模型,这就是AI领域的1V1决斗场。

之前LMSYS org推出的 Chatbot Arena 已经成了模型能力的一个标杆,目前已经涵盖了102个模型,收集了1,149,962次投票。不过这个项目比的还是逻辑、长文本、复杂Prompt、编码等基础能力。没有涉及图片、视频的模型。

最近,由滑铁卢大学的TIGER实验室做的GenAI-Arena更新了新的功能,在之前文生图的基础上,新增了文生视频模型和图片编辑模型的榜单。

体验地址: https://huggingface.co/spaces/TIGER-Lab/GenAI-Arena

我们挨个看看这三个榜单现在都有谁上榜了。

首先是文生图模型榜单,共涵盖了11个模型,收集了4196次投票。

前三是PlayGround V2.5、PlayGround V2和字节跳动的SDXL-Lightning模型。字节在其中一枝独秀,剩下前十主要是PixArt和Stability AI的模型。

在图片编辑的榜单里,收集了9个模型1074次投票,一个国产模型都没有,基本都是国外大学主导做的一些项目。

文生视频这个榜单就格外有意思了,一眼望过去,全是国产模型:上海人工智能实验室、腾讯、潞晨科技、阿里直接霸榜。

在具体使用上跟Lmsys的Chat Arena差不多,可以进行盲测,也可以手动选择进行比较。

如果不想自己想Prompt还可以随机生成

比如做一个:A donkey and an octopus are playing a game. The donkey is holding a rope on one end, the octopus is holding onto the other. The donkey holds the rope in its mouth. A cat is jumping over the rope.(一头驴和一只章鱼正在玩游戏。驴子抓住绳子的一端,章鱼抓住另一端。驴子把绳子叼在嘴里。一只猫从绳子上跳过。)

🐰 图像生成以后会发现有4个按钮,分别是:

  • 👈 A is better - 👈 A更好

  • 👉 B is better - 👉 B更好

  • 🤝 Tie - 🤝 平手

  • 👎 Both are bad - 👎 两者都不好

这轮生成的,显然都不对,甚至章鱼这个关键词直接被忽略掉了。

而在图像编辑这个板块,需要source prompt、target prompt 和 instruct prompt 三种Prompt,前两个都比较好理解, instruct prompt一般用法是指导模型该如何处理source prompt和target prompt的命令,可以增加生成的准确性。







请到「今天看啥」查看全文