新的多模态盲测榜单来了，一眼望过去全是国产模型 | AI鲜测

硅星GenAI · 公众号 · · 2024-05-30 00:00

正文

作者｜椰子
邮箱｜ [email protected]

让两个随机的匿名模型运行同一个 Prompt，可以在排除人为因素的干扰下，很直观的看到模型能力的不同。

通过给结果投票 ,最终得出一个排名，得票最多的模型自然就是生成结果最让人满意的模型，这就是AI领域的1V1决斗场。

之前LMSYS org推出的 Chatbot Arena 已经成了模型能力的一个标杆，目前已经涵盖了102个模型，收集了1,149,962次投票。不过这个项目比的还是逻辑、长文本、复杂Prompt、编码等基础能力。没有涉及图片、视频的模型。

最近，由滑铁卢大学的TIGER实验室做的GenAI-Arena更新了新的功能，在之前文生图的基础上，新增了文生视频模型和图片编辑模型的榜单。

体验地址： https://huggingface.co/spaces/TIGER-Lab/GenAI-Arena 。

我们挨个看看这三个榜单现在都有谁上榜了。

首先是文生图模型榜单，共涵盖了11个模型，收集了4196次投票。

前三是PlayGround V2.5、PlayGround V2和字节跳动的SDXL-Lightning模型。字节在其中一枝独秀，剩下前十主要是PixArt和Stability AI的模型。

在图片编辑的榜单里，收集了9个模型1074次投票，一个国产模型都没有，基本都是国外大学主导做的一些项目。

文生视频这个榜单就格外有意思了，一眼望过去，全是国产模型：上海人工智能实验室、腾讯、潞晨科技、阿里直接霸榜。

在具体使用上跟Lmsys的Chat Arena差不多，可以进行盲测，也可以手动选择进行比较。

如果不想自己想Prompt还可以随机生成

比如做一个：A donkey and an octopus are playing a game. The donkey is holding a rope on one end, the octopus is holding onto the other. The donkey holds the rope in its mouth. A cat is jumping over the rope.（一头驴和一只章鱼正在玩游戏。驴子抓住绳子的一端，章鱼抓住另一端。驴子把绳子叼在嘴里。一只猫从绳子上跳过。）

🐰 图像生成以后会发现有4个按钮，分别是：

👈 A is better - 👈 A更好
👉 B is better - 👉 B更好
🤝 Tie - 🤝 平手
👎 Both are bad - 👎 两者都不好

这轮生成的，显然都不对，甚至章鱼这个关键词直接被忽略掉了。

而在图像编辑这个板块，需要source prompt、target prompt 和 instruct prompt 三种Prompt，前两个都比较好理解， instruct prompt一般用法是指导模型该如何处理source prompt和target prompt的命令，可以增加生成的准确性。