专栏名称: 橘子汽水铺

橘子汽水铺 by orange.ai。 AI创始人， AI投资人，AI产品经理都在关注的AI科技自媒体。聚焦最有商业价值的AI资讯，分享一线的AI产品经理经验。

AI搜索选哪个？第二弹，15家产品实时性测试

橘子汽水铺 · 公众号 · · 2024-06-21 07:05

正文

引言

上周发布《AI 搜索选哪个？18家AI搜索产品横向测评》的文章后，收到了很多的关注，收到了很多反馈，也收到了很多新产品的出战申请。

看到一个人自虐地给各家产品当免费QA，读者心中暗爽，纷纷问我为什么不多测几轮。

于是为了满足读者，我又测了很多轮，本文放出的是实时性测试。

这个测试的目的不是为了拉踩谁，是为了帮助大家发现问题，解决问题。

所以本次只会放出一些有问题的结果，其他的都不再贴出来。感兴趣的读者可以自行测试。

本文不是权威测试，只是为了个人日常选择AI搜索所做的辅助选择。

本文没有接受任何赞助，不接受任何的删帖请求，但接受开放地交流讨论，请大家心态平稳，实事求是。

本轮入围选手

国际巨头白月光，2家， Perplexity、OpenAI ChatGPT

国内大模型厂商，6家，月之暗面 Kimi、字节跳动豆包、MiniMax 海螺AI、智谱清言、腾讯元宝、百川智能百小应

国内AI搜索应用，3家，昆仑万维天工AI、360 AI 搜索、秘塔 AI 搜索

AI搜索创业团队，4家，ThinkAny、Miku、Felo、Monica

入围变动说明：

去除了几款上次测试不满意且人气不高的产品
新增了几家创业团队的产品

本轮的测试方法

测试重点：

AI 搜索产品，相比大模型本身，最大的优势就是有实时性内容。

实时性内容的测试应该是 AI 搜索产品的优势领域。

相信大家都会完成的不错。（那就不会有这篇文章了）

Query 选择的原则：

Query 所对应的答案应该具备极强的实时性，答案不在大模型本身的知识库里，必须通过搜索近期的内容才能获得答案
Query 所对应的是一个特定人群的需求，因为没有一个人可以代表另一个人群，这里选择我自己所属的典型人群，AI早期接受者，我认为这个人群和AI搜索的目标人群是高度重合的
Query 不需要很强的逻辑性，但是需要理解实时性的常用时间描述词
Query 所对应的结果应该有明显的评判标准，应该是本文读书所熟悉的，且可以通过公开资料进行验证的，避免一个人对结果的评分过于主观

结合以上几点，以及本周的新闻，本轮测试的 Query 是：

智谱在6月5日的发布会发布了什么
360 在这周发布了什么
介绍一下可灵大模型

这几个 Query 里，两个发布会我都全程在现场认真听讲，能从现场的反应看到业界媒体和KOL关注的重点信息，也都有直播和文章可查。第一个用标准时间标签，第二个用语义时间标签提高难度。可灵则是刚刚发布，可以较好地测试实时性。

评分标准：

3道题，每答对一道得1分
答案需要包含重点信息
答对了一些内容，但是包含明显的错误信息，视为错误

测试结果

0分组：ChatGPT

1分组：Monica，秘塔

2分组：360，元宝，百川，ThinkAny，Felo，Kimi

3分组：Perplexity，海螺，豆包，智谱，天工，Miku

点评：

实时性内容的测试应该是 AI 搜索产品的优势领域，这几道题也不算很难。

有6款产品做的都还不错，其中 Miku 是国内创业团队作品。

其他产品尚有不小的改进空间。

ChatGPT 3道题都答错了，请不要使用 ChatGPT 获取实时信息。

模型好不代表产品就好。

部分内容截图和分析

本次只会放出一些标准答案和明显有问题的内容，其他的都不再贴出来。感兴趣的读者可以自行测试。

ChatGPT 0 分，全错，请不要使用 ChatGPT 获取实时信息。

元宝，

明明找到了信息，却以为自己没找到

另外这个虽然答对了，但是新产品发布和技术发布，内容重复，模型的理解力还是不太够的

百川

AI搜索选哪个？第二弹，15家产品实时性测试

正文

引言

本轮入围选手

本轮的测试方法

测试结果

部分内容截图和分析

请到「今天看啥」查看全文