引言
上周发布《AI 搜索选哪个?18家AI搜索产品横向测评》的文章后,收到了很多的关注,收到了很多反馈,也收到了很多新产品的出战申请。
看到一个人自虐地给各家产品当免费QA,读者心中暗爽,纷纷问我为什么不多测几轮。
于是为了满足读者,我又测了很多轮,本文放出的是实时性测试。
这个测试的目的不是为了拉踩谁,是为了帮助大家发现问题,解决问题。
所以本次只会放出一些有问题的结果,其他的都不再贴出来。感兴趣的读者可以自行测试。
本文不是权威测试,只是为了个人日常选择AI搜索所做的辅助选择。
本文没有接受任何赞助,不接受任何的删帖请求,但接受开放地交流讨论,请大家心态平稳,实事求是。
本轮入围选手
国际巨头白月光,2家, Perplexity、OpenAI ChatGPT
国内大模型厂商,6家,月之暗面 Kimi、字节跳动 豆包、MiniMax 海螺AI、智谱清言、腾讯元宝、百川智能 百小应
国内AI搜索应用,3家,昆仑万维 天工AI、360 AI 搜索、秘塔 AI 搜索
AI搜索创业团队,4家,ThinkAny、Miku、Felo、Monica
入围变动说明:
-
去除了几款上次测试不满意且人气不高的产品
-
新增了几家创业团队的产品
本轮的测试方法
测试重点:
AI 搜索产品,相比大模型本身,最大的优势就是有实时性内容。
实时性内容的测试应该是 AI 搜索产品的优势领域。
相信大家都会完成的不错。(那就不会有这篇文章了)
Query 选择的原则:
-
Query 所对应的答案应该具备极强的实时性,答案不在大模型本身的知识库里,必须通过搜索近期的内容才能获得答案
-
Query 所对应的是一个特定人群的需求,因为没有一个人可以代表另一个人群,这里选择我自己所属的典型人群,AI早期接受者,我认为这个人群和AI搜索的目标人群是高度重合的
-
Query 不需要很强的逻辑性,但是需要理解实时性的常用时间描述词
-
Query 所对应的结果应该有明显的评判标准,应该是本文读书所熟悉的,且可以通过公开资料进行验证的,避免一个人对结果的评分过于主观
结合以上几点,以及本周的新闻,本轮测试的 Query 是:
智谱在6月5日的发布会发布了什么
360 在这周发布了什么
介绍一下可灵大模型
这几个 Query 里,两个发布会我都全程在现场认真听讲,能从现场的反应看到业界媒体和KOL关注的重点信息,也都有直播和文章可查。第一个用标准时间标签,第二个用语义时间标签提高难度。可灵则是刚刚发布,可以较好地测试实时性。
评分标准:
-
3道题,每答对一道得1分
-
答案需要包含重点信息
-
答对了一些内容,但是包含明显的错误信息,视为错误
测试结果
0分组:ChatGPT
1分组:Monica,秘塔
2分组:360,元宝,百川,ThinkAny,Felo,Kimi
3分组:Perplexity,海螺,豆包,智谱,天工,Miku
点评:
实时性内容的测试应该是 AI 搜索产品的优势领域,这几道题也不算很难。
有6款产品做的都还不错,其中 Miku 是国内创业团队作品。
其他产品尚有不小的改进空间。
ChatGPT 3道题都答错了,请不要使用 ChatGPT 获取实时信息。
模型好不代表产品就好。
部分内容截图和分析
本次只会放出一些标准答案和明显有问题的内容,其他的都不再贴出来。感兴趣的读者可以自行测试。
ChatGPT 0 分,全错,请不要使用 ChatGPT 获取实时信息。
元宝,
明明找到了信息,却以为自己没找到
另外这个虽然答对了,但是新产品发布和技术发布,内容重复,模型的理解力还是不太够的
百川