专栏名称: 橘子汽水铺
橘子汽水铺 by orange.ai。 AI创始人, AI投资人,AI产品经理都在关注的AI科技自媒体。 聚焦最有商业价值的AI资讯,分享一线的AI产品经理经验。
目录
相关文章推荐
参考消息  ·  朔尔茨评价特朗普建议:“丑闻” ·  昨天  
参考消息  ·  福特CEO:这方面,中国领先美国10年 ·  2 天前  
GBA Community  ·  DeepSeek Confuses ... ·  2 天前  
GBA Community  ·  DeepSeek Confuses ... ·  2 天前  
中国日报网  ·  突发!塞尔维亚总统武契奇遇险 ·  2 天前  
参考消息  ·  韩国代总统指示:“动员所有力量” ·  2 天前  
51好读  ›  专栏  ›  橘子汽水铺

AI搜索选哪个?第二弹,15家产品实时性测试

橘子汽水铺  · 公众号  ·  · 2024-06-21 07:05

正文

引言

上周发布《AI 搜索选哪个?18家AI搜索产品横向测评》的文章后,收到了很多的关注,收到了很多反馈,也收到了很多新产品的出战申请。

看到一个人自虐地给各家产品当免费QA,读者心中暗爽,纷纷问我为什么不多测几轮。

于是为了满足读者,我又测了很多轮,本文放出的是实时性测试。

这个测试的目的不是为了拉踩谁,是为了帮助大家发现问题,解决问题。

所以本次只会放出一些有问题的结果,其他的都不再贴出来。感兴趣的读者可以自行测试。

本文不是权威测试,只是为了个人日常选择AI搜索所做的辅助选择。

本文没有接受任何赞助,不接受任何的删帖请求,但接受开放地交流讨论,请大家心态平稳,实事求是。

本轮入围选手

国际巨头白月光,2家, Perplexity、OpenAI ChatGPT

国内大模型厂商,6家,月之暗面 Kimi、字节跳动 豆包、MiniMax 海螺AI、智谱清言、腾讯元宝、百川智能 百小应

国内AI搜索应用,3家,昆仑万维 天工AI、360 AI 搜索、秘塔 AI 搜索

AI搜索创业团队,4家,ThinkAny、Miku、Felo、Monica

入围变动说明:

  1. 去除了几款上次测试不满意且人气不高的产品

  2. 新增了几家创业团队的产品

本轮的测试方法

测试重点:

AI 搜索产品,相比大模型本身,最大的优势就是有实时性内容。

实时性内容的测试应该是 AI 搜索产品的优势领域。

相信大家都会完成的不错。(那就不会有这篇文章了)

Query 选择的原则:

  1. Query 所对应的答案应该具备极强的实时性,答案不在大模型本身的知识库里,必须通过搜索近期的内容才能获得答案

  2. Query 所对应的是一个特定人群的需求,因为没有一个人可以代表另一个人群,这里选择我自己所属的典型人群,AI早期接受者,我认为这个人群和AI搜索的目标人群是高度重合的

  3. Query 不需要很强的逻辑性,但是需要理解实时性的常用时间描述词

  4. Query 所对应的结果应该有明显的评判标准,应该是本文读书所熟悉的,且可以通过公开资料进行验证的,避免一个人对结果的评分过于主观

结合以上几点,以及本周的新闻,本轮测试的 Query 是:

智谱在6月5日的发布会发布了什么
360 在这周发布了什么
介绍一下可灵大模型

这几个 Query 里,两个发布会我都全程在现场认真听讲,能从现场的反应看到业界媒体和KOL关注的重点信息,也都有直播和文章可查。第一个用标准时间标签,第二个用语义时间标签提高难度。可灵则是刚刚发布,可以较好地测试实时性。

评分标准:

  1. 3道题,每答对一道得1分

  2. 答案需要包含重点信息

  3. 答对了一些内容,但是包含明显的错误信息,视为错误

测试结果

0分组:ChatGPT

1分组:Monica,秘塔

2分组:360,元宝,百川,ThinkAny,Felo,Kimi

3分组:Perplexity,海螺,豆包,智谱,天工,Miku


点评:

实时性内容的测试应该是 AI 搜索产品的优势领域,这几道题也不算很难。

有6款产品做的都还不错,其中 Miku 是国内创业团队作品。

其他产品尚有不小的改进空间。

ChatGPT 3道题都答错了,请不要使用 ChatGPT 获取实时信息。

模型好不代表产品就好。

部分内容截图和分析

本次只会放出一些标准答案和明显有问题的内容,其他的都不再贴出来。感兴趣的读者可以自行测试。

ChatGPT 0 分,全错,请不要使用 ChatGPT 获取实时信息。

元宝,

明明找到了信息,却以为自己没找到

另外这个虽然答对了,但是新产品发布和技术发布,内容重复,模型的理解力还是不太够的

百川







请到「今天看啥」查看全文