专栏名称: 爱范儿
关注这个时代最好的产品。
目录
相关文章推荐
新浪科技  ·  【#华为宣布DeepSeek上线昇腾社区## ... ·  昨天  
新浪科技  ·  【#日经225指数跌超1000点#】#日股汽 ... ·  3 天前  
极市平台  ·  一文详尽之Scaling Law ·  4 天前  
极市平台  ·  一文详尽之Scaling Law ·  4 天前  
51好读  ›  专栏  ›  爱范儿

深度 AI 搜索大比拼!体验国内外四个爆款产品,到底谁最懂用户

爱范儿  · 公众号  · 科技媒体  · 2024-10-22 12:08

主要观点总结

文章主要介绍了Perplexity等AI搜索工具的升级和实用性测评,探讨了它们基于大语言模型对用户意图的理解与感知,以及资料深度和信息占有量的提升。文章还提到了不同AI搜索工具在实用性和资料深度方面的表现差异,以及它们在理解用户处境方面的局限性。

关键观点总结

关键观点1: AI搜索工具的更广泛的资料、更深的信息占有量是不容置疑的,但理解用户意图和感知是另一大关键点。

AI搜索工具在整合海量信息、提炼有效部分方面表现出更强的实用性,但它们在真正理解用户处境方面还存在局限性。

关键观点2: 测评AI搜索工具的关键包括实用性、资料深度和对用户意图的理解。

在测评过程中,发现不同AI搜索工具在实用性和资料深度方面存在差异,如Perplexity和Kimi在某些问题上表现出不同的特点和优势。

关键观点3: AI搜索竞争的未来可能在于对用户意图的更深入理解和更精细的服务提供。

虽然各家AI搜索都在推出高级服务,主打搜索的全面性和深度,但下一个赛点可能在于更精准地理解用户需求,提供个性化的服务。


正文

在 OpenAI 融资完之后,Perplexity 也在找钱了:据《华尔街日报》报道,这家一直以来广受好评的 AI 搜索,希望以 80 亿美元的估值,寻求 5 亿美元的融资。
虽然自从出道以来,Perplexity 在搜索上一直很领先,但不是没有与各大出版商闹矛盾,而且也不是没有对手,各家都对搜索业务,都盯得很牢。
真正落实到使用层面,总有一个问题:被 AI 赋能,尤其是被大语言模型赋能之后的搜索,究竟哪里有所不同了?
这篇文章里我们测评了几个推出了「大升级」了的 搜索 工具, 包括 Perplexity 的 Pro 模式,GPT 的新模型、 Kimi 的探索版, 智谱的 AI 搜索,秘塔 的深度和研究版
简而言之: 更广更多的资料、更深的信息占有量 ,是毋庸置疑的,但这只是一部分。还可以更有所不同的,是 对用户意图的理解与感知。
关注 AI 第一新媒体,率先获取 AI 前沿资讯和洞察
实用性测评:不仅能搜,搜完就能用
如果说 AI 加持后的搜索功能有什么变化,一定是实用性上的提升,得到的信息对解决实际问题更有效了。
以一个操作性非常强的问题为例,「如何在 mac 系统上,批量修改音乐文件封面」。
在百度这样的传统搜索引擎上,输入关键字,出现的是一大堆信息的罗列,而且关联度很低。
Google 的关联度好一点,但还是需要用户自己点进去,逐一确认内文究竟说的方法,是不是能用。
从前的搜索引擎,是围绕关键字,搜罗一大堆信息,有相似度,但不多,并且需要用户自己做第一轮整理。
而大语言模型给搜索注入灵魂之后,重新组织了海量信息,整合成了相关度最高的样子,返送给用户——这直接省掉了第一轮整理的过程。比如下面的 ChatGPT,根据方法的类型,总结出了三类。
不过,AI 虽好但不能依赖,比如下面智谱,在「使用 Finder」和「使用 Apple Music」两个方式下面的细节步骤,完全是一样的。
更保险的方法是在几个 AI 搜索里,同一个问题获取不同的回答,横向对比,以免其中一个出现幻觉。
接下来,在操作细节上进一步询问,也会提出相应的方法。
Kimi 探索版
相比于 4o 给出的笼统回答,Kimi 给出了更多的细节——或者说,是在 4o 的基础上,调整了回答的格式,让回答更有操作性。
不是每个 AI 搜索都擅长给具体实用的建议,像 Perplexity,就只丢出来可以用的软件。
实用性还体现在对数据的抓取上,以 Kimi 的演示 prompt 为例「世界上最有钱的 10 个人是谁?他们都是做什么的?」,各家的表现都不太一样。
其中,注重资料深度的 Perplexity 和 Kimi,都把具体的数字列出来了,Perplexity 更加是直接拉了个表格,每一个词条都贴出了出处。
涉及到数字的信息,列表格是更清晰的方式。不过 Perplexity 自己的表格,和下面的总结里,排序不太一样。甚至,这四个 AI 搜索给出的结果排序,都不太一样——自行核查还是很有必要的。
接下来我尝试了一个比较有挑战性的问题,「在准备业余无线电考试期间,我可以买什么样的设备熟悉操作?」
一个小小的备注:业余无线电是需要考证的,在牌照下来前,只能听不能发。所以这个问题,暗地里在考验模型会不会了解到这样的「隐藏信息」。
秘塔和 Kimi 都直接给出了设备的种类、建议的品牌。其中秘塔还从一些论坛里搜索,整合出了用户评价。这个做法沿可以扩展到所有比价的场景上。
不过,这几个 AI 搜索都没有涉及到是否具备发射资格的问题,秘塔和智谱提到了要确认设备是否具备发射核准,但这是针对设备而不是用户的。Kimi 模糊地提到需要遵守通联流程和礼仪,比较像是按惯例写了点安全守则。
「在准备考试期间」已经非常明牌了,这就是还没有取得牌照的阶段。只能说 AI 在真正理解用户的处境这方面,还是能力有限。
简单小结一下是: 基于大模型的 AI 搜索更有实用性,能够整合海量信息,提炼出最有效的部分
资料深度:是搜索就下一百层
在测评实用性的过程中,我发现 Kimi 随机提供的一些演示案例里有这样一个问题:标注三国战役地点,对应现代城市和地区。
很自信喔。
三国是中国历史上非常有趣的一个历史时期,群雄割据,人物和事件多变。而且正史和野史齐飞,三国演义和三国志傻傻分不清。
更有趣的是,在中文以外的世界也有很多研究对三国感兴趣,欧美和日本有不少针对汉代和三国的研究学者,是一个信息存量很丰富的时期。
这样一个问题,就非常考验对资料和信息的占有量。
这一次我直接把 ChatGPT 踢出战局了,因为不提供具体出处,没办法判断它的占有深度。我决定用主打文库检索的秘塔代替它的位置。
可以看到中间 Perplexity 和智谱,表现无功无过,都以官渡之战作为三国的开端来计算,周期大概是公元 200 年到 230 年之间。
而 Kimi 展现出了一些不同的理解:以公元 184 年的黄巾起义为开端,把后汉末尾、三国前夜的几场战事都包含了进去。我问了一下为什么这么做,它回答:我不是,我没有。
而秘塔搜索展示出了完全不一样的资料占有量。就像上面说,在文库和深入模式下,它不仅有相关教科书上的研究,囊括了非中文的相关文献。
可能是时效性还可以提高,这两年出版的一些新书没有囊括进去。但是这个资料占有量的广度和丰富度,已经相当不错了。
不过秘塔有一个迷惑的 bug:居然翻查了 Kimi 的测评网页……
AI 生成 AI 搜,闭环了属于是。






请到「今天看啥」查看全文