美国初创公司Exa发布了他们的全新AI搜索产品
Exa WebSets的预览版本
这是一款由全新的
空间搜索引擎
驱动的新型搜索工具。
传统搜索只能给你一堆相关网页,而 Exa WebSets 能理解你的需求,直接给你整理好符合条件的结果。
例如:你
想找
“拥有博士学位、开发者背景,毕业于全球顶尖大学而且还写过博客的人”?
这种需求对
传统搜索来说几乎不可能实现。
Exa WebSets 可以搞定。
Exa WebSets 的搜索基于“语义理解”,也就是说,它能真正理解你想要的是什么,而不是单纯匹配几个关键词给你一堆网址。
Exa
主要功能和特点:
-
语义搜索
:Exa的搜索引擎能够理解语义意义,而不仅仅是关键词匹配,从而提供更相关的搜索结果。
-
内容抓取
:可以从任意网页抓取完整、清理后的内容,为AI提供高质量的数据。
-
相似性搜索
:通过URL或长文本找到相似的结果,使得搜索更精准。
-
大规模数据处理
:能够处理多达100万条搜索结果,满足AI大规模数据处理的需求。
-
实时更新
:每分钟爬取新的URL,确保AI始终获取最新的数据。
-
强大的过滤功能
:可以按域名、日期范围或数据类别进行搜索,提供高度定制化的搜索体验
那么它是如何工作的?
Exa 构建了首个大规模“
嵌入空间搜索引擎”
,
训练AI系统按“含义”整理整个互联网数据
,而不是仅仅匹配关键词。
这种方式极大提高了搜索结果的精准性和关联性。
和传统的搜索引擎(比如 Google)不同。传统的搜索引擎是通过关键词来查找相关内容,而 Exa 的方法是通过
理解“含义”来整理和搜索数据
。
它的工作模式更像是一个“语义搜索引擎”,在庞大的数据海洋中构建了一种“语义索引”。
它可以对用户需求进行深度理解,并在语义上进行匹配,而不局限于简单的关键词查找。
当需要时,它会“深度挖掘”相关数据,甚至进行多次验证,确保结果的准确性和完整性。
例如,搜索“所有开发新型大语言模型(LLM)芯片的AI初创企业,并且已完成A轮融资”,Exa Web Sets 能在后台完成复杂的匹配。
具体来说:
关键词搜索 vs. 含义搜索
:
-
传统的搜索工具会直接根据输入的关键词匹配网页内容。比如你搜索“AI创业公司”,它可能会找到那些包含“AI”和“创业公司”这两个关键词的网页。
-
Exa 的方法是
通过 AI 理解查询的真正含义(语义)
,然后从互联网上找到所有与这个“概念”相关的数据。比如,你搜索“开发大语言模型的初创公司”,Exa 不仅会找到关键词匹配的内容,还还会理解你想要的具体对象,比如公司名称、行业特性、融资阶段等。
-
嵌入空间:
Exa 的 AI 系统对整个互联网数据进行语义解析,识别每一段内容的意义和相关性。
数据被转化为语义向量,存储在一个高维空间中,向量之间的距离表示数据之间的语义关联。
(这个你不需要懂,相当于储存在一个数据集中)
-
数据不是直接存储:
Exa 并未复制整个互联网内容,而是通过 AI 系统对现有网络内容进行解
析,并建立一个语义向量空间。
每一段互联网内容(例如网页、博客、论文、数据库)都被转化为一个“向量”(一种数学表达)。
这些向量在高维空间中按语义关系排列,向量之间的距离表示内容的相似度或相关性。
-
按需搜索:
当用户输入查询时,系统会在嵌入空间中寻找与查询语义最接近的结果,而不是简单地查找关键词匹配。
简单类比
:
如果传统搜索引擎是一本索引密密麻麻的词典,Exa WebSets 则是一个“理解内容”的大脑,能根据意义将内容分组并找到最相关的内容。
更强的逻辑处理
:
-
Exa 不仅能理解复杂的问题,还能根据这些问题找到多个维度上的符合条件的结果,比如同时满足“
博士学位、开发者背景
”、“
毕业于全球顶尖大学
”、“
而且还写过博客的人
”这种复杂条件的问题。
招聘案例:根据特定条件(如地理位置、工作经历)筛选候选人。
找到居住在湾区、曾在初创企业和大公司工作过的软件工程师。
-
数据量太大:
互联网的数据体量是天文数字,直接存储整个互联网数据成本巨大,维护难度也高。
-
实时性需求:
互联网内容是动态的,Exa 不需要将所有数据存入本地,而是通过“按需解析”的方式,在用户需要时动态检索相关内容。
-
高效查询:
通过语义向量化的方式,不需要全盘扫描所有数据,而是通过AI计算快速找到与查询相关的内容。
个性化需求:满足更独特的请求,如寻找特定条件的约会对象。
示例:找一位金融行业、信托基金拥有者、身高 6’5”、蓝眼睛的男士
但是也有缺点
Exa WebSets 发现了一条新的搜索扩展法则:
搜索所用计算资源与结果的全面性呈正相关
。
Exa WebSets 搜索需要耗费大量的计算资源,但是
搜索使用的计算量越大,结果越全面。
这就产生了一个问题:
在效率和准确度之间如何权衡
所以
Exa WebSets 采用了一种
动态计算与验证机制
Exa WebSets 的独特之处在于它能动态分配计算资源,以确保结果的准确性和可靠性。以下是具体机制:
(1) 智能计算资源分配
-
传统搜索引擎:对所有查询一视同仁,搜索速度快但对复杂需求支持有限。
-
Exa 的动态计算:根据查询复杂性和所需精确度,动态调整计算资源。
-
-
复杂查询(如同时包含多重条件的筛选)会触发深度计算,耗费更多时间。
(2) 结果验证
-
Exa 系统不仅返回结果,还会在搜索后验证结果的准确性。
-
-
速度慢
:由于对网页内容的处理复杂,一次搜索可能需要几分钟。
-
成本高昂
:处理网页的方式(编码而非索引)消耗大量资源,Exa 目前仅处理了约 10 亿网页,远少于谷歌的 1 万亿。
-
简单查询效果差
:对于简单的问答式搜索(如“某人是谁”),Exa 不如传统搜索引擎灵敏,因为嵌入技术对关键词的精准匹配还不够好。
尽管 Exa 目前仍然存在技术和效率上的不足,创始人 Bryk 对未来充满信心:
-
他相信随着嵌入技术的改进,Exa 能够弥补速度和覆盖范围的缺陷。
-
长期目标是完全抛弃对关键词的依赖,真正实现通过内容语义搜索来获取精准数据。
Bryk 还提到,一些用户甚至愿意等待几分钟,去换取完整的搜索结果。他的团队目前也在优化系统,逐步减少等待时间。
Exa AI获得了1700万美元的A轮融资,由Lightspeed领投,Nvidia的NVentures和Y Combinator参投。
与其他旨在取代谷歌的AI驱动搜索引擎不同,Exa的目标是创建一个专门为AI设计的搜索工具。
Exa的使命
: