专栏名称: 小互AI

XiaoHu.AI-在小互AI学院（http://xiaohu.ai）学习如何让AI为你服务。加入小互AI学院，通过日常工作流AI教程、社群和1V1支持，学习如何使用AI。

真正的AI搜索引擎能够完全理解你的意思并直接输出你要的结果

小互AI · 公众号 · · 2024-12-04 19:40

正文

美国初创公司Exa发布了他们的全新AI搜索产品 Exa WebSets的预览版本

这是一款由全新的 空间搜索引擎 驱动的新型搜索工具。

传统搜索只能给你一堆相关网页，而 Exa WebSets 能理解你的需求，直接给你整理好符合条件的结果。

例如：你想找 “拥有博士学位、开发者背景，毕业于全球顶尖大学而且还写过博客的人”？

这种需求对传统搜索来说几乎不可能实现。

Exa WebSets 可以搞定。

Exa WebSets 的搜索基于“语义理解”，也就是说，它能真正理解你想要的是什么，而不是单纯匹配几个关键词给你一堆网址。

Exa 主要功能和特点：

语义搜索：Exa的搜索引擎能够理解语义意义，而不仅仅是关键词匹配，从而提供更相关的搜索结果。
内容抓取：可以从任意网页抓取完整、清理后的内容，为AI提供高质量的数据。
相似性搜索：通过URL或长文本找到相似的结果，使得搜索更精准。
大规模数据处理：能够处理多达100万条搜索结果，满足AI大规模数据处理的需求。
实时更新：每分钟爬取新的URL，确保AI始终获取最新的数据。
强大的过滤功能：可以按域名、日期范围或数据类别进行搜索，提供高度定制化的搜索体验

那么它是如何工作的？

Exa 构建了首个大规模“ 嵌入空间搜索引擎” ， 训练AI系统按“含义”整理整个互联网数据 ，而不是仅仅匹配关键词。

这种方式极大提高了搜索结果的精准性和关联性。

和传统的搜索引擎（比如 Google）不同。传统的搜索引擎是通过关键词来查找相关内容，而 Exa 的方法是通过理解“含义”来整理和搜索数据。

它的工作模式更像是一个“语义搜索引擎”，在庞大的数据海洋中构建了一种“语义索引”。

它可以对用户需求进行深度理解，并在语义上进行匹配，而不局限于简单的关键词查找。

当需要时，它会“深度挖掘”相关数据，甚至进行多次验证，确保结果的准确性和完整性。

销售案例：定位潜在客户或目标公司

例如，搜索“所有开发新型大语言模型（LLM）芯片的AI初创企业，并且已完成A轮融资”，Exa Web Sets 能在后台完成复杂的匹配。

具体来说：

关键词搜索 vs. 含义搜索 ：

传统的搜索工具会直接根据输入的关键词匹配网页内容。比如你搜索“AI创业公司”，它可能会找到那些包含“AI”和“创业公司”这两个关键词的网页。
Exa 的方法是 通过 AI 理解查询的真正含义（语义） ，然后从互联网上找到所有与这个“概念”相关的数据。比如，你搜索“开发大语言模型的初创公司”，Exa 不仅会找到关键词匹配的内容，还还会理解你想要的具体对象，比如公司名称、行业特性、融资阶段等。

嵌入空间按需搜索

嵌入空间： Exa 的 AI 系统对整个互联网数据进行语义解析，识别每一段内容的意义和相关性。

数据被转化为语义向量，存储在一个高维空间中，向量之间的距离表示数据之间的语义关联。（这个你不需要懂，相当于储存在一个数据集中）
数据不是直接存储： Exa 并未复制整个互联网内容，而是通过 AI 系统对现有网络内容进行解析，并建立一个语义向量空间。

每一段互联网内容（例如网页、博客、论文、数据库）都被转化为一个“向量”（一种数学表达）。

这些向量在高维空间中按语义关系排列，向量之间的距离表示内容的相似度或相关性。

按需搜索：当用户输入查询时，系统会在嵌入空间中寻找与查询语义最接近的结果，而不是简单地查找关键词匹配。

简单类比：如果传统搜索引擎是一本索引密密麻麻的词典，Exa WebSets 则是一个“理解内容”的大脑，能根据意义将内容分组并找到最相关的内容。

更强的逻辑处理 ：

Exa 不仅能理解复杂的问题，还能根据这些问题找到多个维度上的符合条件的结果，比如同时满足“ 博士学位、开发者背景 ”、“ 毕业于全球顶尖大学 ”、“ 而且还写过博客的人 ”这种复杂条件的问题。

招聘案例：根据特定条件（如地理位置、工作经历）筛选候选人。
找到居住在湾区、曾在初创企业和大公司工作过的软件工程师。

为什么不是索引整个互联网，而是按语义组织？

数据量太大：互联网的数据体量是天文数字，直接存储整个互联网数据成本巨大，维护难度也高。
实时性需求：互联网内容是动态的，Exa 不需要将所有数据存入本地，而是通过“按需解析”的方式，在用户需要时动态检索相关内容。
高效查询：通过语义向量化的方式，不需要全盘扫描所有数据，而是通过AI计算快速找到与查询相关的内容。

个性化需求：满足更独特的请求，如寻找特定条件的约会对象。
示例：找一位金融行业、信托基金拥有者、身高 6’5”、蓝眼睛的男士

但是也有缺点

Exa WebSets 发现了一条新的搜索扩展法则： 搜索所用计算资源与结果的全面性呈正相关 。

Exa WebSets 搜索需要耗费大量的计算资源，但是搜索使用的计算量越大，结果越全面。

这就产生了一个问题：在效率和准确度之间如何权衡

所以 Exa WebSets 采用了一种动态计算与验证机制

Exa WebSets 的独特之处在于它能动态分配计算资源，以确保结果的准确性和可靠性。以下是具体机制：

(1) 智能计算资源分配

传统搜索引擎：对所有查询一视同仁，搜索速度快但对复杂需求支持有限。
Exa 的动态计算：根据查询复杂性和所需精确度，动态调整计算资源。

例如：

简单查询可能在秒级完成。
复杂查询（如同时包含多重条件的筛选）会触发深度计算，耗费更多时间。

(2) 结果验证

Exa 系统不仅返回结果，还会在搜索后验证结果的准确性。
验证步骤包括：

比对结果的语义与用户需求的匹配度。
检查结果的真实性（避免过时或不准确内容）。

目前局限性

速度慢 ：由于对网页内容的处理复杂，一次搜索可能需要几分钟。
成本高昂 ：处理网页的方式（编码而非索引）消耗大量资源，Exa 目前仅处理了约 10 亿网页，远少于谷歌的 1 万亿。
简单查询效果差 ：对于简单的问答式搜索（如“某人是谁”），Exa 不如传统搜索引擎灵敏，因为嵌入技术对关键词的精准匹配还不够好。

尽管 Exa 目前仍然存在技术和效率上的不足，创始人 Bryk 对未来充满信心：

他相信随着嵌入技术的改进，Exa 能够弥补速度和覆盖范围的缺陷。
长期目标是完全抛弃对关键词的依赖，真正实现通过内容语义搜索来获取精准数据。

Bryk 还提到，一些用户甚至愿意等待几分钟，去换取完整的搜索结果。他的团队目前也在优化系统，逐步减少等待时间。

Exa AI获得了1700万美元的A轮融资，由Lightspeed领投，Nvidia的NVentures和Y Combinator参投。

与其他旨在取代谷歌的AI驱动搜索引擎不同，Exa的目标是创建一个专门为AI设计的搜索工具。

Exa的使命 :

互联网包含人类的集体知识，但目前的搜索体验更像在垃圾场中导航，而非在知识图书馆中漫游。核心问题是互联网知识被大量信息掩埋。

真正的AI搜索引擎 能够完全理解你的意思并直接输出你要的结果

正文

Exa 主要功能和特点：

所以 Exa WebSets 采用了一种 动态计算与验证机制

(1) 智能计算资源分配

(2) 结果验证

请到「今天看啥」查看全文

真正的AI搜索引擎能够完全理解你的意思并直接输出你要的结果

所以 Exa WebSets 采用了一种动态计算与验证机制