专栏名称: OSC开源社区
OSChina 开源中国 官方微信账号
目录
相关文章推荐
OSC开源社区  ·  罗永浩这锅“锤味”大乱炖,看着像是Smart ... ·  23 小时前  
OSC开源社区  ·  5000 ... ·  昨天  
程序猿  ·  因 Bug 被用户薅走 28 万,这款小程序凉了 ·  3 天前  
51好读  ›  专栏  ›  OSC开源社区

今年的GenAI发展是否需要重回“打好地基再盖房”?

OSC开源社区  · 公众号  · 程序员  · 2025-01-09 15:31

正文

OSCHINA

↑点击蓝字 关注我们

要论当前流行的开源搜索引擎,Elasticsearch 必然榜上有名,不仅在金融、电商、医疗、法律等领域,帮助 GenAI 模型生成更符合专业要求的内容,同时赋能企业构建智能知识管理系统。

Elasticsearch 开源于 2021 年,作为世界上最流行的大数据搜索引擎,其客户包括微软、甲骨文、Adobe 、苹果、沃尔玛、腾讯、阿里、滴滴、抖音等,我们常用到的 linkedin 、Wikipedia 等上面的搜索也都是使用 Elasticsearch 来完成。

日前 Elastic 8.17 正式发布,聚焦快速跟踪关键功能上,其功能将带来存储节省和搜索性能等一系列优势。这些功能包括:

  • Elasticsearch logsdb 索引模式正式发布

  • Elastic Rerank 模型的技术预览

  • Elasticsearch 查询语言(ES|QL)全文搜索的技术预览

......

随着 Elasticsearch 的不断演进,在并行化,硬件加速,数据标量量化等方面做了深入的性能优化,为超大规模的向量搜索提供了商用化的基础。同时,Elastic 也构建了广泛的 AI 生态圈,结合大模型,加速 GenAI 生成式的应用开发。

在 GenAI 发展如日中天之际,开源中国 110 期 - 源创会邀请到了 Elastic 中国首席布道师-刘晓国《运用 Elasticsearch 进行向量搜索及 GenAI 智能应用开发》为题,为广大开发者详细描述 RAG 基本原理,Elastic 在向量搜索上的最新进展,以及如何结合 Elasticsearch 消除 GenAI 所产生的幻觉。

演讲嘉宾:刘晓国 Elastic 中国社区首席布道师

主讲议题:《运用 Elasticsearch 进行向量搜索及 GenAI 智能应用开发》

议题简介:Elasticsearch 是全球领先的大数据数据搜索及分析引擎,也是全球下载量最多的向量数据库。Elastic 作为 Search AI 公司,在向量搜索方面提供了无如伦比的性能。Elasticsearch 除了提供传统的词汇搜索,也提供和向量(密集向量,稀疏向量)搜索的混合搜索,实现多路召回,并提高搜索精度。随着 Elasticsearch 的不断演进,在并行化,硬件加速,数据标量量化等方面做了深入的性能优化,为超大规模的向量搜索提供了商用化的基础。Elastic 也构建了广泛的 AI 生态圈,结合大模型,加速 GenAI 生成式的应用开发。本次议题将详细描述 RAG 基本原理,Elastic 在向量搜索上的最新进展,如何结合 Elasticsearch 消除 GenAI 所产生的幻觉。

Elastic 官方中文博客https://my.oschina.net/u/3343882

报名链接https://www.oschina.net/event/2407669

前情放送

OSCHINA:Elastic 最新的技术动态有哪些?

刘晓国:

首先,在 8.17 版本的 logsdb 索引模式中我们引入了 Elastic Rerank ,这是 Elastic 的新语义重新排名模型。重新排名可以用作现有搜索方式之上的第二阶段,无论是词法搜索、ELSER 还是密集嵌入,主要通过召回率改进实现显著的语义相关性能提升。这对于 RAG 应用程序是非常重要的,因为开发者希望将最相关的信息发送到 LLM 以生成可能的响应。

其次,我们还发布了(ES|QL)全文搜索功能的技术预览。这一全新的(ES|QL)全文搜索功能旨在进一步拓展 Elasticsearch 的搜索边界,为用户带来更为强大、便捷的搜索体验。它融合了传统 SQL 的结构化查询优势与 Elasticsearch 本身卓越的全文搜索能力,让使用者能够在同一查询语句中灵活运用两种范式。

OSCHINA:未来,GenAI 还有哪些突破口?

刘晓国:

在我们看来,我们企业的业务数据或者私有数据在不断地生成,而大模型在生产时,它的知识已经固定。如果我们直接把我们问题提交给大模型时,大模型不具备在它生成之后的知识。为了能够让大模型生成我们想要的答案,一种方式就是先把业务数据写入到数据库 / 向量数据库中,然后我们针对数据进行搜索。我们可以把搜素到前面的几个结果作为上下文提交给大模型,那么大模型最终生成的结果就是和我们问题相关的结果。这样搜索的结果可以避免产生幻觉。Elasticsearch 除了传统的词汇搜索,也同时提供密集向量搜索,稀疏向量搜索,并且我们还提供这几种搜索的混合搜索,从而达到更为精确的搜索结果。密集向量和稀疏向量搜索都是基于人工智能发展而来,它可以帮助我们进行语义搜索。

当然说,很大一部分的模型幻觉被解决,随着 GenAI 的发展,我们现在所讨论的,更多的是算力成本和复杂任务的自动化

前者很好理解,无论是大数据的运算还是训练模型,我们以往所消耗的资源都是巨大的,往往一次模型训练,花费上百万甚至是上千万美金,Elasticsearch 在 GenAI 里面扮演了一个非常重要的角色,它可以做向量搜索,把任何一个数据(文本,图像,语音及视频)转换为一个向量。我们可以针对文本进行语义搜索,也可以针对图像、语音及视频进行相似性比较,从而得到最为相近的搜索结果。

而后者,更像是 GenAI 的 2.0 时代,我们要在一些复杂领域,如法律、金融、医药等专业领域做优化,这就非常考验专业数据的输入能力,当然,首先还得构建专业数据的库以及索引能力,ElasticSearch 下一步也会朝着这一方面发展。

OSCHINA:本次源创会,您将带来哪些前沿思索?

刘晓国:

肯定是 ElasticSearch 在向量搜索的一些最新成果,实际上,Elastic 的发展从 8.0 就开始支持向量搜索了,本次源创会也是对行业伙伴和使用我们产品的开发者做一个汇报,我们的目标,是把 ElasticSearch 建设成全世界最好的向量搜索引擎

其次,GenAI 的发展在未来一定是一个重塑多行业格局和人类生活方式的强大引擎,从根本上改变企业的运营模式、产品与服务的设计理念以及决策的定制流程。所以,我也想谈谈未来的搜索引擎在一些专业领域,如教育、金融、医疗、法律等,能起到如何关键的作用。

END


热门文章

效果媲美Cursor的开源替代:Roo-Cline
操作系统能知道自己是在虚拟机中运行的吗?
Deepseek团队核心成员揭秘——清北应届生撑起一片天
用Rust重写近6万行C++代码是怎样的体验?
2024年系统编程语言调查报告:Rust稳居榜首、Zig紧随其后





分享在看点赞~Orz