专栏名称: DataFunTalk

专注于大数据、人工智能领域的知识分享平台。

LLM+BI：智能数据分析平台落地实践

DataFunTalk · 公众号 · · 2024-09-17 13:00

正文

如何用Text2SQL高效实现ChatBI?

Graph+RAG，大模型的下一里程碑？

如何打造企业级RAG 2.0产品？

NL2SQL如何加速数据探索？

如何扩大Agent能力边界？

大模型训练推理技术创新和思考

GenAI在具体业务场景中的最佳实践

9月21日，09:00-17:00，DataFun将联合业内多位知名AI技术专家举办DataFunSummit2024：生成式AI技术峰会，探讨生成式AI领域的技术突破和进展，并分享他们的最新思考与落地实践经验。感兴趣的小伙伴欢迎识别二维码免费报名，收看直播：

扫码免费报名，收看直播

| 峰会日程

| 详细介绍

罗雷腾讯音乐 TME内容信息平台部架构师

个人介绍：十余年大数据领域工作经验；在加入腾讯音乐之前，先后在招商银行软件中心、OPPO任高级工程师；曾参与并主导大型银行反洗钱系统、亿级用户画像系统、亿级实时计算平台、海量歌曲实时榜单、TME内容库等系统；Apache Flink/Doris contributor；担任过Doris技术会议演讲嘉宾；参与发起Github开源项目SuperSonic,当前star2000+、社区群用户1800+、为微众、VIVO、理想、百胜等60+大中型企业应用。

演讲题目：融合 ChatBI 与 HeadlessBI 新一代数据分析平台实践

演讲介绍：数据分析平台作为企业内部数据价值变现的重要载体，在企业数字化进程中发挥了重要作用。企业数据需求的复杂性以及当前平台存在使用高门槛、口径不统一、需求响应不及时等问题，使得分析平台价值体现受到影响。如何解决这些挑战，成为业界普遍关心的议题。

随着 LLM 发展，出现了引领数据分析领域的新范式 ChatBI。为实现 ChatBI，学术界和工业界主要关注利用 LLM 的能力将自然语言转换为 SQL，通常称为 NL2SQL。业界当前方案主要聚集在如何在算法领域微调以提升 NL2SQL 准确性。受限于企业内部数据复杂性（如行列权限、数据安全、复杂 SQL 语义），该方案还存在可靠性、准确率、数据安全等方面不足。因此，构建适配 LLM 的新架构，成为 AI+BI 整合中必须思考的问题。

本次分享将基于腾讯音乐在融合 ChatBI 与 HeadlessBI 新一代数据分析平台的最佳实践，如何解决复杂场景下业务数据需求，为参会者带来全新的数据分析平台实践的借鉴，共同探索数据分析新未来。

演讲提纲：

1. BI 范式发展演进

2. TextToSQL 技术概览和痛点分析

3. AI+BI 新架构实践

4. 总结

听众收益：

1. 了解当前AI在BI场景下遇到的挑战

2. 通过构建适配AI的新架构，为解决数据分析领域口径不统一、智能化不高、效率低下等问题提供借鉴

落地挑战和方案重点：

1. 通过构建统一的语义模型，并基于此模型对接大语言模型（LLM），而非简单地直接对接数据库表，以此屏蔽底层复杂性，充分利用LLM的强大推理能力，实现深度集成，更好地提升解决复杂数据问题的能力。

2. 在数据分析平台的各个场景中全面集成LLM能力，而不仅局限于Text2SQL任务。通过这种方式，才能充分释放LLM的潜力，真正解决业务中的复杂需求。

莫名网易伏羲语音技术负责人

个人介绍：本硕毕业于西北工业大学ASLP实验室，从事语音算法研发十余年，发表学术论文二十篇。主要研究方向包括语音合成、语音转换、歌声合成、虚拟人等。研究成果落地于逆水寒、永劫无间、倩女、明日之后等网易旗舰游戏。开源歌声合成数据集Opencpop发起人，拥有国内国际发明专利十余项。

演讲题目：实时语音交互的游戏队友- AI Agent创新应用

演讲介绍：在PVP多人对战类的游戏中，社恐玩家的社交和情绪价值、对战局的操控感，无法得到有效满足。因此，《永劫无间》手游率先发布了全球首创的游戏Copilot-多模态实时交互的语音AI队友。它可以在战斗中自主跑图、战斗、听指令、报战况，还会和玩家进行自由对话，给玩家带来极高的情绪价值，对于新手玩家，语音AI队友还能进行教学引导。本次演讲将会对技术和思路进行具体介绍。

演讲提纲：

1. 网易伏羲介绍

2. 游戏AI队友的应用实践

应用背景及演示

语音AI队友的设计与实现

Agent能力迭代- AOP数据闭环

3. 语音技术在其他游戏的应用

4. 未来规划和总结

听众收益：

1. 如何构建多模态AI队友

2. 如何应用数据闭环提升智能体能力

落地挑战和方案重点：

1. 快速封装和组织智能体

2. 智能体数据闭环下自身能力的提升

王彗木、寒退之京东零售搜索算法工程师

个人介绍：

王彗木：中科院自动化所博士，亦城优秀人才，CCF 中国计算机学会专业会员，研究方向为大模型、强化学习，目前在京东从事主搜排序及生成式召排工作。

李明明：中科院信工所博士，亦城优秀人才，CCF 中国计算机学会专业会员，研究方向为大模型、语义检索，目前在京东从事主搜召回及生成式召排工作。

演讲题目：基于大模型的生成式检索

演讲介绍：在当今快速发展的信息检索领域，搜寻与推荐系统的召回机制扮演着至关重要的角色。我们当前依赖于KNN算法来实现召回任务，但这一传统模型面临着诸多挑战。KNN模型由于缺乏有效的交互机制，对于处理中长尾查询效果不佳；同时，它在索引构建和更新时损失巨大，导致存储和更新成本高昂。

为了克服这些挑战，生成式检索模型应运而生，它优化了召回范式，通过端到端的隐式交互方法，提高了检索的准确性。然而，生成式检索也有其固有缺点，如生成过程的计算成本较高，幻觉率高、以及可能产生与查询不相关的结果。

在此背景下，我们探索了Lexical方法，通过重新定义任务、采用SFT、对齐（DPO）和约束生成，来提升结果的相关性和性能。接着，我们引入了SemanticID，旨在加速推理过程并减轻索引负担。SemanticID的生成依赖于结合了SFT和DPO的推理结果，形成了一个新的检索链路，并服务于大型电商平台，取得显著收益。

尽管SemanticID提供了显著的速度提升，但它也引入了新的问题，正如我们在最近的研究论文中所讨论的沙漏问题。因此，未来我们进一步对SemanticID进行设计，提升效果。同时，生成式排序也有望打破排序的性能瓶颈，带来新的机会。我们期待与社区进行更深入的讨论，共同探索生成式召回与排序的一体化未来。这不仅是对当前系统的一次革新，也是对未来检索技术发展方向的一次大胆预测。

演讲提纲：

1. 业务场景与现状

2. KNN算法的挑战

3. 生成式检索优缺点

4. Lexical方式

5. SemanticID

6. SemanticID的问题

7. 后期规划与展望

听众收益：

1. 理解当前信息检索的挑战

2. 学习并掌握生成式检索的优缺点

3. 掌握Lexical方法的创新

4. 了解SemanticID的应用和优势

5. 认识SemanticID的问题和改进方向

张颖峰英飞流创始人兼CEO

个人介绍：多年搜索引擎、Infra和数据库内核，以及人工智能开发经历。先后负责千万级日活搜广推产品建设，以及若干家大型企业数字化转型。

演讲题目：RAG 2.0 引擎的设计挑战和实现

演讲介绍：以LLMOps为中心的RAG产品难以满足企业级需求已经成为共识，如何满足企业需求，存在很多的定制解决方案。例如采用各种数据库和Embedding的组合，各种定制化的Chunking手段，等等。本分享基于我们创业以来打造标准化开源产品的经验，介绍我们关于下一代RAG产品的定义和实现细节，以及演进路线。

演讲提纲：

1. RAG 1.0的痛点和解决方向

2. 如何有效Chunking

3. 如何准确召回

4. 高级RAG和Agent

5. RAG未来将如何发展

听众收益：

1. 如何搭建企业级RAG系统

2. 大模型在企业应该如何真正落地

落地挑战与方案重点：

1. 文档理解是决定RAG效果的第一入口，彻底解决仍需要时间

2. 知识图谱对于RAG是重要组件，知识图谱未来如何发展，仍在不断探索中

万建伟 PingCAP 研发工程师

个人介绍：毕业后加入阿里巴巴, 于2022年加入PingCAP。目前主要负责TiDB Cloud下的Chat2Query和SQLEditor的算法优化、能力搭建及应用架构设计。

演讲题目：Chat2Query：用 NL2SQL 加速数据探索

演讲介绍：NL2SQL是一种将自然语言查询转换为SQL查询的技术，对于降低用户探索数据的成本、提升用户体验具有重要意义。Chat2Query通过多种创新策略和技术，取得了卓越的NL2SQL效果，在Spider基准测试中达到了86.2，并曾在Bird基准测试中获得第4名。更重要的是，Chat2Query已成功落地于实际生产环境，展现了其强大的实用性。本次分享将探讨Chat2Query背后的原理及其成功的关键因素。

LLM+BI：智能数据分析平台落地实践

正文

演讲题目：融合 ChatBI 与 HeadlessBI 新一代数据分析平台实践

听众收益：

落地挑战和方案重点：

演讲题目：实时语音交互的游戏队友- AI Agent创新应用

演讲提纲：

听众收益：

落地挑战和方案重点：

演讲题目：基于大模型的生成式检索

演讲提纲：

听众收益：

演讲题目：RAG 2.0 引擎的设计挑战和实现

落地挑战与方案重点：

请到「今天看啥」查看全文