专栏名称: DataFunTalk
专注于大数据、人工智能领域的知识分享平台。
目录
相关文章推荐
中核集团  ·  中核集团召开总部卓越绩效模式贯标动员会 ·  7 小时前  
中核集团  ·  卓越绩效大家谈⑥ ·  昨天  
中核集团  ·  校园招聘🥰 ·  2 天前  
中核集团  ·  校园招聘🤗 ·  3 天前  
51好读  ›  专栏  ›  DataFunTalk

LLM+BI:智能数据分析平台落地实践

DataFunTalk  · 公众号  ·  · 2024-09-17 13:00

正文

如何用Text2SQL高效实现ChatBI?

Graph+RAG,大模型的下一里程碑?

如何打造企业级RAG 2.0产品?

NL2SQL如何加速数据探索?

如何扩大Agent能力边界?

大模型训练推理技术创新和思考

GenAI在具体业务场景中的最佳实践
9月21日,09:00-17:00,DataFun将联合业内多位知名AI技术专家举办DataFunSummit2024: 生成式AI技术峰会 ,探讨生成式AI领域的技术突破和进展,并分享他们的最新思考与落地实践经验。感兴趣的小伙伴欢迎 识别二维码免费报名 ,收看直播:
扫码免费报名,收看直播
| 峰会日程


| 详细介绍

罗雷 腾讯音乐 TME内容信息平台部 架构师

个人介绍:十余年大数据领域工作经验;在加入腾讯音乐之前,先后在招商银行软件中心、OPPO任高级工程师;曾参与并主导大型银行反洗钱系统、亿级用户画像系统、亿级实时计算平台、海量歌曲实时榜单、TME内容库等系统;Apache Flink/Doris contributor;担任过Doris技术会议演讲嘉宾;参与发起Github开源项目SuperSonic,当前star2000+、社区群用户1800+、为微众、VIVO、理想、百胜等60+大中型企业应用。

演讲题目:融合 ChatBI 与 HeadlessBI 新一代数据分析平台实践

演讲介绍:数据分析平台作为企业内部数据价值变现的重要载体,在企业数字化进程中发挥了重要作用。企业数据需求的复杂性以及当前平台存在使用高门槛、口径不统一、需求响应不及时等问题,使得分析平台价值体现受到影响。如何解决这些挑战,成为业界普遍关心的议题。

随着 LLM 发展,出现了引领数据分析领域的新范式 ChatBI。为实现 ChatBI,学术界和工业界主要关注利用 LLM 的能力将自然语言转换为 SQL,通常称为 NL2SQL。业界当前方案主要聚集在如何在算法领域微调以提升 NL2SQL 准确性。受限于企业内部数据复杂性(如行列权限、数据安全、复杂 SQL 语义),该方案还存在可靠性、准确率、数据安全等方面不足。因此,构建适配 LLM 的新架构,成为 AI+BI 整合中必须思考的问题。

本次分享将基于腾讯音乐在融合 ChatBI 与 HeadlessBI 新一代数据分析平台的最佳实践,如何解决复杂场景下业务数据需求,为参会者带来全新的数据分析平台实践的借鉴,共同探索数据分析新未来。

演讲提纲:

1.  BI 范式发展演进

2.  TextToSQL 技术概览和痛点分析

3.  AI+BI 新架构实践

4.  总结

听众收益:

1.  了解当前AI在BI场景下遇到的挑战

2.  通过构建适配AI的新架构,为解决数据分析领域口径不统一、智能化不高、效率低下等问题提供借鉴

落地挑战和方案重点:

1.  通过构建统一的语义模型,并基于此模型对接大语言模型(LLM),而非简单地直接对接数据库表,以此屏蔽底层复杂性,充分利用LLM的强大推理能力,实现深度集成,更好地提升解决复杂数据问题的能力。

2.  在数据分析平台的各个场景中全面集成LLM能力,而不仅局限于Text2SQL任务。通过这种方式,才能充分释放LLM的潜力,真正解决业务中的复杂需求。

莫名 网易伏羲 语音技术负责人

个人介绍:本硕毕业于西北工业大学ASLP实验室,从事语音算法研发十余年,发表学术论文二十篇。主要研究方向包括语音合成、语音转换、歌声合成、虚拟人等。研究成果落地于逆水寒、永劫无间、倩女、明日之后等网易旗舰游戏。开源歌声合成数据集Opencpop发起人,拥有国内国际发明专利十余项。

演讲题目:实时语音交互的游戏队友- AI Agent创新应用

演讲介绍:在PVP多人对战类的游戏中,社恐玩家的社交和情绪价值、对战局的操控感,无法得到有效满足。因此,《永劫无间》手游率先发布了全球首创的游戏Copilot-多模态实时交互的语音AI队友。它可以在战斗中自主跑图、战斗、听指令、报战况,还会和玩家进行自由对话,给玩家带来极高的情绪价值,对于新手玩家,语音AI队友还能进行教学引导。本次演讲将会对技术和思路进行具体介绍。

演讲提纲:

1.  网易伏羲介绍

2.  游戏AI队友的应用实践

应用背景及演示

语音AI队友的设计与实现

Agent能力迭代- AOP数据闭环

3.  语音技术在其他游戏的应用

4.  未来规划和总结

听众收益:

1.  如何构建多模态AI队友

2.  如何应用数据闭环提升智能体能力

落地挑战和方案重点:

1.  快速封装和组织智能体

2.  智能体数据闭环下自身能力的提升

王彗木、寒退之 京东零售搜索 算法工程师

个人介绍:

王彗木:中科院自动化所博士,亦城优秀人才,CCF 中国计算机学会专业会员,研究方向为大模型、强化学习,目前在京东从事主搜排序及生成式召排工作。

李明明:中科院信工所博士,亦城优秀人才,CCF 中国计算机学会专业会员,研究方向为大模型、语义检索,目前在京东从事主搜召回及生成式召排工作。

演讲题目:基于大模型的生成式检索

演讲介绍:在当今快速发展的信息检索领域,搜寻与推荐系统的召回机制扮演着至关重要的角色。我们当前依赖于KNN算法来实现召回任务,但这一传统模型面临着诸多挑战。KNN模型由于缺乏有效的交互机制,对于处理中长尾查询效果不佳;同时,它在索引构建和更新时损失巨大,导致存储和更新成本高昂。

为了克服这些挑战,生成式检索模型应运而生,它优化了召回范式,通过端到端的隐式交互方法,提高了检索的准确性。然而,生成式检索也有其固有缺点,如生成过程的计算成本较高,幻觉率高、以及可能产生与查询不相关的结果。

在此背景下,我们探索了Lexical方法,通过重新定义任务、采用SFT、对齐(DPO)和约束生成,来提升结果的相关性和性能。接着,我们引入了SemanticID,旨在加速推理过程并减轻索引负担。SemanticID的生成依赖于结合了SFT和DPO的推理结果,形成了一个新的检索链路,并服务于大型电商平台,取得显著收益。

尽管SemanticID提供了显著的速度提升,但它也引入了新的问题,正如我们在最近的研究论文中所讨论的沙漏问题。因此,未来我们进一步对SemanticID进行设计,提升效果。同时,生成式排序也有望打破排序的性能瓶颈,带来新的机会。我们期待与社区进行更深入的讨论,共同探索生成式召回与排序的一体化未来。这不仅是对当前系统的一次革新,也是对未来检索技术发展方向的一次大胆预测。

演讲提纲:

1.  业务场景与现状

2.  KNN算法的挑战

3.  生成式检索优缺点

4.  Lexical方式

5.  SemanticID

6.  SemanticID的问题

7.  后期规划与展望

听众收益:

1.  理解当前信息检索的挑战

2.  学习并掌握生成式检索的优缺点

3.  掌握Lexical方法的创新

4.  了解SemanticID的应用和优势

5.  认识SemanticID的问题和改进方向

张颖峰 英飞流 创始人兼CEO

个人介绍: 多年搜索引擎、Infra和数据库内核,以及人工智能开发经历。先后负责千万级日活搜广推产品建设,以及若干家大型企业数字化转型。

演讲题目:RAG 2.0 引擎的设计挑战和实现

演讲介绍:以LLMOps为中心的RAG产品难以满足企业级需求已经成为共识,如何满足企业需求,存在很多的定制解决方案。例如采用各种数据库和Embedding的组合,各种定制化的Chunking手段,等等。本分享基于我们创业以来打造标准化开源产品的经验,介绍我们关于下一代RAG产品的定义和实现细节,以及演进路线。

演讲提纲:

1. RAG 1.0的痛点和解决方向

2. 如何有效Chunking

3. 如何准确召回

4. 高级RAG和Agent

5. RAG未来将如何发展
听众收益:
1.  如何搭建企业级RAG系统

2.  大模型在企业应该如何真正落地

落地挑战与方案重点:

1.  文档理解是决定RAG效果的第一入口,彻底解决仍需要时间

2.  知识图谱对于RAG是重要组件,知识图谱未来如何发展,仍在不断探索中

万建伟 PingCAP 研发工程师

个人介绍:毕业后加入阿里巴巴, 于2022年加入PingCAP。目前主要负责TiDB Cloud下的Chat2Query和SQLEditor的算法优化、能力搭建及应用架构设计。

演讲题目:Chat2Query:用 NL2SQL 加速数据探索

演讲介绍:NL2SQL是一种将自然语言查询转换为SQL查询的技术,对于降低用户探索数据的成本、提升用户体验具有重要意义。Chat2Query通过多种创新策略和技术,取得了卓越的NL2SQL效果,在Spider基准测试中达到了86.2,并曾在Bird基准测试中获得第4名。更重要的是,Chat2Query已成功落地于实际生产环境,展现了其强大的实用性。本次分享将探讨Chat2Query背后的原理及其成功的关键因素。







请到「今天看啥」查看全文