专栏名称: DataFunTalk
专注于大数据、人工智能领域的知识分享平台。
目录
相关文章推荐
秦皇岛晚报  ·  【中国好手艺117】铁艺灯笼 ·  2 天前  
秦皇岛晚报  ·  【中国好手艺117】铁艺灯笼 ·  2 天前  
大数据文摘  ·  刚刚,「诺奖风向标」2025年斯隆奖出炉:2 ... ·  6 天前  
大数据文摘  ·  风投式思维:哪吒2和DeepSeek背后的共 ... ·  6 天前  
数据派THU  ·  政务系统拥抱DeepSeek,会带来哪些改变? ·  4 天前  
51好读  ›  专栏  ›  DataFunTalk

倒计时2天 | 「DataFunCon2024·北京站:大数据·大模型.双核时代 」主题峰会,探究火山引擎的AI魅力!

DataFunTalk  · 公众号  ·  · 2024-07-03 19:21

正文

2023 年的“百模大战”逐渐退烧,2024 年大模型进入应用落地的突破阶段。大模型凭借其卓越的预测和决策辅助能力,深入渗透到企业运营的各个环节,从产品研发到运营、营销,再到用户服务,全面重塑企业核心。

在过去的两年中,“大模型”无疑成为互联网行业的焦点话题,曾经炙手可热的大数据架构似乎淡出公众视野。然而,大数据领域并未停滞不前,反而快速演进,传统依赖众多开源组件的大数据平台正逐步过渡到以融合与简化为核心特点的新型数据架构。业界普遍认为,这一转型将催生出更高性能的智能基础设施。
“大模型”和“大数据”如同双轮驱动,合力提升数据价值和企业价值。作为双核驱动力,大数据和大模型正引领我们迈向更加智能、高效和便捷的新时代。
基于 “大模型引领变革,大数据加速前行,双核驱动智能新时代” 的核心理念, 7月5-6日 在北京将会召开「 DataFunCon2024·北京站:大数据·大模型.双核时代 」主题峰会。 本次邀请了来自火山引擎的多名技术专家,共同探讨在大模型时代下的双核实战!

火山引擎 A/B测试 DataTester产品负责人——方磊老师也将作为「 量化决策的艺术:AB实验与因果推断 」分论坛的出品人出席本次会议,与大家一同感受AI与数据双驱动时代的魅力。

同时火山引擎还有杨皇、刘小可、彭信东三位老师以讲师的身份出席「 量化决策的艺术:AB实验与因果推断 」与「 信息挖掘新篇章:RAG检索实践 」分论坛,期待各位光临。

议题推荐

分论坛:量化决策的艺术:AB实验与因果推断

演讲题目:字节跳动实验平台的边界拓展

演讲嘉宾: 杨皇 抖音集团A/B测试技术专家

个人介绍: 杨皇本科毕业于南京大学大气科学专业,于2015年获得美国康奈尔大学大气科学博士学位,后于约翰霍普金斯大学和加州大学洛杉矶分校从事气候动力及大尺度污染物传输研究。2021年加入字节跳动,在实验平台主持观察性因果推断,干涉效应等复杂场景实验设计分析及相关平台产品化搭建。

演讲介绍和提纲: 字节跳动拥有强大的实验平台,每天都有数以千计的实验来产出对于特定策略的效应评估。这些评估结果牵动着公司内部大大小小的商业决策,不断形塑着各类产品的更迭演化。伴随着业务拓展的复杂化和多元化,实验平台也面临着越来越多的技术挑战,诸如干涉效应、高维度调参以及有效随机实验难以开展。经典的假设检验框架已经很难适应这些新的挑战,这促发字节跳动实验平台拓展传统边界,志在打造一款动态化、自动化以及观察数据友好化的多功能一体化效应评估产品。在这里,我们将带来近期的一些研究进展和产品实践分享。

听众收益:

1. 基于并行化的Leiden算法,字节跳动实验平台能够快速处理亿级用户的复杂社交网络,完成聚类分流,显著减轻社交溢出对于实验评估的干扰。

2. 基于马尔科夫决策过程,字节跳动实验平台在传统随机实验框架下结合强化学习实现了对于双边市场干涉效应的统计修正。

3. 基于迁移学习,字节跳动实验平台有效降低了自动调参冷启动“有损”的风险,并提高了调参效率。

4. 基于经典计量经济因果推断框架与因果发现,字节跳动实验平台推出了一套端到端的支持观察数据因果推断方法的平台工具,并强化了稳健性诊断和风险评估对于结论质量的保障。


演讲题目:推荐场景下的复杂AB实验设计

演讲嘉宾: 刘小可 博士 抖音推荐算法部门数据科学负责人

个人介绍: 伦敦大学学院(UCL)统计系博士 抖音推荐算法部门数据科学负责人

议题介绍和提纲: 在推荐策略的迭代中,经常遇到SUTVA假设不满足的复杂实验场景,最典型的两类场景是存在网络效应的社交类实验和同时影响到消费者和创作者的双边实验,在这两类场景中,实验组和对照组之间往往存在相互干扰 (Interference),进而影响实验的度量和观测。在本次演讲中,我将介绍如何通过实验设计的方式尽可能消除实验对象间的相互干扰,进而得到无偏的策略效应估计。

本次分享主要包括:

- 社群分流在抖音社交实验中的应用

- 供需双边实验在抖音流量扶持场景的应用

听众收益:

1.在推荐策略评估场景,有哪些常见的Interference问题?

2.如何通过社群分流消除「网络效应」对实验评估的影响?

3.如何通过实验设计解决流量扶持场景的资源挤占问题?


分论坛:信息挖掘新篇章:RAG检索实践

演讲题目:ByteHouse:基于OLAP的高性能向量检索设计及应用

演讲嘉宾: 彭信东 火山引擎ByteHouse技术专家

个人介绍: 负责火山引擎OLAP引擎研发工作,有多年TP/AP数据库及分布式系统内核研发经验,目前主要聚集于ByteHouse云原生数据库相关开发工作。

演讲介绍和提纲:

向量检索被广泛使用于以图搜图、内容推荐以及大模型推理等场景。随着业务升级与 AI 技术的广泛使用,用户期望处理的向量数据规模越来越大,对向量数据库产品的稳定性、易用性与性能需求也越来越高。为此火山引擎ByteHouse团队基于社区 ClickHouse 进行技术演进,提出了全新的向量检索功能设计思路,满足业务对向量检索稳定性与性能方面的需求,目前ByteHouse向量检索性能实现与专用向量数据库持平,且已经在相关场景落地。

本次分享以火山引擎 ByteHouse 的向量检索功能设计与实现为主题,主要包括以下内容:

1. 向量检索概念以及在 LLM 场景的应用

2. 如何基于ByteHouse OLAP引擎实现向量检索

3. ByteHouse向量检索-性能优化解读

4. ByteHouse向量检索-资源优化解读

5. 与专用向量数据库的性能比较

ByteHouse向量检应用场景解读

听众收益:

1. 向量检索的使用场景

2. 向量检索与 OLAP 结合的优势

3. 如何在 OLAP 系统中实现高效向量搜索

4. 基于OLAP的向量检索应用场景


此刻,我们也诚邀您参加本届DataFunCon,来与我们交流,以下是我们






请到「今天看啥」查看全文