专栏名称: DataFunSummit
DataFun社区旗下账号,专注于分享大数据、人工智能领域行业峰会信息和嘉宾演讲内容,定期提供资料合集下载。
目录
相关文章推荐
FM93交通之声  ·  痛别!她于11时18分离世,年仅48岁 ·  2 天前  
51好读  ›  专栏  ›  DataFunSummit

AB实验与因果分析前沿探索

DataFunSummit  · 公众号  ·  · 2024-05-16 18:00

正文

最新的AB实验方法论?
前沿的RAG应用实践?
基于大模型的因果推断?


金融、汽车、物流、电商、游戏领域的领先落地经验?


尽在5月25日,由DataFun出品的数据科学峰会,我们将邀请8位专家和出品人共同策划,邀请来自国内外一线的专家学者分享数据科学的最新实践探索,感兴趣的小伙伴欢迎扫码报名,收看直播:

识别二维码,免费报名

峰会日程:


部分议题展示:


李奕霖 腾讯 数据科学家

个人介绍:北京大学数学学院统计学博士在读,致力于因果推断的研究,特别是存在干涉的因果推断和观察性数据分析。现任职于微信实验平台,主要研究方向为网络实验设计与分析,研究内容在Biometrics、ACM/IMS Journal of data science、ICML等期刊和会议发表。

演讲题目:基于成对数据的A/B实验

演讲提纲: 成对数据是一种独特的数据类型,用于刻画两个个体间的交互行为和关系。研究人员可以利用成对数据更为深入研究个体之间的复杂关系和动态。例如,在国际关系研究中,成对数据可以包含国家间的贸易额等;而在社交网络分析中,成对数据则可以刻画个体间的交流行为。随着大数据时代的到来,成对数据分析逐渐引起了各个领域应用科学家的兴趣,然而关于成对数据的因果推断方法却鲜有研究。因果推断的核心假设之一是个体稳定处理值假设 (SUTVA),其中对于每个个体的潜在结果不依赖于其他个体的处理。然而,在社交网络场景下,由于存在网络干涉,这一假设往往并不成立,这也导致估计全局平均因果作用可能会出现不可忽略的偏差。我们考虑将成对结果引入随机实验中,其中受试者被随机分配到治疗组或对照组。此类场景在在线随机控制实验(A/B 测试)中广泛存在,例如转发消息或分享链接等数据。基于这类场景,我们引入了一种新颖的成对干涉假定。在存在异质性时,我们证明了基于常规单位水平结果的全局平均治疗效果的无偏估计一般并不存在。为此,我们利用成对数据的特点设计了了全局平均因果作用的无偏估计,并证明了在不同随机化设计(例如伯努利随机化、完全随机化和聚类随机化)下均不存在偏差。我们对所提出的估计量及其相应的理论特性进行了深入而全面的分析,例如收敛速度与网络结构之间的联系,以及利用Stein方法分析的估计量的渐近正态性。我们讨论了伯努利随机化下估计量的置信区间的构造方法,并给出了相应的统计推断方法。我们还通过各种数值实验来说明上述现象,验证了估计量对全局因果作用估计的准确性,同时将这一方法应用于大规模在线随机对照实验中。

听众收益:

1. 网络实验中,估计全局因果作用的方法有哪些?

2. 什么是成对数据分析?

3. 如何利用成对数据进行A/B实验与因果推断?相关的理论是什么?存在哪些问题?

李奕萱 联通数科 数据科学家

个人介绍:联通数字科技有限公司 模型开发专家。负责数字政府、文旅交通等行业的模型应用构建。专注于探索大数据、人工智能等方向的新技术,并在行业应用落地,主要研究成果已在多篇期刊和会议发表。

演讲题目:RAG技术应用实践

演讲提纲: RAG(Retrieval-Augmented Generation)技术,是一种结合检索和生成功能的自然语言处理技术。它通过从大型外部知识库中检索与输入问题相关的信息,来辅助生成式模型回答问题。RAG技术广泛应用于问答、对话系统、文本摘要等多种自然语言处理任务中。它的优势在于能够提高内容的准确性和相关性,有效地缓解幻觉问题,提高知识更新的速度,并增强内容生成的可追溯性。本次演讲将分享RAG技术的优势、我们如何基于联通自有数据进行知识增强应用的构建,以及在应用RAG技术过程中遇到的挑战和解决方案。

听众收益:

1. 什么是RAG技术?

2. RAG技术的优势是什么?

3. RAG技术过程中遇到的挑战和解决方案。

董晓静

Leavey School of Business, Santa Clara University, Assistant Professor of Marketing

演讲题目 通过实时数据揭示消费者偏好

对消费者偏好进行推断在个性化、定向推荐领域起着至关重要的作用,常规操作是利用消费者的历史数据的获取其偏好,但这一资源由于不断增加的隐私法规而变得稀缺。 在这项研究中,我们引入了一种贝叶斯动态方法,通过利用消费者的搜索过滤选择来解码消费者偏好,例如调整价格范围以优化搜索结果。 这种创新方法使我们能够利用实时搜索行为数据了解消费者偏好。 这就可以让公司再遵守隐私法规的限制的同时,也能及时获取用户偏好、并实现及时的推荐。 我们开发了一个贝叶斯模型,捕捉实时信息以评估流动环境中个体级别的价格质量权衡。 通过针对价格质量权衡量身定制的效用模型,我们的模型提供了一个闭环的解决方案,帮助企业看清楚各种不同影响消费者购买决策的因素是如何收敛并最终作用在购买结果上的。 我们通过模拟和来自知名旅行社的实际数据验证了模型的有效性,采用了马尔可夫链蒙特卡洛技术。 这种新颖方法的模拟和实际应用都突显了其卓越的预测能力,表明企业可以通过分析消费者的实时在线行为敏锐地洞察消费者倾向。

识别二维码,免费报名

韩云飞 火山引擎 A/B 测试研发负责人

个人介绍:负责字节跳动通用实验平台团队,致力于打造业界最先进好用的实验平台,把A/B测试变成驱动业务增长的新基建。从0到1参与搭建了字节跳动内实验中台Libra,服务于内部多条业务线;对外发布火山引擎DataTester等产品。

演讲题目:用户增长的真相

演讲介绍: 在当今竞争激烈的市场环境下,企业都在竭尽全力地追求用户增长。然而,要实现可持续的增长,我们必须深入理解用户,找到有效的方法为他们带来价值。在这个过程中,数据发挥着至关重要的作用。本次分享将围绕着“用户增长的真相就是不断对抗熵增”这一理念,探讨如何利用数据分析、实验评估和探索分析等手段,实现用户增长的目标。具体内容包括:

1. 用户增长的真相

2. 理解用户需求

3. 寻找有效策略

4. 为用户创造价值

5. 利用数据获得洞察

6. 结论

听众收益:

1. 揭示用户增长的核心本质:深入探讨用户增长的真相,帮助听众理解如何对抗熵增,实现可持续增长。

2. 数据驱动的策略制定:分享如何利用数据分析找到有效的增长策略,通过实验评估确保策略的有效性。

3. 提升用户价值:强调为用户创造价值的重要性,介绍如何利用数据进行产品迭代,提升用户体验。


程伟 NEC Labs America 高级研究员

个人介绍:Wei Cheng 是 NEC 美国实验室的高级研究员。他于2015年在美国加州大学教堂山分校计算机科学系获得博士学位,导师为王伟教授。他的研究兴趣包括数据科学、机器学习和生物信息学。他已申请专利100多项,在NeurIPS、ICML、SIGKDD、ICLR、WWW、EMNLP、ISMB等顶级会议和Nature、Science、TPAMI、TNNLS、TKDE、Bioinformatics等期刊上发表研究论文100多篇。他的研究成果曾获得 2016 年 SIGKDD 最佳研究论文亚军奖,并获得 2018 年 ICDM、2017 年 ICDM、2015 年 ICDM 和 2012 年 SDM 最佳论文奖提名。他还担任过多个顶级会议的领域主席,包括 ACL、SIGKDD、EMNLP、NAACL、IJCAI、SDM、AAAI、WSDM 等。

演讲题目:检测 LLM 创建的内容

演讲提纲: 在这个数字化快速发展的时代,LLM如ChatGPT和Claude等已成为我们获取、生成和理解信息的重要工具。它们不仅能够创建高质量的文本内容,还能在各个领域中提供支持和优化解决方案。在接下来的时间里,我们将探讨LLM内容创造的现状、为什么需要对这些内容进行检测、以及可以采用的不同方法和技术。我们还将分享成功案例研究,探讨当前面临的挑战,并展望未来技术的发展方向。我们希望通过今天的讨论,提高大家对于大型语言模型在内容创造中作用与挑战的认识,并共同探索有效的内容检测策略,以确保信息的真实性和安全性。主要内容包括:

I. 引言

A. 介绍大型语言模型(LLM)及其在内容创作中的作用

B. 强调检测LLM创建内容的重要性

C. 演讲目的概览

II. LLM内容创作的现状

A. LLM在各行业的应用实例

B. 创作内容的质量与可信度

C. 存在的挑战与风险

III. LLM内容检测的必要性

A. 确保内容的真实性与准确性

B. 避免误导性信息的传播

C. 维护内容创造道德和标准

IV. 检测方法与技术

A. 基于文本分析的方法

B. 机器学习与人工智能技术

C. 高级检测技术的发展趋势

V. 未来展望

A. 检测技术的发展方向

B. LLM内容创造与检测的融合前景

C. 参与者的责任与角色

Ⅵ. 问答环节

A. 解答观众问题

B. 探讨演讲话题的深入内容

听众收益:

1. 了解可检测LLM生成内容的重要性

2. 当前可以采用的不同方法和技术

3. 展望未来技术的发展方向


孙悦雯 MBZUAI 博士后

个人介绍: 孙悦雯博士目前是穆罕默德·本·扎耶德人工智能大学机器学习系的博士后研究员。2023年获得东南大学博士学位,2017年获得山东大学学士学位。主要研究方向包括强化学习、因果发现和表征学习。

演讲题目:因果表征学习的理论创新与应用实践

演讲提纲: 在实际生活中,观测变量通常可以视作隐变量的数学函数表达。面对不断变化且复杂的实际场景,我们往往关注这些具有因果语义的底层数据生成过程。因果表征学习力求从底层观测数据中识别出具有语义信息且具有可识别性的高级因果变量。良好的表征可以帮助智能体对其周围环境进行简洁的建模,进而支持复杂环境下的有效决策。本次演讲将简要介绍因果的基本概念及其在现实问题中的重要性,随后介绍因果表征学习这一新兴领域的研究现状,并分享我们团队在该领域的进展。

听众收益:

1. 什么是因果表征学习?

2. 因果表征学习可以为我们带来什么?

3. 如何将因果表征学习应用于决策过程?


陈思蕤 同济大学 博士研究生

个人介绍:同济大学软件学院博士研究生,研究方向为因果推理,大语言模型。

演讲题目:大语言模型因果推理评测体系的构建

演讲介绍:







请到「今天看啥」查看全文