专栏名称: DataFunSummit
DataFun社区旗下账号,专注于分享大数据、人工智能领域行业峰会信息和嘉宾演讲内容,定期提供资料合集下载。
目录
相关文章推荐
深圳特区报  ·  “为了写好这份建议,我们调研了好几个月。”4 ... ·  19 小时前  
读特新闻  ·  深圳最新发布:来深找工作,15天免费住 ·  2 天前  
深圳大件事  ·  连续3天!深圳这场活动太吸睛 ·  3 天前  
深圳特区报  ·  @深圳企业,有需要?请按1号键! ·  3 天前  
51好读  ›  专栏  ›  DataFunSummit

数据治理体系建设与落地探索

DataFunSummit  · 公众号  ·  · 2024-08-14 18:00

正文

目前数据治理的前沿话题有哪些?

基于大模型的数据治理应用范式?
数据资产入表的方法论与实践?
数据血缘核心技术路线?
Databricks和SnowFlake带🔥的元数据管理?

从元数据管理到数据血缘分析,是做好数据治理的必由之路。 8月17日,09:00-17:00,DataFun将联合业内多位知名专家举办DataFunSummit2024: 数据治理在线峰会 ,将深度探讨大模型时代数据治理的最新态势,分享各自的研究成果与实践经验,共同推动数据治理在各个领域的深入应用,并产生价值 感兴趣的小伙伴欢迎 识别二维码免费报名 ,收看直播:

扫码免费报名,收看直播

峰会日程

精彩议题

详细介绍

① 大模型与数据治理 论坛

出品人:戴诗峰 腾讯互娱 数据治理负责人

个人介绍:腾讯互动娱乐事业群数据治理负责人,主要负责事业部的数据治理规划与架构,梳理并完善数据资产体系,保障数据安全合规,落地数据管理标准和相应平台。数据领域工作近20年,参与多个领域的大数据平台及数据治理的咨询与交付工作,擅长数据资产体系、数据治理标准及业务分析场景的规划与设计。

兰晨 腾讯互娱 数据治理平台技术负责人

个人介绍:13年大数据研发与架构经验,曾构建腾讯游戏/TCL/招商银行等大型企业的经分系统,目前负责腾讯IEG数据治理平台,提供数据接入、元数据管理、数据应用一站式服务。

演讲题目:大模型在数据发现的应用探索

演讲提纲:

1. 腾讯游戏数据治理概要

2. 大模型技术对于大数据治理的启发

3. 大模型技术在数据发现的应用

听众收益:

1. 腾讯游戏数据治理面临的困难与挑战

2. 库表这么多,我这个数据需求应该用哪些?

3. 腾讯大模型混元如何助力数据发现?

王紫格 北京大学博士研究生、华为诺亚方舟实验室实习生

个人介绍:王紫格,北京大学计算机学院在读博士研究生,华为诺亚方舟实验室实习生,主要研究方向为大语言模型指令微调阶段的数据选择。

演讲题目:大语言模型训练中的数据管理

Data Management For Training Large Language Models: A Survey

演讲提纲:数据是大语言模型训练的关键之一,有效的数据管理,尤其是组建一个合适的训练数据集,对于大语言模型的预训练和有监督微调是十分重要的。尽管主流大语言模型已经积累了一些数据管理的成功经验,然而在实际应用中,如何选择合适的数据管理策略依然是一个较大的挑战。因此,越来越多的研究致力于探寻数据管理影响大语言模型性能的深层机制以及更优更高效的数据管理策略。本次演讲将分别介绍大语言模型预训练和有监督微调阶段的数据管理相关研究工作,并对数据管理未来可能的研究方向进行展望和设想。具体内容包括:

1. 概述,问题引入,并提出数据管理的概念;

2. 预训练阶段的数据管理,包括领域组合、数据数量和数据质量三个小节;

3. 有监督微调阶段的数据管理,包括任务组合、数据质量、数据数量和动态数据高效学习四个小节;

4. 挑战及未来可能的研究方向。

听众收益:

1. 组织一个合适的 LLM 训练数据集需要注意哪些方面?

2. 现有的研究工作都有哪些发现?

3. LLM 数据管理未来仍面临哪些挑战?

何舒青 抖音集团 数据研发专家

个人介绍:北京邮电大学本硕,曾任百度大数据工程师,目前是抖音集团数据研发专家,负责数据资产方向找数助手算法研发。

演讲题目:DataLeap 数据资产方向的大模型实践 - 找数助手

演讲提纲:本次演讲将介绍抖音集团在数据资产方向的技术探索——如何通过「消费促沉淀」辅助用户自主消费数据资产,加速数据飞轮。包括的主要内容有:

1. 数据消费面临的问题

2. 找数助手整体架构

3. 消费促沉淀方案

4. 大模型对找数助手的赋能

听众收益:

1. 如何借助大模型技术,辅助用户自主查找和消费数据资产,如:找hive表、用数-问口径和加工逻辑等

2. 如何通过「消费促沉淀」的解决方案,不断提升数据问答助手的拦截率,加速数据飞轮


扫码免费报名,收看直播

② 元数据管理 论坛

出品人:陈昱康 哔哩哔哩 大数据架构团队负责人

个人介绍:B站大数据架构团队负责人,目前负责B站的大数据计算平台、OLAP平台、存储系统、资源调度、平台工程等系统的建设工作。有10年以上的大数据架构和平台产品建设经验,曾在大众点评、阿里云、携程负责大数据平台和架构组件的研发工作,对分布式计算、分布式存储、OLAP引擎,数据治理,大数据平台产品和系统架构等方面有丰富的研发和落地实践经验。

李天航 哔哩哔哩 大数据开发工程师

个人介绍:李天航,Bilibili 大数据开发工程师,Apache Gravitino contributor,专注于大数据场景下的元数据管理 & Spark 计算引擎优化。

演讲题目:统一元数据管理 - Gravitino 在 B 站的最佳实践

演讲提纲:

1. 当前元数据管理的现状

- 介绍当前元数据管理面临的主要问题和挑战

- 分析传统元数据管理架构的局限性

2. 引入 Gravitino 的背景

- 解释引入中心化元数据管理系统的重要性

- 分析与对比目前工业界主流的元数据管理组件

- 强调 Gravitino 在数据治理方面的重要意义及潜力

3. Gravitino 在B站元数据管理中的应用

- 具体介绍引入 Gravitino 的场景以及解决的痛点

- 分析 Gravitino 在数据治理过程中遇到的挑战及解决方案

4. Gravitino 在B站实践的成果

- 分享对于多数据源的统一元信息管理的提效成果

- 分享在 Kafka schema 信息管理的提效成果

- 分享基于对 Fileset 管理的数据治理降本成

5. 未来 Gravitino 在B站大数据基础架构中场景的探索和展望

- 潜在的数据治理场景以及方案

· 短期 ec, 列ttl, 文件ttl

· 长期(统一权限、统一血缘等)

听众收益:

1. Gravitino 解决了传统元数据管理的哪些痛点

2. 如何通过统一元信息管理,实现降本增效

张放 货拉拉 大数据工程师

个人介绍:张放,货拉拉大数据工程师,专注于数据治理、OLAP引擎等方向的工作。

吴刚 货拉拉 高级大数据工程师

个人介绍:吴刚,货拉拉大数据工程师,专注于数据安全、数据治理等方向的工作。

演讲题目:货拉拉大数据元数据管理演进和实践

演讲提纲:

1. 元数据管理介绍

① 面临的问题和挑战

② 元数据管理总体介绍

2. 元数据管理实践

① 数据血缘:血缘介绍、血缘演进、应用场景

② AI智能检索:元数据整体框架介绍、元数据检索演进、基于大模型+RAG落地的难点

③ 支撑成本治理:成本治理体系介绍、自主治理能力、降本

④ 数据安全 - 敏感数据管理:分类分级、数据加密、更多安全场景

3. 未来规划

① 继续探索和优化AI大模型在数据检索领域的

② 持续降本增效

③ 更多的数据血缘场景

听众收益:

1. 货拉拉大数据元数据管理体系如何演进

2. 大模型 + RAG 是如何在元数据检索场景中落地的

韩杰 同程旅行 大数据高级工程师

个人介绍:大家好,我是韩杰,一名专注于大数据技术的开发者,拥有5年的大数据经验,致力于流批计算引擎,积极参与和贡献多个大数据开源项目。

演讲题目:同程旅行基于 Waggle-Dance 元数据方案实践

演讲介绍:

1. 背景

2. Federation 方案

3. 方案实践

4. 未来规划

听众受益:

1. 数据联邦Waggle-Dance架构体系

2. 同程构建水平拓展的联邦元数据之路

3. 同程统一元数据的方案与实践

宫钰辰 联通数科 产品经理

个人介绍:宫钰辰 联通数科数据智能事业部产品经理 5年大数据产品领域经验 完成10+数据治理产品0-1构建。

演讲题目:联通数科基于一体化数据平台的元数据管理实践

演讲介绍:介绍联通数科在元数据管理领域探索实践,平台对内实现数科日均200tb数据量统一管理,对外赋能50+政府企业实现元数据统一管理。

演讲提纲:

1. 元数据管理框架

2. 联通数科基于一体化数据平台的元数据管理实践

① 元数据于一体化平台定位;② 元数据基础管理能力;③ 元数据全链血缘

3. 元数据管理未来规划:

① 智能补齐探索实践;② 助力数据资产入表

听众收益:

1. 了解联一体化平台中元数据管理体系如何构建

2. 大模型与元数据结合探索经验

周省 Aloudata大应科技 产品专家

个人介绍:周省先后在金融信息行业头部公司就职,具有金融与数据复合工作经验,曾担任金融产品经理、数据产品经理、产品线负责人等职位,带领团队帮助博时基金、南方基金、海通证券等客户完成金融数据体系的建设和金融高频数据方案的落地。现在 Aloudata 主要负责为客户提供数据智能化体系搭建以及元数据应用咨询方案,在金融行业元数据分析应用、金融指标构建与市场分析方面具备丰富的实践经验,能够基于企业现状和行业趋势,提供数据驱动业务价值提升方案。

演讲题目:Aloudata BIG 主动元数据平台在数据治理中的应用实践

演讲介绍:本次演讲聚焦于数智化时代下的数据治理新挑战与解决方案,深入探讨主动元数据如何以算子级血缘技术为核心,重构并优化数据治理模式,并通过分享 Aloudata BIG 主动元数据平台及其多场景应用方案,以及在国内头部银行的实践,展示了主动元数据及算子级血缘在实际数据治理环境中的成效和价值,为数据治理带来新思路与策略。

演讲提纲:

1. 数智化时代,数据治理面临前所未有的挑战

· 数据管道不断生长,数据治理复杂度呈指数级增长

· 数据治理全新挑战:数据链路复杂化、数据变更协同不及时、数据资产冗余浪费

2. 主动元数据重构数据治理模式

· 元数据是数据治理的重要基础设施

· 主动元数据:动态、智能化的元数据管理技术

3. 主动元数据核心技术:算子级血缘

· 算子级血缘可提供精细、准确和实时的数据血缘信息

· 算子级血缘“四大”特性:精确性、连通性、细致度、实时性

· 衡量算子级血缘的关键指标:解析准确率、分析召回率、分析打扰率

· 只有基于算子级血缘,才能实现真正的主动元数据

4. Aloudata 主动元数据平台及多场景应用

· Aloudata BIG:全球首个算子级血缘的主动元数据平台

· Aloudata BIG 提供高精准、全链路的算子级血缘

· 支持构建端到端、跨平台可扩展自动构建的血缘图谱

· Aloudata BIG 多场景应用

5. Aloudata 主动元数据平台实践案例

· 招商银行

· 杭州银行

听众收益:

1. 从数据加工路径切入,对当下数据治理新挑战形成系统化认知

2. 了解主动元数据的定义、原理、价值,以及同被动元数据的差异

3. 了解算子级血缘技术的先进性,以及如何支持主动元数据落地

4. 学习国内头部银行数据治理实践经验

落地挑战和方案重点:元数据采集、管理及应用多场景功能支持


扫码免费报名,收看直播

③ 数据血缘 论坛

出品人:贺佳欢 抖音集团 大数据研发专家

个人介绍:2016年毕业于北航计算机学院,2016年底加入抖音集团,一直担任大数据开发方面的工作。目前负责数据平台内基础数仓和数据治理两方面的事情。在数据治理方面的工作范围包括稳定性保障,安全合规,预算管理和成本等。

王磊 美团 技术专家

个人介绍:长期从事数据研发相关工作,具有传统行业和互联网行业多年工作经验。专注于数据架构、数据建模、数据治理等领域解决方案建设和落地。

演讲题目:数据治理场景下的数据血缘应用实践分享

演讲提纲:数据血缘是数据治理非常重要的基础能力之一,本次分享主要介绍数据血缘基础能力建设实践,以及在不同治理场景中基于血缘的治理能力建设和落地,希望对大家有所启发和帮助。

听众收益:

1. 对数据血缘建设和使用有一个全面的了解

2. 在日常工作中,基于血缘衍生能力解决一些数据问题

刘浩阳 抖音集团 大数据研发专家

个人介绍:刘浩阳, 抖音集团 大数据研发专家,有多年的大数据经验,专注于大数据管理、数据服务以及BI分析产品等大数据中台化建设工作。

演讲题目:抖音集团大数据血缘演进与应用

演讲提纲:

1. 抖音集团血缘整体介绍

2. 抖音集团血缘系统架构

3. 抖音集团血缘应用场景

4. 未来展望

听众收益:

1. 认识大数据血缘方向,了解建设思路

2. 血缘系统架构如何设计,重点解决的问题

3. 血缘的价值应用在哪些方向

朱江 火山引擎 LAS 大数据研发专家

个人介绍:火山引擎LAS大数据研发专家,主要负责SQL解析优化,权限管控等方面工作。

演讲题目:抖音集团离线数仓血缘基础能力的构建与应用

演讲提纲:在数据中台的大背景下,离线数仓领域中用户经常需要解决以下问题:

- 哪些 Hive 表包含业务 A 的数据?

- 哪些 Hive 表 / Hive 列无下游使用,可以进行数据治理?

这些问题可以统一归类为数据发现问题。字节跳动通过算子级血缘能力,针对离线数仓任务进行 SQL 分析,构建 Hive 表的血缘关系,基于标签传播算法自动化工程化地解决数据发现问题,规避人工标注存在的周期长、成本高、准确率低等问题,对数据进行精细化运营,助力标签传播,数据治理等场景。

另外,数据安全问题近期也逐步受到各国政府和企业的重视,随着国家数据安全法、个人信息保护法的相继颁布和实施,对于数据最小够用原则也提出了明确的要求。因此,如何更细粒度管控权限,如何保证数据安全也变成了每个企业都必须解决的问题。字节跳动基于算子级血缘能力,构建了 SQL 权限点精细化提取能力及动态脱敏能力,有效的保证了敏感数据安全可控。

听众收益:

1. 血缘能力在指标传播,数据治理等场景的应用。

2. 血缘能力在 SQL 权限点精细提取,动态脱敏等场景的应用。

扫码免费报名,收看直播

① 下一代数据治理 论坛

出品人:尹正 中国信息通信研究院 云计算与大数据研究所 大数据与智能化部 高级业务主管

个人介绍:尹正,中国信息通信研究院云计算与大数据研究所大数据与智能化部高级业务主管。长期从事大数据、人工智能领域相关政策、技术、标准和产业研究。主导完成《数据研发运营一体化(DataOps)能力成熟度模型》系列标准、《 Requirements for data asset development and operations capability in multimedia 》国际标准等多项标准文件 目前负责创新数据治理工作,牵头DataOps、Data Fabric、人工智能数据的标准制定、产业研究等工作。

胡庆勇 清华大学无锡应用技术研究院数字交通未来技术研究中心副主任

个人介绍:胡庆勇,教授级高级工程师。清华大学无锡应用技术研究院数字交通未来技术研究中心副主任,北京知语清元科技有限公司创始人,清华校友总会AI大数据专委会理事。研究方向:数据编织,知识图谱,大模型,数字孪生,数字交通。著有 《数据编织》、《交通大数据分析与应用教程》。

演讲题目:现代数据架构的探索与实践:知语数据编织系统

演讲提纲:

1. 背景知识简介

2. 知语数据编织

3. 场景实践案例

4. 总结与展望

听众收益:

1. 数据管理面临的问题及传统数据集成方式的缺陷

2. 数据编织 Data Fabric 演进

3. 知语数据编织平台核心技术

4. 关于现代数据架构的思考

肖文彬 中国移动通信集团广东有限公司 大数据高级主管

个人介绍:中山大学硕士研究生毕业,高级工程师,中国移动集团大数据IT专家,中国电子信息行业联合会数据治理行业专家,中国通信标准化协会大数据技术标准推进委员会专家委员。长期进行广东移动AI、大数据平台建设及数据治理工作,曾获广东省科技进步奖二等奖,广东省技术能手等奖项。

演讲题目:数据编织:释放数据价值的新钥匙--在运营商多元异构环境中的治理与应用实践

演讲提纲:本次演讲主要介绍广东移动的数据编织实践经验,主要讨论:

1. 广东移动大数据发展历程

2. 面临挑战

3. 基于数据编织理念构建智能数据管理方案

4. 应用推广成效

5. 未来展望

听众收益:

1. 了解企业级数据编织的必要性

2. 了解广东移动数据编织架构方案

3. 数据编织在超大规模数据应用场景的落地经验

王轩 南京银行 总行数字银行管理部团队经理

个人介绍:南京银行数字银行管理部平台研发部团队经理,主要负责南京银行数据中台相关工具建设。

演讲题目:城商银行基于 DataOps 的数据中台建设实践探索

演讲提纲:

1 建设背景

2 建设方案

3 建设成果

听众收益:

1. 基于 DataOps 的数据中台如何建设

2. DataOps 落地过程中的困难点

3. DataOps 的价值和意义

何婵 小米 产品经理

个人介绍:现任小米大数据产品经理,武汉大学 MEM 硕士。加入小米4年,深度参与 Mi-DataWorks(小米一站式数据生产平台)产品管理,当前聚焦于集团内 AI 数据存算管治一体化平台建设工作。

演讲题目:Fileset:小米 AI 数据管理平台落地实践

演讲提纲:

1. AI 数据管理平台的建设背景

2. 小米的 AI 数据管理方案介绍

3. Showcase 和业务收益

听众收益:

1. AI数据管理的发展趋势和业界方案

2. 小米 AI 数据管理平台设计方法论,包括:非表格数据资产统一管理、权限管控、数据处理和机器学习等

3. 未来规划

梅焕 京东零售 数据架构师

个人介绍:京东零售数据应用工程师,架构师,北京邮电大学硕士。作为核心研发和架构师参与多个核心数据项目,横跨数字营销、数据建模、数据分析与数据治理等领域,具有丰富的数据实战经验。现负责京东零售指标平台的资产标准与能力建设。

演讲题目:数据编织在数据分析与治理的应用

演讲提纲:

1. 数据分析与治理面临技术挑战

2. 数据编织理念在京东零售指标平台中的落地

3. 指标平台自助、快速支持数据分析实战与智能数据治理实战

4. 未来技术发展规划与挑战

听众收益:

1. 了解数据分析与治理背后的技术挑战

2. 了解京东零售指标平台数据编织技术实现方案

3. 了解京东零售指标平台在数据治理中的技术实现方案

王赫 京东零售 数据架构师

个人介绍:浙江大学硕士,作为主架构师及核心研发先后参与了多主题数仓的精细化升级以及多种数据平台相关能力的沉淀和建设,如画像系统、统一建模、指标平台等。专注于数据资产、智能数仓及大规模数据应用,现负责京东零售AB实验平台数据链路的自动化建设。

演讲题目:数据编织在 AB 实验场景的应用

演讲提纲:

1. 实验场景面临挑战

2. 数据编织管理理念

3. AB 自动化技术详解

4. 当前进展未来展望

听众收益:

1. AB 实验平台背后的技术挑战

2. AB 数据链路自动化技术细节

3. 数据编织理念落地实战案例

扫码免费报名,收看直播

② 大模型时代的数据安全 论坛

出品人:黄国龙(霄元)蚂蚁集团 高级数据技术专家

个人介绍:蚂蚁集团安全大数据团队大模型数据技术负责人,从0~1搭建安全领域超千亿规模数据集产品灵雨,成为蚂蚁安全智能化战场数据集、样本库的核心基座。有15年以上大数据技术团队管理经验,早年在新浪微博、汽车之家任职,曾负责商业化数据团队、及用户画像团队等多个领域。

张言龙 阿里巴巴 大数据专家

个人介绍:中科大硕士,曾任职 PayPal,同盾科技,现主要负责阿里企业经营管理域的数据建设和管理,智能服务安全体系建设。

演讲题目:企业智慧助手-大模型应用下的安全链路设计与实践

演讲提纲:

1. 背景

2. 整体分析思路和架构设计

3. 挑战与解决思路

4. 未来展望

听众收益:

1. 大模型应用下,安全评测如何和设计

2. 智能问答场景下,不同类型的风险怎样处理







请到「今天看啥」查看全文