专栏名称: DataFunTalk

专注于大数据、人工智能领域的知识分享平台。

抖音数据湖表的优化与管理

DataFunTalk · 公众号 · · 2024-12-15 20:00

正文

随着云计算，人工智能，实时计算等技术的飞速发展，传统的数据系统，如数据仓库和数据湖，虽然各自具有独特的优势，但在实际应用中也暴露出了一些局限性。为了解决这些问题，湖仓一体（Lakehouse）作为一种新兴的数据架构应运而生，逐渐成为各行业关注的焦点。湖仓一体结合了数据湖和数据仓库的优点，旨在提供一个统一的数据平台，既能存储多样化的原始数据，又能支持高效的数据分析和处理。湖仓一体架构通过将这两者的优势结合，打破了信息孤岛，实现了数据的统一管理和高效利用。

2024年 12 月 21 日，09: 30 -1 2 :0 5 ， Datafun 联合 Apache Amoro 社区举办： Apache Amoro Meetup，助力湖仓一体生产实践。本次会议邀请了多家公司的技术专家分享自己在湖仓一体架构下的生产实践，并一同探讨湖仓一体的未来发展。感兴趣的小伙伴，欢迎扫码入群收看直播：

识别二维码，加入直播群

活动议程 ‍ ：

详细介绍：

王士达高途大数据高级开发工程师

个人介绍：7年实际工作经验，一直在做大数据相关工作。在美菜网3.5年，公司做生鲜电商业务。曾任职于履约研发部、成立数据仓库部、BI研发部，参与公司数仓规范制定和数仓建设，以及BI工具和报表研发。目前在高途3.5年，公司做在线教育业务。任职于大数据部的数据平台组，大数据高级开发工程师岗位。主要工作职责包括数据同步、数据湖调研落地、埋点上报及管理系统、USQL统一查询服务、指标字典等。

演讲题目：高途基于 Iceberg 和 Amoro 的湖仓一体架构实践

演讲介绍：高途对时效性的诉求逐渐增多，通过离线加工数据部分场景已经不满足业务诉求，业务伙伴希望可以通过实时数据来加快业务落地和决策。使用数据湖技术可以做到分钟级延迟，来满足业务诉求。本次分享介绍高途在腾讯云上接入数据湖技术时遇到的挑战，包含同步工具选择、近1年来表治理方法的演进、数据对比工具进行介绍。

演讲提纲：

· 业务背景： Databus通过MySQL、Canal、Kafka、HDFS和Hive链路进行数据同步，但存在链路长、数据丢失、大表合并资源消耗高和时效性差等问题，链路维护成本高并且无法满足小时级业务需求；Lambda架构的两套链路导致数据差异和浪费资源，批处理时间集中导致资源抢占任务延迟，实时链路排查困难等。

· 方案选型：主要从同步工具选型、Iceberg治理工具发展、数据质量校验方面进行介绍，以及高途在使用数据湖过程中遇到的挑战和解决方法

· 效果和收益：

① 离线链路提效

以前业务链路：离线数仓ods->dwd->dws中有多个层级，整体加工时间5个小时

现在链路：实时链路加工后的Kafka数据直接入dws层，整体缩短为5分钟级

② Databus同步任务迁移：超30亿以上大表全量和增量合并时，预估月费用1万+/月；切换实时入湖方式包含写入和治理，预计150/月

③ 实时性入仓，缩短抽数时间：有些ods层大表需要抽取40分钟，由40分钟缩短到分钟级。小时级链路最快可加快半小时

· 未来规划和总结

① 治理稳定性完善。由于是流式写入会产生小文件问题，围绕着小文件治理做工具和监控完善。

② 数据湖增量计算、大宽表部分列更新做探索

听众收益：

· 数据湖在可以解决传统数仓中哪些问题

· 在搭建数据湖链路中遇到问题和解决方法。包含同步工具、小文件自动治理、同步数据质量校验上的问题和解决办法

落地挑战和方案重点：

· Amoro治理稳定性问题待优化。大表治理频次异常可能阻塞其它表治理，需要保障方式

· 目前Flink不支持读取Iceberg v2表，如何使用Iceberg替换kafka，做到分钟级链路

陈政羽货拉拉高级大数据开发工程师

个人介绍：陈政羽（ConradJam），Apache Amoro PPMC，Apache Flink 社区贡献者，从事游戏大数据、数据平台开发工作，常年活跃在各大开源社区，目前在货拉拉负责湖仓一体、流计算平台等相关工作。

演讲题目：Amoro 数据入湖新体验

演讲介绍：本次首先介绍了数据湖在货拉拉一些应用的场景，同时基于落湖中遇到的挑战，我们引入了 Amoro 作为湖仓一体管理平台，如何解决我们入湖时遇到的痛点，包括小文件管理，湖仓元数据管理，自动 Snapshot 管理等，以及未来我们希望后续 Flink CDC 如何基于 Amoro 做一些工作。

演讲提纲：

· 货拉拉数据湖场景

· 实时数据和 CDC 数据入湖场景挑战

· 基于 Amoro 打造的湖仓一体新平台

· 未来规划

落地挑战和方案重点：

· 基于 Amoro 优化 Iceberg v2表，减少文件碎片，提升 OLAP 引擎查询能力

· 基于Amoro 形成一套完整的湖仓体系架构

张永翔抖音集团数据湖存储专家

个人介绍：Amoro 社区 PPMC 成员。先后在网易和抖音集团负责数据湖相关工作，专注于 Apache Iceberg 和 Hudi 的服务化实施与优化。

演讲题目：抖音数据湖表的优化与管理

演讲介绍：本次演讲将深入解析抖音数据湖的构建原理，探讨数据湖表面临的主要问题与挑战，并详细介绍高效的表管理服务。演讲还将阐释抖音如何将 Amoro 平台整合进数据湖架构，并展望对 Amoro 社区的未来发展和贡献。

演讲提纲：

1. 抖音数据湖的实现原理

2. 数据湖表的问题与挑战

3. 表管理服务介绍

4. 和 Amoro 的结合以及社区贡献

听众收益：

1. 了解到抖音在数据湖领域的实践经验

2. 了解到抖音在 Amoro 社区未来的投入与规划

落地挑战和方案重点：

1. 万级别数据湖表的管理

2. 服务稳定性和扩展能力

胡源峰虎牙大数据平台开发工程师

个人介绍：虎牙大数据平台工程师，Apache Amoro(incubators) PPMC，Flink、Iceberg、Paimon Contributor。负责虎牙实时计算平台和数据湖建设，专注于 Flink 和数据湖(Table-format)相关技术，为内部提供 Flink 引擎以及平台支撑。

演讲题目：虎牙基于 Iceberg+Paimon 的实时湖仓实践

演讲介绍：虎牙长期是使用 Hive 来作为数仓的底座，但是 Hive 这一套已经无法满足在分钟级别延时的场景下的分析需求，所以引入了 Iceberg、Paimon 这种 table-format 来满足这些需求，在实践过程中，我们遇到了一系列的问题，比如写入吞吐不够、写入任务资源占用率高、小文件过多等问题，我们自己开发了动态分区 shuffle、引入 Autoscaler、Amoro 等技术解决这一系列问题，其中写入吞吐相比社区版本在某些场景下有近10倍提升，而 autoscaler 降低了40%+资源同时解决了因为流量激增带来的任务延迟。

演讲提纲：

抖音数据湖表的优化与管理

正文

请到「今天看啥」查看全文