本次专题将带来Apache社区建设和发展的最新资讯和前沿实践,包括多个Apache项目如Apache Hive, Apache Hudi, Apache Iceberg等的最新情况。
包括多场演讲议题,如使用Apache Gluten和Velox引擎加速Apache Kyuubi的查询、Apache Paimon用于流处理、批处理和联机分析处理的统一数据湖等。
包括尤夕多、李劲松、白旭、Daniel Becker等演讲嘉宾的详细介绍和他们在大数据领域的贡献。
包括Apache Iceberg社区引入Apache Iceberg REST目录的原因以及REST目录的最新进展、使用Apache Iceberg实施Lakehouse架构的最佳实践等。
本次 CommunityOverCode Asia 2024 的 Data Lake & Data Warehouse 专题,将给大家带来 Apache 社区建设和发展的最新资讯和前沿实践,现在就一起来看看吧!
CommunityOverCode Asia 2024
数据湖和数据仓库是存储和管理数据的重要解决方案,它们在数据管理、数据分析和决策中发挥着关键作用。在 ASF,有不少是与数据湖和数据仓库有关的项目,例如:Apache Hive, Apache Hudi, Apache Iceberg, Apache Paimon, Apache Cassandra, Apache HBase 等。在这个主题中,你将得到数据湖和仓库的最新情况,公司在生产中使用它们的最佳做法,以及这些项目的路线图。
CommunityOverCode Asia 2024
CommunityOverCode Asia 2024
白鲸开源联合创始人、Apache 软件基金会成员 & Apache 孵化器导师、Apache DolphinScheduler PMC Chair & Apache SeaTunnel PMC、Apache Local Community Beijing 成员,中国开源先锋,入选中国科协 “2023 开源创新榜” 优秀人物。持续多年的开源贡献者及不遗余力的在推广 Apache 开源文化,推广 Apache 成功之道,致力于让开源文化更好的在开发者群体传播。
史少锋
CommunityOverCode Asia 2024
Datastarto VP of engineering;Apache 软件基金会成员,Apache Incubator PMC,Apache Kylin PMC chair,Apache Gluten & Apache Horaedb mentor 等;专注于大数据分析和云计算技术。曾任 Kyligence 首席架构师,eBay 全球分析基础架构部大数据高级工程师,IBM 云计算部门软件架构师。
CommunityOverCode Asia 2024
7 月 26 日 14:00 - 17:15
演讲议题:
在网易公司使用 Apache Gluten 和 Velox 引擎加速 Apache Kyuubi 的查询
分享时间:
7 月 26 日
14:00 - 14:30
本次会议将探讨在 SQL 查询性能方面,通过协同使用纯 SQL 网关 Kyuubi 和矢量化执行引擎 Gluten 来提升性能。Kyuubi 通过 Thrift JDBC/ODBC 接口或 RESTful API 简化了终端用户的大规模数据操作,降低了使用 Lakehouse 的障碍。其多租户架构确保了服务器端的资源隔离/共享和数据安全性。本次会议重点介绍了网易在 Kyuubi 上与 Gluten 和 Velox 作为后端引擎的实现,旨在解决性能瓶颈,并分享真实案例的结果。
尤夕多
丨网易数帆技术专家
网易数帆 Spark 团队成员,专注在大数据领域工作,同时也是 Apache Kyuubi PMC Member / Apache Spark Committer / Apache Gluten PPMC Member。
演讲议题:
Apache Paimon:用于流处理、批处理和联机分析处理的统一数据湖
分享时间:
7 月 26 日 14:30 - 15:00
Apache Paimon 是一种数据湖格式,可以通过 Flink 和 Spark 构建实时 Lakehouse 架构,同时支持流处理和批处理操作。它于去年进入孵化器,并于今年正式毕业成为 TLP。从 Flink 内置存储发展为通用的存储格式。本次会议介绍以下内容:
1、Paimon 从实时更新开始,解决了 CDC 数据进入数据湖的核心问题。
2、Paimon 解决了大量的可用性问题,可以使用 Spark 构建离线数据仓库。
3、Paimon 提供了删除向量、Z-order 和索引等技术,以提供高性能的 OLAP 查询。
李劲松丨PMC Chair of Apache Paimon, PMC Member of Apache Flink
Apache Flink 和 Apache Beam 的贡献者,阿里巴巴高级工程师。
自 2014 年以来,他一直专注于阿里巴巴内部流式计算的研究和开发工作。
自 2017 年以来,他专注于阿里巴巴 Blink 的开发,并积极为 Apache Flink 社区做出贡献。
最近,他主要关注在数据仓库架构中使用 Apache Flink 实现流处理和批处理的统一。
演讲议题:
使用 Apache Amoro 高效管理和优化 Apache Iceberg
分享时间:
7 月 26 日 15:00 - 15:30
Apache Iceberg 作为一种开放的数据湖表格式,提供了一个高度开放和高效的统一存储解决方案。在生产环境中,管理和优化 Iceberg 的文件和元数据是实现更好性能和减少开销的关键。作为一个数据湖管理系统,Amoro 可以压缩 Iceberg 的小文件,并实时删除文件,提升实际查询性能。此外,它还协助 Iceberg 自动执行维护过程,如过期快照的清理、清理孤立数据和删除过期数据,极大减少了手动维护工作的工作量。
白旭丨Cisco Webex, Software Engineer
来自思科 Webex 数据平台团队,从事数据湖的相关开发、优化和管理工作。同时也是 Apache Amoro Committer 和 PPMC 成员。
演讲议题:
Impala 发现 Iceberg 元数据表
分享时间:
7 月 26 日 15:45 - 16:15
存储大量元数据是 Apache Iceberg 表格式的主要功能之一,可帮助查询引擎高效地规划和执行查询。由于 Iceberg 提供了查询这些元数据的应用程序接口(API),因此可在查询引擎中将其显示为一组虚拟表,并可使用 SQL 进行查询,包括过滤、聚合以及与其他元数据或常规表的连接。这一功能为数据库管理员提供了宝贵的表维护工具。
在过去一年中,我们一直致力于在 Apache Impala(一个高性能、分布式、大规模并行查询引擎)中提供 Iceberg 元数据表。Impala 中的查询执行是用 C++ 实现的,这带来了一些挑战,因为 Iceberg API 是基于 Java 的。
此外,Iceberg 返回数据的格式(作为 Java 对象,通过 JNI 访问)也与 Impala 通常从磁盘文件接收输入数据的格式不同,即使是相同的 SQL 数据类型也是如此。这种差异在复杂类型(结构体、数组和映射)的情况下尤为明显,因此有必要采取额外的步骤来整合它们。
本讲座将引导您了解与 Iceberg 元数据表相关的所有 Impala 新特性,并介绍我们是如何克服实施过程中出现的障碍的。
Daniel Becker丨Software Engineer, Cloudera
Daniel Becker 于 2019 年在 Cloudera 开始研究 Apache Impala。他对 Impala 的贡献涉及多个主题,包括 LLVM 代码生成、复杂类型、Parquet 和 Iceberg。他是 Apache Impala PMC 成员,拥有 Pázmány Péter Catholic University 学位。
演讲议题:
字节跳动 SparkSQL 降本增效实践
分享时间:
7 月 26 日 16:15 - 16:45
通过对线上任务的分析,我们发现三大导致 Spark 应用程序性能下降的因素:Shuffle 大量数据、扫描众多小文件以及低效的推测执行。
在本次分享中,我们将介绍字节跳动解决前述问题、降低计算成本的最佳实践。
首先,本次分享将介绍我们为了消除 Shuffle 对现有 Bucket 优化所做的增强、以及优化场景挖掘的方法;此外,还将介绍用 ZSTD 替代 LZ4 减少 Shuffle 数据的方法及效果。其次,本次分享将介绍一种基于 Shuffle 的小文件合并功能,它以较低的成本避免产出小文件,并且能够支持写动态分区的场景。最后,本次分享将介绍我们提高 Spark 推测执行效率的方法,以及最终效果 —— 无效推测执行任务的数量减少 15%、计算资源消耗减少 9%。
甘红楠丨 ByteDance Senior R&D Engineer, 字节跳动高级研发工程师
-
复旦大学学士学位和硕士工程学位
-
字节跳动的 SparkSQL 内核开发人员
-
对 SQL 优化感兴趣
演讲议题:
在快手公司基于 Apache Hudi 构建 Lakehouse 的实践
分享时间:
7 月 26 日 16:45 - 17:15
Apache Hudi 通过强大的增量处理框架,重新构思了传统的缓慢老式批处理数据处理方式,实现了低延迟分钟级分析。
在本次分享中,我们首先介绍传统数据仓库所面临的问题。然后,我们将描述如何基于 Apache Hudi 来解决这些问题。最后,我们将通过几个快手的用户案例,介绍在使用 Apache Hudi 替代传统的数据处理流程后所带来的好处。
Jing Zhang丨Kuaishou Inc, Technical expert
快手的软件工程师。她是 Apache Flink、Apache Calcite 和 Apache Hudi 的提交者。她目前从事流处理和 Lakehouse 方面的工作。
7 月 27 日 14:00 - 17:15
演讲议题:
基于 Apache Paimon 的中国联通流式 Lakehouse 的应用实践
分享时间:
7 月 27 日 14:00 - 14:30
本专题计划介绍中国联通基于 Apache Paimon 构建流式数据仓库的实践经验,主要包括中国联通的两个核心业务项目:实时用户标签和自然人。内容包括业务背景、流批量集成数据仓库架构、实践中遇到的问题及相应的解决方案、使用 Apache Paimon 解决问题所取得的收益以及未来的计划。
王云朋丨Apache Paimon Contributor; currently a big data technology expert in the Data Intelligence Division of China Unicom Digital Technology Co., Ltd., responsible for trillion-level Flink real-time comput
Apache Paimon 贡献者;现任中国联通数字科技有限公司数据智能事业部大数据技术专家,负责万亿级 Flink 实时计算开发、运维及平台建设,并负责流式 Lakehouse 的实施。
Zhenhao Li丨Expert software development engineer at Data Intelligence Division of China Unicom Digital Technology Co., Ltd., Responsible for trillion-level real-time computing platform development.
中国联通数字技术有限公司数据智能部门的专业软件开发工程师,负责万亿级实时计算平台的开发工作。专注于流式 Lakehouse 的构建和基础架构编排。
演讲议题:
Gravitino Apache Iceberg REST 目录服务:动机与更多可能性
分享时间:
7 月 27 日 14:30 - 15:00
本次会议将介绍 Apache Iceberg 社区引入 Apache Iceberg REST 目录的原因以及 REST 目录的最新进展。还将讨论 Apache Gravitino(incubating) 为何集成 Apache Iceberg REST 目录服务以及其未来发展。
房孝敬丨datastrato, software engineer
在大数据领域有十年的经验,在阿里巴巴、腾讯和快手工作过,主要涉及分布式计算和调度系统。
演讲议题:
满怀信心地航行于 Lakehouse:使用 Apache Iceberg 实施的最佳实践
分享时间:
7 月 27 日 15:00 - 15:30
数据湖和数据仓库融合成一个统一的架构,即所谓的 Lakehouse 范式,在数据工程界已获得极大的关注。Apache Iceberg 已成为实施 Lakehouse 架构的基石技术,为高效管理大规模事务数据湖提供了强大的功能。
在本次会议中,我们将探讨使用 Apache Iceberg 实施 Lakehouse 架构的最佳实践。通过真实案例和实用见解,与会者将学习如何设计、部署和优化一个利用 Iceberg 的 Lakehouse 解决方案,以实现数据管理、可靠性和性能的优势。
Bill Zhang丨Cloudera, Product Manager, Data Warehouse, Iceberg Integration
Bill 是 Cloudera 产品管理高级总监,负责开放数据 Lakehouse 产品战略和 Apache Iceberg 与所有 Cloudera 数据平台(CDP)形式因素的集成。Bill 还负责 Apache Hive 产品路线图的制定和采用。最近,Bill 负责 SAP HANA 数据平台和 SAP HANA Cloud 的解决方案管理。在此之前,他负责 Sybase Replication Server 的产品管理。
演讲议题:
数据湖在小米的 Data 和 AI 场景的实践
分享时间:
7 月 27 日 15:45 - 16:15
这次分享主要介绍了小米在数据和人工智能场景下的数据湖实践。在 BI 场景中,我们将介绍使用 Apache Iceberg 的业务实践和智能优化策略。在 AI 场景中,我们将介绍非结构化数据的管理。此外,我们还将介绍使用 Gravitino 在数据和人工智能场景下实现元数据统一化的解决方案。
1. 小米中的 Apache Iceberg 实践