专栏名称: SegmentFault思否
SegmentFault (www.sf.gg)开发者社区,是中国年轻开发者喜爱的极客社区,我们为开发者提供最纯粹的技术交流和分享平台。
目录
相关文章推荐
程序员小灰  ·  这款AI编程工具,将会取代Cursor! ·  昨天  
码农翻身  ·  为何 Linus ... ·  昨天  
OSC开源社区  ·  DeepSeek-V3满血版在国产沐曦GPU ... ·  3 天前  
OSC开源社区  ·  国内AI适配再下一城:天数智芯加入,Deep ... ·  4 天前  
程序员小灰  ·  如何用DeepSeek来变现?90%的人都不知道 ·  4 天前  
51好读  ›  专栏  ›  SegmentFault思否

CommunityOverCode Asia 2024 专题介绍之 Data Lake & Data Warehouse

SegmentFault思否  · 公众号  · 程序员  · 2024-07-10 17:00

主要观点总结

CommunityOverCode Asia 2024专题介绍和议程亮点

关键观点总结

关键观点1: CommunityOverCode Asia 2024的Data Lake & Data Warehouse专题介绍

本次专题将带来Apache社区建设和发展的最新资讯和前沿实践,包括多个Apache项目如Apache Hive, Apache Hudi, Apache Iceberg等的最新情况。

关键观点2: 出品人介绍

包括代立冬和白鲸开源联合创始人等人物及其在中国开源领域的贡献和影响。

关键观点3: 议程亮点

包括多场演讲议题,如使用Apache Gluten和Velox引擎加速Apache Kyuubi的查询、Apache Paimon用于流处理、批处理和联机分析处理的统一数据湖等。

关键观点4: 演讲嘉宾介绍

包括尤夕多、李劲松、白旭、Daniel Becker等演讲嘉宾的详细介绍和他们在大数据领域的贡献。

关键观点5: 数据湖实践案例分享

包括在快手、中国联通等公司的基于Apache Hudi和Paimon的数据湖应用实践。

关键观点6: 其他议题介绍

包括Apache Iceberg社区引入Apache Iceberg REST目录的原因以及REST目录的最新进展、使用Apache Iceberg实施Lakehouse架构的最佳实践等。


正文

本次 CommunityOverCode Asia 2024 的 Data Lake & Data Warehouse 专题,将给大家带来 Apache 社区建设和发展的最新资讯和前沿实践,现在就一起来看看吧!


专题介绍

CommunityOverCode Asia 2024

数据湖和数据仓库是存储和管理数据的重要解决方案,它们在数据管理、数据分析和决策中发挥着关键作用。在 ASF,有不少是与数据湖和数据仓库有关的项目,例如:Apache Hive, Apache Hudi, Apache Iceberg, Apache Paimon, Apache Cassandra, Apache HBase 等。在这个主题中,你将得到数据湖和仓库的最新情况,公司在生产中使用它们的最佳做法,以及这些项目的路线图。


出品人

CommunityOverCode Asia 2024

代立冬

CommunityOverCode Asia 2024

白鲸开源联合创始人、Apache 软件基金会成员 & Apache 孵化器导师、Apache DolphinScheduler PMC Chair & Apache SeaTunnel PMC、Apache Local Community Beijing 成员,中国开源先锋,入选中国科协 “2023 开源创新榜” 优秀人物。持续多年的开源贡献者及不遗余力的在推广 Apache 开源文化,推广 Apache 成功之道,致力于让开源文化更好的在开发者群体传播。


史少锋

CommunityOverCode Asia 2024

Datastarto VP of engineering;Apache 软件基金会成员,Apache Incubator PMC,Apache Kylin PMC chair,Apache Gluten & Apache Horaedb mentor 等;专注于大数据分析和云计算技术。曾任 Kyligence 首席架构师,eBay 全球分析基础架构部大数据高级工程师,IBM 云计算部门软件架构师。


议程亮点

CommunityOverCode Asia 2024

7 月 26 日 14:00 - 17:15


演讲议题: 在网易公司使用 Apache Gluten 和 Velox 引擎加速 Apache Kyuubi 的查询
分享时间: 7 月 26 日 14:00 - 14:30
议题介绍:

本次会议将探讨在 SQL 查询性能方面,通过协同使用纯 SQL 网关 Kyuubi 和矢量化执行引擎 Gluten 来提升性能。Kyuubi 通过 Thrift JDBC/ODBC 接口或 RESTful API 简化了终端用户的大规模数据操作,降低了使用 Lakehouse 的障碍。其多租户架构确保了服务器端的资源隔离/共享和数据安全性。本次会议重点介绍了网易在 Kyuubi 上与 Gluten 和 Velox 作为后端引擎的实现,旨在解决性能瓶颈,并分享真实案例的结果。


演讲嘉宾:

尤夕多 丨网易数帆技术专家

网易数帆 Spark 团队成员,专注在大数据领域工作,同时也是 Apache Kyuubi PMC Member / Apache Spark Committer / Apache Gluten PPMC Member。




演讲议题: Apache Paimon:用于流处理、批处理和联机分析处理的统一数据湖
分享时间: 7 月 26 日 14:30 - 15:00
议题介绍:

Apache Paimon 是一种数据湖格式,可以通过 Flink 和 Spark 构建实时 Lakehouse 架构,同时支持流处理和批处理操作。它于去年进入孵化器,并于今年正式毕业成为 TLP。从 Flink 内置存储发展为通用的存储格式。本次会议介绍以下内容:


1、Paimon 从实时更新开始,解决了 CDC 数据进入数据湖的核心问题。

2、Paimon 解决了大量的可用性问题,可以使用 Spark 构建离线数据仓库。

3、Paimon 提供了删除向量、Z-order 和索引等技术,以提供高性能的 OLAP 查询。


演讲嘉宾:

李劲松丨PMC Chair of Apache Paimon, PMC Member of Apache Flink

Apache Flink 和 Apache Beam 的贡献者,阿里巴巴高级工程师。 自 2014 年以来,他一直专注于阿里巴巴内部流式计算的研究和开发工作。 自 2017 年以来,他专注于阿里巴巴 Blink 的开发,并积极为 Apache Flink 社区做出贡献。 最近,他主要关注在数据仓库架构中使用 Apache Flink 实现流处理和批处理的统一。




演讲议题: 使用 Apache Amoro 高效管理和优化 Apache Iceberg
分享时间: 7 月 26 日 15:00 - 15:30

议题介绍:

Apache Iceberg 作为一种开放的数据湖表格式,提供了一个高度开放和高效的统一存储解决方案。在生产环境中,管理和优化 Iceberg 的文件和元数据是实现更好性能和减少开销的关键。作为一个数据湖管理系统,Amoro 可以压缩 Iceberg 的小文件,并实时删除文件,提升实际查询性能。此外,它还协助 Iceberg 自动执行维护过程,如过期快照的清理、清理孤立数据和删除过期数据,极大减少了手动维护工作的工作量。


演讲嘉宾:

白旭丨Cisco Webex, Software Engineer

来自思科 Webex 数据平台团队,从事数据湖的相关开发、优化和管理工作。同时也是 Apache Amoro Committer 和 PPMC 成员。




演讲议题: Impala 发现 Iceberg 元数据表
分享时间: 7 月 26 日 15:45 - 16:15

议题介绍:

存储大量元数据是 Apache Iceberg 表格式的主要功能之一,可帮助查询引擎高效地规划和执行查询。由于 Iceberg 提供了查询这些元数据的应用程序接口(API),因此可在查询引擎中将其显示为一组虚拟表,并可使用 SQL 进行查询,包括过滤、聚合以及与其他元数据或常规表的连接。这一功能为数据库管理员提供了宝贵的表维护工具。


在过去一年中,我们一直致力于在 Apache Impala(一个高性能、分布式、大规模并行查询引擎)中提供 Iceberg 元数据表。Impala 中的查询执行是用 C++ 实现的,这带来了一些挑战,因为 Iceberg API 是基于 Java 的。


此外,Iceberg 返回数据的格式(作为 Java 对象,通过 JNI 访问)也与 Impala 通常从磁盘文件接收输入数据的格式不同,即使是相同的 SQL 数据类型也是如此。这种差异在复杂类型(结构体、数组和映射)的情况下尤为明显,因此有必要采取额外的步骤来整合它们。


本讲座将引导您了解与 Iceberg 元数据表相关的所有 Impala 新特性,并介绍我们是如何克服实施过程中出现的障碍的。


演讲嘉宾:

Daniel Becker丨Software Engineer, Cloudera

Daniel Becker 于 2019 年在 Cloudera 开始研究 Apache Impala。他对 Impala 的贡献涉及多个主题,包括 LLVM 代码生成、复杂类型、Parquet 和 Iceberg。他是 Apache Impala PMC 成员,拥有 Pázmány Péter Catholic University 学位。




演讲议题: 字节跳动 SparkSQL 降本增效实践
分享时间: 7 月 26 日 16:15 - 16:45
议题介绍:

通过对线上任务的分析,我们发现三大导致 Spark 应用程序性能下降的因素:Shuffle 大量数据、扫描众多小文件以及低效的推测执行。


在本次分享中,我们将介绍字节跳动解决前述问题、降低计算成本的最佳实践。


首先,本次分享将介绍我们为了消除 Shuffle 对现有 Bucket 优化所做的增强、以及优化场景挖掘的方法;此外,还将介绍用 ZSTD 替代 LZ4 减少 Shuffle 数据的方法及效果。其次,本次分享将介绍一种基于 Shuffle 的小文件合并功能,它以较低的成本避免产出小文件,并且能够支持写动态分区的场景。最后,本次分享将介绍我们提高 Spark 推测执行效率的方法,以及最终效果 —— 无效推测执行任务的数量减少 15%、计算资源消耗减少 9%。


演讲嘉宾:

甘红楠丨 ByteDance Senior R&D Engineer, 字节跳动高级研发工程师

  • 复旦大学学士学位和硕士工程学位

  • 字节跳动的 SparkSQL 内核开发人员

  • 对 SQL 优化感兴趣




演讲议题: 在快手公司基于 Apache Hudi 构建 Lakehouse 的实践
分享时间: 7 月 26 日 16:45 - 17:15

议题介绍:

Apache Hudi 通过强大的增量处理框架,重新构思了传统的缓慢老式批处理数据处理方式,实现了低延迟分钟级分析。


在本次分享中,我们首先介绍传统数据仓库所面临的问题。然后,我们将描述如何基于 Apache Hudi 来解决这些问题。最后,我们将通过几个快手的用户案例,介绍在使用 Apache Hudi 替代传统的数据处理流程后所带来的好处。


演讲嘉宾:

Jing Zhang丨Kuaishou Inc, Technical expert

快手的软件工程师。她是 Apache Flink、Apache Calcite 和 Apache Hudi 的提交者。她目前从事流处理和 Lakehouse 方面的工作。




7 月 27 日 14:00 - 17:15


演讲议题: 基于 Apache Paimon 的中国联通流式 Lakehouse 的应用实践
分享时间: 7 月 27 日 14:00 - 14:30
议题介绍:

本专题计划介绍中国联通基于 Apache Paimon 构建流式数据仓库的实践经验,主要包括中国联通的两个核心业务项目:实时用户标签和自然人。内容包括业务背景、流批量集成数据仓库架构、实践中遇到的问题及相应的解决方案、使用 Apache Paimon 解决问题所取得的收益以及未来的计划。


演讲嘉宾:

王云朋丨Apache Paimon Contributor; currently a big data technology expert in the Data Intelligence Division of China Unicom Digital Technology Co., Ltd., responsible for trillion-level Flink real-time comput

Apache Paimon 贡献者;现任中国联通数字科技有限公司数据智能事业部大数据技术专家,负责万亿级 Flink 实时计算开发、运维及平台建设,并负责流式 Lakehouse 的实施。


Zhenhao Li丨Expert software development engineer at Data Intelligence Division of China Unicom Digital Technology Co., Ltd., Responsible for trillion-level real-time computing platform development.

中国联通数字技术有限公司数据智能部门的专业软件开发工程师,负责万亿级实时计算平台的开发工作。专注于流式 Lakehouse 的构建和基础架构编排。




演讲议题: Gravitino Apache Iceberg REST 目录服务:动机与更多可能性
分享时间: 7 月 27 日 14:30 - 15:00
议题介绍:

本次会议将介绍 Apache Iceberg 社区引入 Apache Iceberg REST 目录的原因以及 REST 目录的最新进展。还将讨论 Apache Gravitino(incubating) 为何集成 Apache Iceberg REST 目录服务以及其未来发展。

演讲嘉宾:

房孝敬丨datastrato, software engineer

在大数据领域有十年的经验,在阿里巴巴、腾讯和快手工作过,主要涉及分布式计算和调度系统。



演讲议题: 满怀信心地航行于 Lakehouse:使用 Apache Iceberg 实施的最佳实践
分享时间: 7 月 27 日 15:00 - 15:30

议题介绍:

数据湖和数据仓库融合成一个统一的架构,即所谓的 Lakehouse 范式,在数据工程界已获得极大的关注。Apache Iceberg 已成为实施 Lakehouse 架构的基石技术,为高效管理大规模事务数据湖提供了强大的功能。


在本次会议中,我们将探讨使用 Apache Iceberg 实施 Lakehouse 架构的最佳实践。通过真实案例和实用见解,与会者将学习如何设计、部署和优化一个利用 Iceberg 的 Lakehouse 解决方案,以实现数据管理、可靠性和性能的优势。


演讲嘉宾:

Bill Zhang丨Cloudera, Product Manager, Data Warehouse, Iceberg Integration

Bill 是 Cloudera 产品管理高级总监,负责开放数据 Lakehouse 产品战略和 Apache Iceberg 与所有 Cloudera 数据平台(CDP)形式因素的集成。Bill 还负责 Apache Hive 产品路线图的制定和采用。最近,Bill 负责 SAP HANA 数据平台和 SAP HANA Cloud 的解决方案管理。在此之前,他负责 Sybase Replication Server 的产品管理。




演讲议题: 数据湖在小米的 Data 和 AI 场景的实践
分享时间: 7 月 27 日 15:45 - 16:15

议题介绍:

这次分享主要介绍了小米在数据和人工智能场景下的数据湖实践。在 BI 场景中,我们将介绍使用 Apache Iceberg 的业务实践和智能优化策略。在 AI 场景中,我们将介绍非结构化数据的管理。此外,我们还将介绍使用 Gravitino 在数据和人工智能场景下实现元数据统一化的解决方案。


1. 小米中的 Apache Iceberg 实践







请到「今天看啥」查看全文