大模型时代下，湖仓一体化架构选型与挑战

DataFunTalk · 公众号 · · 2024-06-11 13:00

正文

Lakehouse作为一种创新的开放架构，巧妙融合了数据湖与数据仓库的精华特质。通过整合数据湖的非结构化数据存储能力和数据仓库的数据处理和管理功能，实现了数据湖和数据仓库的无缝连接，使得数据和计算在湖和仓之间自由流动，从而更好地发挥出数据湖的灵活性和数据仓库的成长性。

随着技术的不断发展和成熟，Lakehouse正逐渐从概念验证阶段过渡到实际应用阶段，越来越多的企业开始采用Lakehouse作为其数据存储和管理的解决方案。阿里巴巴集团多年前便借助Apache Hudi等开源技术打造了自研Lakehouse平台，实现了数据湖和数据仓库的无缝对接。目前，这一架构已应用于阿里巴巴内部的电商、物流、金融等多个领域，有效提升了数据处理效率，并深化了业务洞察力。

在大模型时代，企业将如何进行湖仓一体化架构选型？下一代Lakehouse架构方向又在哪里？未来面临着怎么样的挑战？让我们在 6 月 15 日举办的以「大模型时代的 OLAP 技术演进」为主题的第 58 届 DataFunSummit：OLAP 线上峰会中，「Lakehouse 湖仓一体化架构」论坛上看头部企业如何做！精彩内容，扫码报名，免费参会。

扫码报名，免费参会

探访大厂，Lakehouse 湖仓一体化架构风向标

本次Lakehouse湖仓一体化架构论坛的出品人程力老师，来自腾讯云。身为腾讯云数据湖存储的负责人，他对数据湖仓存储架构有着深入的理解与丰富的实践经验。此外，程力老师还积极参与开源项目，担任Apache Hadoop Committer及Apache Ozone PMC的角色。

在本次论坛上，程力老师将运用他的经验与知识，精选出更具借鉴价值的精品内容，分享给广大听众。同时，论坛还邀请了阿里云、腾讯云、百度智能云等业界顶尖专家，他们将为我们详细解析新一代湖仓一体化架构的演进历程。

演讲标题： Apache Paimon：新一代实时湖仓极速 OLAP 体验

嘉宾：叶俊豪阿里云研发工程师 Apache Paimon Committer

个人介绍： Apache Paimon committer，3年流引擎开发经验，1年数据湖开发经验.

演讲摘要：本次演讲将深入探讨 Paimon Lakehouse 架构的实时入湖技术、Z-order/Hilbert 加速湖上分析、Paimon 自有索引框架及可拓展索引建设、Delection Vector 实现主键表极致分析性能以及全流程建设高性能 OLAP 实时数据湖案例。

演讲提纲：

1. 实时入湖：Paimon lakehouse 架构底层技术剖析

2. Clustering：Z-order / Hilbert 加速湖上分析

3. File Index：Paimon 自有索引框架及可拓展索引建设

4. Delection Vector ：主键表极致分析性能原理及实现

5. 全流程建设：建设高性能 OLAP 实时数据湖案例

听众收益：

1. 数据湖 OLAP 性能提升原理

2. 实时数据湖架构解析

3. 如何构建高性能 OLAP 实时数据湖

演讲标题：下一代湖仓加速存储 GooseFS 在实时 OLAP 搜索场景中的实践与优化

嘉宾：于飏腾讯云 COS 对象存储团队资深高级工程师

个人介绍：硕士毕业于西安电子科技大学，一直专注云端对象存储相关技术的研发工作，Hadoop-COS（CosN 文件系统）作者/ Flink-COS 作者以及 COS 多项内部系统作者，Hadoop/Alluxio Contributor，GooseFS 核心 Founder，内核架构与核心特性设计与开发者。

演讲摘要：腾讯云对象存储中心推出的 GooseFS 加速存储产品，从最初加速湖仓应用场景下的海量吞吐与数据本地化调度，已经扩展演进到了实时 OLAP 引擎场景。通过引入 Page 小粒度的数据缓存设计以及元数据缓存，显著降低了温冷数据的查询预热延迟。通过构建两级缓存架构与混合部署，让整个基于对象存储架构构建的查询性能与成本达到了较优的水平。

本次分享会着重介绍 GooseFS 在应对腾讯内部实时 OLAP 业务对于温冷数据的低延迟访问需求上所做的优化实践与效果突破。

演讲提纲：

1. GooseFS 加速存储的核心架构

2. GooseFS 在腾讯内部实时 OLAP 搜索场景上的应用落地

3. GooseFS 在低延迟查询搜索请求上的架构演进与性能优化

4. 总结

听众收益：

1. OLAP 系统如何基于云端对象存储构建分级缓存加速

2. 面向通用场景的大规模分布式缓存如何应对低延迟搜索查询请求

3. 分布式缓存系统如何在资源和成本上的实践经验

演讲标题：基于 Native 技术加速 Spark 计算引擎

演讲嘉宾：张志宏百度智能云大数据平台部资深工程师

个人介绍： 2007 年硕士毕业于中山大学数学与计算科学学院，2013 年加入百度。在百度期间一直从事大数据相关工作，参与了百度大数据平台建设、大数据私有化、公有云等相关项目，最近重点推进 Spark 性能优化相关工作。

大模型时代下，湖仓一体化架构选型与挑战

正文

探访大厂，Lakehouse 湖仓一体化架构风向标

请到「今天看啥」查看全文