阿里云基于 Flink CDC 的现代数据栈云上实践

DataFunSummit · 公众号 · · 2025-02-09 18:00

正文

导读本次分享题目为阿里云基于 Flink CDC 的现代数据栈云上实践。

主要介绍：

1. 基于 Flink CDC 的现代数据栈

2. CDC YAML 核心功能

3. CDC YAML 典型应用场景

4. Demo & 未来展望

分享嘉宾｜阮航阿里云高级研发工程师

编辑整理｜张静瑜

内容校对｜李瑶

出品社区｜ DataFun

基于 Flink CDC 的现代数据栈

1. Flink CDC 简介

Flink CDC 是一款用于处理流批数据的分布式数据集成工具，通过 YAML 格式描述数据传递和转换过程以简化数据集成工作。

2. 现代数据栈概述

现代数据栈是一种技术组合，旨在对原始数据进行采集、转换和存储。与传统的 ETL 不同的是，现代数据栈直接将数据同步并存储到目标系统中，随后根据需要进行转换，避免了不必要的重复处理。这不仅提高了效率，还减少了数据冗余，尤其是在云环境中，能够充分利用弹性扩缩容的优势。

3. 阿里云基于 Flink CDC 的现代数据栈实践

阿里云在其现代数据栈实践中，不仅完全兼容 Flink CDC 社区版的所有功能，还在以下几个方面进行了扩展：

4. 实时计算 Flink 版集成 Flink CDC

实时计算 Flink 版集成 Flink CDC 提供数据摄入功能，用于处理数据同步场景，提供了以下功能支持：

支持 YAML 语言开发，预制常用模板：允许用户使用 YAML 格式快速配置和开发数据同步任务。且提供了多种常用模板，如 MySQL 到 Paimon 、MySQL 到 StarRocks 等，便于快速启动项目。
自动识别连接器依赖：自动处理 Flink 作业所需的上下游 Connector 依赖项，避免了用户在提交 Flink CDC 作业时需要自行管理这些依赖的问题，简化了作业部署流程。
丰富的监控指标：增加了额外的性能和状态监控指标，帮助用户更好地理解作业运行情况。

另外支持多条同步链路、作业全生命周期管理、支持 CDC YAML 作业版本管理。

CDC YAML 核心功能

1. 支持的同步链路

阿里云集成的 Flink CDC 支持多种同步链路，具体包括：

2. Transform 与 Route

3. 监控指标

（1）全量进度状态：

isSnapshoting：判断作业是否处于全量读取阶段。
isBinlogReading：判断作业是否处于增量读取阶段。
Num of Remaining Tables、Num of Snapshotted Tables ：全量阶段未处理和已处理表数量。
Num of Remainin g SnapshotSplits、Num of Processed SnapshotSplits ：全量阶段未处理和已处理分片数量。

（2）数据相关指标：

时间方面指标：

currentReadTimestampMs：最新读取到的数据时间戳，帮助了解数据同步延迟。

currentFetchEventTimeLag：常见 LAG 指标，衡量数据从源到目标的延迟。
数据量指标：

numRecordsln：读取过程中的总数据量。

numRecordslnPerTable：每个表读取到数据量。

numSnapshotRecords、numSnapshotRecordsPerTable：对全量阶段读取的数据进行统计，便于数据审计和验证数据完整性。

4. 其他功能

细粒度 Schema 变更策略：用户可以根据需求选择是否同步特定类型的变更操作（如 DELETE、DROP TABLE 等），避免不必要的数据操作影响下游系统。
支持同步更多变更类型：支持更多类型的变更，包括以前不被支持的操作（如 truncate table）
变更宽容模式支持
支持原始 Binlog 数据同步：支持将上游数据库的原始 Binlog Changelog 同步到下游系统，如 Kafka，以便于进一步处理。

5. YAML 与 SQL 比较

Schema 自动识别：

CDC YAML：用户无需手动定义 schema，系统通过数据中的消息或强 schema 自动查询并识别 schema。

SQL 作业：需要用户手动定义和管理 schema。
细颗粒度 Schema 变更：

CDC YAML：默认支持 schema 变更的自动同步，并提供细粒度的变更控制，允许用户灵活配置哪些变更操作应被同步。

SQL 作业：通常不支持实时 schema 变更同步，需要额外处理机制来捕获和应用这些变更。
原始 ChangeLog 格式支持：

CDC YAML：传递的数据格式包括 schema change event 和 data change event，能够原生支持原始 Changelog 的同步到下游。

SQL 作业：无法直接处理原始 Binlog Changelog。
CDC YAML 支持读写多表，SQL 仅支持读写单表