专栏名称: SegmentFault思否
SegmentFault (www.sf.gg)开发者社区,是中国年轻开发者喜爱的极客社区,我们为开发者提供最纯粹的技术交流和分享平台。
目录
相关文章推荐
程序员小灰  ·  这款AI编程工具,将会取代Cursor! ·  昨天  
OSC开源社区  ·  DeepSeek-V3满血版在国产沐曦GPU ... ·  3 天前  
OSC开源社区  ·  国内AI适配再下一城:天数智芯加入,Deep ... ·  4 天前  
程序员的那些事  ·  趣图:初五迎财神,初六送穷鬼 ·  4 天前  
程序员小灰  ·  如何用DeepSeek来变现?90%的人都不知道 ·  4 天前  
51好读  ›  专栏  ›  SegmentFault思否

CommunityOverCode Asia 2024 专题介绍之 DataOps

SegmentFault思否  · 公众号  · 程序员  · 2024-07-09 17:00

正文

本次 CommunityOverCode Asia 2024 的 DataOps 专题,将给大家带来 Apache 社区建设和发展的最新资讯和前沿实践,现在就一起来看看吧!

专题介绍

CommunityOverCode Asia 2024

在 ApacheCon 的 DataOps 专题,该专题集中展示了 Apache 生态系统中一些最具创新性和尖端的项目。该专题汇聚了来自 Apache DolphinScheduler、Apache Airflow、Apache SeaTunnel、Apache Flume、Apache Sqoop、Apache Griffin、Apache Atlas 以及其他与 DataOps 相关的项目的领先专家和贡献者,探索数据操作、自动化和编排的最新进展。无论您是经验丰富的数据专业人员还是刚刚入门的新手,这个专题都为每个人提供了有价值的内容,包括数据管道、ETL、编排、数据质量、元数据等多个主题的会话。在 ApacheCon 上,加入我们一起深入探索 DataOps 领域的精彩世界。


出品人

CommunityOverCode Asia 2024

郭炜

CommunityOverCode Asia 2024

白鲸开源 CEO, Apache 软件基金会成员。 郭炜先生毕业于北京大学,现任中国通信学会开源技术委员会委员,TGO 鲲鹏会北京分会会长,Apache SeaTunnel PMC,Apache DolphinScheduler PMC,波兰 DataOps 峰会、北美 ApacheCon 演讲嘉宾,北美 Big Data Day 演讲嘉宾,虎啸十年杰出数字技术人物,中国开源社区最佳 33 人,中国 2021 年开源杰出人物。


聂励峰

CommunityOverCode Asia 2024

白鲸开源 COO,Apache SeaTunnel PMC & Apache DolphinScheduler Committer,2023 中国开源先锋 33 人之心尖上的开源人物,ClickHouse 中国社区志愿者组长。


议程亮点

CommunityOverCode Asia 2024

7 月 26 日 14:00 - 16:45


演讲议题: 持续优化: 两年内 Cisco Webex 基于 Apache DolphinScheduler 的改进和创新
分享时间: 7 月 26 日 14:00 - 14:30
议题介绍:

在过去的两年里,Cisco Webex 团队基于 Apache DolphinScheduler 持续优化我们的大数据处理平台。本次分享将介绍这些自适应的改进和创新,同时也会分享一些业务挑战和解决方案。

演讲嘉宾:

Qingwang Li丨Cisco Webex, Software Engineer

思科 Webex,软件工程师,Apache DolphinScheduler Committer



演讲议题: Apache SeaTunnel 基于批处理和流集成实现了高效的数据同步
分享时间: 7 月 26 日 14:30 - 15:00

议题介绍:

Apache SeaTunnel 是如何基于 Flink 构建一个高效的数据集成工具的?


演讲嘉宾:

Chao Tian丨Apache SeaTunnel PMC Member

开源爱好者,曾为一些数据集成项目如 DataX、Flink CDC、Debezium、Chunjun 等做出贡献,是 Apache SeaTunnel 的项目管理委员会(PMC)成员。



演讲议题: 在小米数据集成中进行全链路数据监控实践
分享时间: 7 月 26 日 15:00 - 15:30

议题介绍:

这篇演讲介绍了小米在数据集成实践中构建的可视化全链路数据监测系统。


本次分享的重点是小米数据集成全链路数据监测技术的实现。从数据集成链路系统出发,针对数据集成实践中遇到的可靠性挑战,从可视化全链路数据监测建设方案的角度,分享并解释了提案和实施等方面。以数据集成可靠性和全链路监测两个主题为重点,演讲解释了构建可观察的数据集成全链路监测系统对提高数据集成可靠性和用户体验的益处。


第一部分:小米数据集成的发展

在小米的日常运营中,数据集成扮演着至关重要的角色。它是连接各个业务模块的桥梁,实现数据的共享和流通。通过数据集成,我们可以高效地整合来自不同来源和格式的数据,为后续的数据分析和业务决策提供强有力的支持。本章将介绍小米数据集成的发展历史、支持的数据链路、业务范围以及作业量级。


第二部分:数据集成面临的可靠性挑战

对于普通用户来说,数据集成往往是一个黑盒过程。他们不了解数据如何从一个系统转移到另一个系统,或者在转移过程中可能遇到的问题。这种不透明性增加了用户对数据可靠性的担忧。本章将介绍用户对数据集成可靠性的疑虑以及小米在数据集成过程中遇到的数据一致性挑战。


第三部分:全链路数据监控的构建与实践本章从同步链接的可靠性出发,介绍了全链路数据监控系统的构建,包括大规模数据统计、操作的实时流量监控、基于滚动窗口的全链路数据计数统计以及端到端数据比对。通过这些能力的建设努力,展示了小米在数据集成可靠性方面的工作成果。


第四部分:未来展望和改进方向在未来,将扩大实时监控链路的范围,提升流量控制能力以提高链路的稳定性,并支持离线场景下的数据验证。


在数据集成领域,构建可观测的监控链路系统、增强数据集成的稳定性、提高用户体验方面具有参考意义。


演讲嘉宾:

Jianqiang Sun丨Xiaomi

小米软件研发工程师,主要负责与数据集成相关的工作。




演讲议题: SeaTunnel 技术架构的演变及其在 AI 中的应用
分享时间: 7 月 26 日 15:45 - 16:15

议题介绍:

通过分享 SeaTunnel 项目技术架构的演进,我们将了解如何从零开始构建一个数据集成工具,需要考虑哪些核心要求,以及如何最好地实现这些要求。


同时,我们还将向大家介绍 SeaTunnel 在 AI 领域的应用。


演讲嘉宾:

Jun Gao丨ASF Member, Apache SeaTunnel PMC Chair, Apache DolphinScheduler PMC Member

ASF 成员,Apache SeaTunnel 项目管理委员会(PMC)主席,Apache DolphinScheduler 项目管理委员会(PMC)成员。




演讲议题: 联通数字科技基于 Apache DolphinScheduler 构建的集成数据资产平台
分享时间: 7 月 26 日 16:15 - 16:45

议题介绍:

1、基于 Apache DolphinScheduler,整个数据处理链路被串联起来,从数据采集到数据应用的全流程运营管理。

2、匹配代码数据研发平台,将数据探索和数据研发转变为低成本、高效率的方向。

3、针对标准、商业智能(BI)和数据开发提供的智能实用解决方案。


演讲嘉宾:

Liu Wu丨Senior big data development engineer

在大数据领域有数年的系统管理与平台开发方面的经验,涉及的技术栈包含了大数据生态系统、实时计算和存储、数据仓库、数据湖,并积极参与相关社区代码贡献, 如调度工具 DolphinScheduler、数据湖 Paimon、Dinky 等。




7 月 27 日 14:00 - 16:45


演讲议题: 在阿里云中使用 Apache DolphinScheduler 进行大数据调度的探索与实践
分享时间: 7 月 27 日 14:00 - 14:30
议题介绍:

Apache Dolphinscheduler 是一个分布式且易于扩展的工作流调度平台,它可以帮助用户实现高效可靠的工作流调度和管理。阿里云 EMR Workflow 是一个基于 Apache Dolphinscheduler 构建的云原生无服务器大数据开发和调度平台。本次演讲将从易用性、可扩展性和稳定性等角度,分享基于 Apache Dolphinscheduler 的 EMR Workflow 的探索与实践。

演讲嘉宾:

Xin Cheng丨SDE with Alibaba Cloud, Apache Dolphinscheduler Committer

2019 年获得北京邮电大学的学士学位,并于 2022 年获得清华大学的硕士学位。目前是阿里云的软件开发工程师,同时也是 Apache Dolphinscheduler 的贡献者。



演讲议题: 为什么我们需要构建一个统一的元数据层 —— Gravitino

分享时间: 7 月 27 日 14:30 - 15:00


议题介绍:

如今,越来越多的数据以不同形式存储在不同的云和系统中,这给企业的数据治理、安全控制和数据合规性带来了挑战。AI 需求的激增也对数据治理提出了更多要求。统一的元数据管理平台 Gravitino(计划捐赠给 Apache 孵化器)可以帮助企业清晰地掌控其数据 + AI 资产,实现多云和多引擎支持、数据权限的统一管理、敏感数据识别、脱敏规则设置等;本主题将围绕以元数据为核心的数据合规性和数据治理,并结合具体案例进行讨论。


演讲嘉宾:

Shaofeng Shi丨Datastrato, VP of engineering;

史少锋,Apache 成员,Apache 孵化器项目管理委员会(PMC)成员,Apache Kylin 项目管理委员会(PMC)成员,Apache Gluten 和 Apache Horaedb 的导师等;Datastarto 工程副总裁,Gravitino 贡献者。




演讲议题: 用 AI 革新工作流编排
分享时间: 7 月 27 日 15:00 - 15:30

议题介绍:

主题:讨论如何在 DolphinScheduler 中利用 AI 来增强工作流内部任务依赖性的管理,以确保更高效的数据工程和改进的数据质量。


主要内容:

1、Apache DolphinScheduler 简介

  • 详细介绍 Apache DolphinScheduler 作为一个分布式易扩展的可视化工作流调度系统,旨在让数据同步、数据处理、AI 算法等各种任务类型能开箱即用。

2、AI增强的工作流编排智能

  • 预测调度:通过利用 AI 预测任务执行时间,DolphinScheduler 可以更智能地调度任务,优化资源利用并最小化等待时间。

  • 异常检测和自动修复:利用 AI 的力量监控工作流执行状态,DolphinScheduler 可以自动检测异常并触发修复过程,从而提高系统的稳定性和可靠性。

3、案例研究和实际应用







请到「今天看啥」查看全文