专栏名称: DataFunTalk
专注于大数据、人工智能领域的知识分享平台。
目录
相关文章推荐
哎咆科技  ·  NVIDIA携手联发科杀回手机市场?没准真能成 ·  16 小时前  
哎咆科技  ·  干货:满血DeepSeek汇总,让你告别服务 ... ·  昨天  
EETOP  ·  任正非:缺芯少魂已减弱 ·  3 天前  
EETOP  ·  突破极限!1mm³ 存储 TB级! ·  4 天前  
51好读  ›  专栏  ›  DataFunTalk

加速 Spark,实现 TPCDS 2.3 倍的性能提升

DataFunTalk  · 公众号  ·  · 2024-06-03 13:00

正文

自 2013 年由 Berkeley AMPLab 捐献给 Apache 社区以来,Apache Spark 凭借其易用性、灵活性、高性能、可扩展性和开源精神,在开源大数据领域占据了领头羊的位置,持续引领着大数据处理技术的发展。

不过由于其以行式的数据组织形式运行在 JVM 中的特性,导致其性能有很大的提升空间。特别是在当前降本增效的大背景下,企业对性能优化的需求尤为迫切。

百度智能云 BMR 团队通过将 ClickHouse 替换 Spark 物理执行引擎的方式,实现了 Spark 数据处理计算任务全部跑在 C++ 上的效果,在保证 Spark 语义、调度框架不变的情况下,实现了 TPCDS 2.3 倍的性能提升。

该方案使得企业可以在降本增效的大背景下,充分发挥 Spark 的性能潜力,提高数据处理效率,降低成本。

为探寻这里面的技术细节,将于 6 月 15 日举办的 第 58 届 DataFunSummit:OLAP 线上峰会 邀请到百度智能云大数据平台部资深工程师张志宏,前来分享题为《基于 Native 技术加速 Spark 计算引擎》的精彩内容,扫码报名,免费参会。

扫码免费报名

张老师在大数据领域的经验十分丰富。他于 2007 年硕士毕业于中山大学数学与计算科学学院,2013 年加入百度,在百度期间一直从事大数据相关工作,参与了百度大数据平台建设、大数据私有化、公有云等相关项目,最近重点推进 Spark 性能优化相关工作。他将要分享的核心内容如下——







请到「今天看啥」查看全文