专栏名称: DataFunTalk
专注于大数据、人工智能领域的知识分享平台。
目录
相关文章推荐
传媒招聘那些事儿  ·  【人工更新 · ... ·  4 天前  
墨香中华  ·  秋来秋去,一叶知秋 ·  5 天前  
古典文献学微刊  ·  新书丨《复旦大学古籍所成立四十周年纪念学术丛 ... ·  6 天前  
古典文献学微刊  ·  新书丨吴格主编《文献学基本丛书(第一辑)》出版 ·  6 天前  
51好读  ›  专栏  ›  DataFunTalk

Presto架构与优化技巧详解

DataFunTalk  · 公众号  ·  · 2024-04-07 13:00

正文

宝典作者:

梁晨、王北南、Hope Wang

数据驱动的时代,想要快速进行数据分析并做出明智的决策依赖于高性能的数据查询平台。


PrestoDB(简称Presto)作为一款流行的开源分布式SQL查询引擎,目前已成为跨数据源分析作业的首选工具。



虽然很多企业和机构目前已经部署使用Presto

但仍然面临着查询性能不稳定所带来的挑战

企业和机构如果想要最大程度地获取数据价值

充分释放Presto的潜能将至关重要

为此,我们推出《Presto优化宝典》进阶版👇


扫码免费下载




该宝典旨在帮助企业和机构加快查询速度

提升用户体验

更快地获取数据分析结果

提高资源利用率并节约成本


Uber

实践案例

Uber 的Presto 团队在三个生产集群中部署了 Alluxio SDK Cache(组件名:Alluxio Edge),一共包含 1500 个节点,每个节点都有NVMe 磁盘和1TB 的缓存空间,部署Alluxio后的效果:

查询时间波动减少,查询性能稳定;

HDFS 存储负载降低10%;

输入读取延迟降低约50%;

更快地获取即席查询结果。


沃尔玛

实践案例

沃尔玛的数据平台团队通过Alluxio分布式缓存实现混合云数据访问,最终实现:

查询延迟稳定并可避免网络传输的不确定性;

范围查询性能提升,吞吐量提升;

相同环境下的计算成本减半或计算能力加倍,成本降低。


本宝典介绍了一套全面的Presto优化方案,涵盖调优流程、查询规划、缓存、数据格式(Parquet、ORC)、表格格式(列式布局)、数据源(S3等)以及与Presto性能相关的数据平台架构。


【用户收益】

深入了解:

Presto如何在后台运行查询;

查询执行期间会发生什么以及可能影响查询性能的瓶颈;

如何优化Presto获得最佳查询性能;

将Presto查询效率最大化的调优步骤和七个最佳实践,包括配置设定、会话属性、SQL语句和实用建议;

Uber 在大规模 HDFS 上对Presto的优化;

沃尔玛在混合云环境下应用Presto的实践。


【目标人群】

数据平台工程师、大数据工程师、Presto管理员、开发人员、资深用户


扫码免费下载


👇点击阅读原文亦可下载