大家好,我是GitHub好项目君,每天分享GitHub上的好项目
今天介绍:Apache Doris
一个基于 MPP 架构的高性能实时分析数据库,以其易用性和高性能而闻名。
它适用于报表分析、
即席查询
、统一数据仓库和数据湖查询加速等场景。
镜像代码(中文):
http://www.gitpp.com/wddc/doris-cn
Apache Doris 是一个由百度开源的高性能、可扩展、用于在线分析处理(OLAP)的分布式数据仓库。它专为大数据量、高并发查询而设计,能够实现亚秒级的响应时间,适用于数据报表、多维分析等场景。
以下是一些 Apache Doris 的关键特性:
1. 高性能查询:
Doris 使用了创新的列式存储引擎,能够实现对大数据量的快速聚合计算。
2. 易于扩展:
支持水平扩展,可以通过增加更多的服务器来提升系统的处理能力。
3. 高可用性:
支持数据的自动备份和恢复,可以在服务器故障时保持服务的连续性。
4. 实时数据更新:
支持流式数据加载,可以实现数据的实时更新和查询。
5. 丰富的数据类型支持:
支持多种数据类型,包括常用的数值、字符串类型,以及二进制、日期、时间等复杂类型。
6. 易用的 SQL 支持:
提供标准的 SQL 查询语言支持,使得用户可以轻松地进行数据分析和报表生成。
7. 多种部署模式:
支持单机、主从复制和分布式集群等多种部署方式,以适应不同的业务需求和场景。
Apache Doris 在国内外都有广泛的应用,受到了众多企业和开发者的好评。作为一个开源项目,Doris 的社区活跃,持续有新的特性和改进加入到系统中。
使用场景
如下图所示,经过各种数据整合和处理后,数据源通常存储在实时数据仓库Apache Doris和离线数据湖或数据仓库(在Apache Hive、Apache Iceberg或Apache Hudi中)中。
Apache Doris广泛应用于以下场景:
-
报告分析
-
即席查询。面向分析师的自助分析,具有不规则查询模式和高吞吐量要求。小米基于Doris构建了增长分析平台(Growth Analytics,GA),利用用户行为数据进行业务增长分析,平均查询延迟为10秒,95%查询延迟为30秒或更短,上万个每天的 SQL 查询数。
-
统一数据仓库建设。Apache Doris 允许用户通过一个平台构建统一的数据仓库,省去处理复杂软件堆栈的麻烦。中国火锅连锁店海底捞与 Doris 建立了统一的数据仓库,以取代由 Apache Spark、Apache Hive、Apache Kudu、Apache HBase 和 Apache Phoenix 组成的旧的复杂架构。
-
数据湖查询。Apache Doris通过外部表联合Apache Hive、Apache Iceberg和Apache Hudi中的数据,避免了数据复制,从而获得了出色的查询性能。
Apache Doris 因其高性能和易用性,适合多种类型的企业在海量数据环境下使用。
以下类型的企业可能会考虑采用 Apache Doris:
1. 大型互联网公司:
这些公司通常拥有大量的用户数据,需要进行实时的数据分析和报表生成,Doris 可以提供快速的数据查询能力,帮助互联网公司更好地理解用户行为和优化业务。
2. 金融机构:
金融机构处理大量的金融交易数据,需要进行复杂的数据分析以支持风险管理、投资决策等。Doris 的实时数据处理能力和高效的数据聚合功能可以满足这些需求。
3. 零售和电子商务企业:
这些企业需要对销售数据、客户行为等进行实时分析,以优化库存管理、个性化推荐等业务。Doris 可以提供快速的数据查询和分析能力。
4. 电信公司:
电信企业产生大量的用户使用数据,需要进行实时数据分析以优化网络服务、提高用户满意度等。Doris 的性能可以满足电信级的数据处理需求。
5. 大数据分析和报告服务提供商:
这些公司专门为客户提供大数据分析服务,Doris 可以作为他们数据仓库解决方案的一部分,提供高效的数据查询和分析能力。