专栏名称: GitHub好项目
GitHub上好项目分享;分享 GitHub 上知名的 Python、Java、Web、AI、数据分析等多个领域的优质学习资源、开源项目及开发者工具,为 GitHub 开发者提供优质编程资讯。
目录
相关文章推荐
普象工业设计小站  ·  秋冬呼吸感穿搭FitCheck ·  昨天  
普象工业设计小站  ·  超燃!德国艺术家用数字化技术,将中国京剧虚拟 ... ·  2 天前  
普象工业设计小站  ·  “去班味”一绝,这家“赛博华佗”用神器拯救无 ... ·  2 天前  
品牌星球BrandStar  ·  伊利春节营销出圈:抽象和玩梗是神来之笔吗?| ... ·  3 天前  
品牌星球BrandStar  ·  伊利春节营销出圈:抽象和玩梗是神来之笔吗?| ... ·  3 天前  
普象工业设计小站  ·  白菜价买大牌轻奢围巾! ·  3 天前  
51好读  ›  专栏  ›  GitHub好项目

一个易于使用、高性能和统一的分析数据库

GitHub好项目  · 公众号  ·  · 2024-02-26 14:22

正文

大家好,我是GitHub好项目君,每天分享GitHub上的好项目

今天介绍:Apache Doris

一个基于 MPP 架构的高性能实时分析数据库,以其易用性和高性能而闻名。 它适用于报表分析、 即席查询 、统一数据仓库和数据湖查询加速等场景。

镜像代码(中文):

http://www.gitpp.com/wddc/doris-cn

Apache Doris 是一个由百度开源的高性能、可扩展、用于在线分析处理(OLAP)的分布式数据仓库。它专为大数据量、高并发查询而设计,能够实现亚秒级的响应时间,适用于数据报表、多维分析等场景。

以下是一些 Apache Doris 的关键特性:

1. 高性能查询: Doris 使用了创新的列式存储引擎,能够实现对大数据量的快速聚合计算。

2. 易于扩展: 支持水平扩展,可以通过增加更多的服务器来提升系统的处理能力。

3. 高可用性: 支持数据的自动备份和恢复,可以在服务器故障时保持服务的连续性。

4. 实时数据更新: 支持流式数据加载,可以实现数据的实时更新和查询。

5. 丰富的数据类型支持: 支持多种数据类型,包括常用的数值、字符串类型,以及二进制、日期、时间等复杂类型。

6. 易用的 SQL 支持: 提供标准的 SQL 查询语言支持,使得用户可以轻松地进行数据分析和报表生成。

7. 多种部署模式: 支持单机、主从复制和分布式集群等多种部署方式,以适应不同的业务需求和场景。

Apache Doris 在国内外都有广泛的应用,受到了众多企业和开发者的好评。作为一个开源项目,Doris 的社区活跃,持续有新的特性和改进加入到系统中。

使用场景

如下图所示,经过各种数据整合和处理后,数据源通常存储在实时数据仓库Apache Doris和离线数据湖或数据仓库(在Apache Hive、Apache Iceberg或Apache Hudi中)中。

Apache Doris广泛应用于以下场景:

  • 报告分析

    • 实时仪表板

    • 为内部分析师和经理提供的报告

    • 高并发的面向用户或客户的报表分析:例如网站分析和广告报表,通常需要数千的QPS和毫秒级的快速响应时间。一个成功的用户案例是,中国电子商务巨头京东在广告报告中使用了 Doris,每天接收 100 亿行数据,处理超过 10,000 QPS,并提供 150 毫秒的 99% 查询延迟。

  • 即席查询。面向分析师的自助分析,具有不规则查询模式和高吞吐量要求。小米基于Doris构建了增长分析平台(Growth Analytics,GA),利用用户行为数据进行业务增长分析,平均查询延迟为10秒,95%查询延迟为30秒或更短,上万个每天的 SQL 查询数。

  • 统一数据仓库建设。Apache Doris 允许用户通过一个平台构建统一的数据仓库,省去处理复杂软件堆栈的麻烦。中国火锅连锁店海底捞与 Doris 建立了统一的数据仓库,以取代由 Apache Spark、Apache Hive、Apache Kudu、Apache HBase 和 Apache Phoenix 组成的旧的复杂架构。

  • 数据湖查询。Apache Doris通过外部表联合Apache Hive、Apache Iceberg和Apache Hudi中的数据,避免了数据复制,从而获得了出色的查询性能。

Apache Doris 因其高性能和易用性,适合多种类型的企业在海量数据环境下使用。

以下类型的企业可能会考虑采用 Apache Doris:

1. 大型互联网公司: 这些公司通常拥有大量的用户数据,需要进行实时的数据分析和报表生成,Doris 可以提供快速的数据查询能力,帮助互联网公司更好地理解用户行为和优化业务。

2. 金融机构: 金融机构处理大量的金融交易数据,需要进行复杂的数据分析以支持风险管理、投资决策等。Doris 的实时数据处理能力和高效的数据聚合功能可以满足这些需求。

3. 零售和电子商务企业: 这些企业需要对销售数据、客户行为等进行实时分析,以优化库存管理、个性化推荐等业务。Doris 可以提供快速的数据查询和分析能力。

4. 电信公司: 电信企业产生大量的用户使用数据,需要进行实时数据分析以优化网络服务、提高用户满意度等。Doris 的性能可以满足电信级的数据处理需求。

5. 大数据分析和报告服务提供商: 这些公司专门为客户提供大数据分析服务,Doris 可以作为他们数据仓库解决方案的一部分,提供高效的数据查询和分析能力。







请到「今天看啥」查看全文