2024 年 5 月 21 日,由阿里云联合飞轮科技共同举办的「阿里云数据库 SelectDB 版商业化产品发布会」于线上召开。
阿里巴巴集团副总裁、阿里云数据库产品事业部负责人李飞飞宣布,阿里云数据库 SelectDB 版在中国站及国际站全面发布,正式开启商业化的全新篇章!
阿里云数据库 SelectDB 版是专为现代企业量身定制的实时数仓解决方案,植根于开源 Apache Doris 的坚实基础,却不止于此——深度融合云随需而用的特性,依托阿里云基础设施,构建起云原生存算分离的全新架构,面向企业海量数据的实时分析需求,提供极速实时、湖仓融合统一、简单易用的云上数仓服务。
早在 2023 年初,阿里云与飞轮科技开启战略合作,围绕实时数据仓库这一方向不断深耕,探索符合现代化实时数据仓库的新标准。在一年多的时间中,双方的战略合作不断加深:
-
2023 年 3 月在阿里云瑶池数据库峰会上,阿里云与飞轮科技正式达成战略合作协议,共同研发新一代实时数据仓库“阿里云数据库 SelectDB 版”,为用户提供在阿里云上的全托管服务。
-
2023 年 8 月,“阿里云数据库 SelectDB 版” 上线开启公测,用户可以在阿里云上便捷地使用 SelectDB 数仓服务。自公测以来,“阿里云数据库 SelectDB 版”的用户数量不断攀升,收到了来自金融、制造、互联网、物流、房地产等各个行业的企业用户的申请。
-
2023 年 11 月,“阿里云数据库 SelectDB 版”在云栖大会上正式首发,阿里云数据库产品事业部负责人李飞飞表示:“双方将发挥各自的技术优势和平台能力,在产品生态融合、联合解决方案等多个领域展开深度合作,推进技术合作的生态协同,构建合作共赢的生态体系。”
在历经近一年的邀测及公测阶段后,直至今日,阿里云 SelectDB 已赢得数百家企业的信赖与大规模应用实践。
发布会上,
阿里云数据库产品事业部负责人李飞飞
开场,正式宣布
SelectDB 已准备好迎接全球范围内客户在海量数据实时分析领域的挑战,与服务大型企业级市场的实力与决心!
随后,
飞轮科技首席执行官、Apache Doris 创始人马如悦
介绍了现代化实时数据仓库 SelectDB 的四大核心特性:
-
实时极速
:数据延迟和查询延迟是衡量实时分析的两个核心指标,SelectDB 以实时的数据导入和数据存储确保分析数据的新鲜性,以极速高并发的数据查询满足响应的及时性。
-
融合统一
:SelectDB 作为现代化统一的数据仓库,单一系统支持多种数据源、多种数据类型和多种数据分析场景。
All-In-One
的分析平台,更加易于使用和管理,让企业精力从管理复杂的数据基础设施转为关注上层的数据应用。
-
弹性架构
:SelectDB 极致的弹性架构依托三种分离:计算与计算分离,实现了更细粒度的计算资源的管理;不同热度的数据分层存储,在不损失存储性能的情况下实现存储成本的大幅下降;存储计算分离,让存储和计算实现真正的独立扩缩容。
-
开放生态
:SelectDB 基于 Apache Doris 构建,与 Apache Doris 100% 兼容;采用开放的 SQL 和广泛使用的 MySQL 协议,确保系统学习和对接下游应用成本极低;同时提供开放的数据读写 API,让大数据生态产品可以自由访问,防止数据被锁定在单一系统中、形成数据孤岛。
接着,
阿里云数据库产品专家艾乐强
对 SelectDB 的核心能力进行了解读。
-
高吞吐数据写入及实时更新
:支持主键表(Unique Key)进行高效的数据更新,并对 Upsert、条件更新/条件删除、部分列更新、分区覆盖等各类更新提供了完备的支持,不仅满足高效灵活的数据更新需求,还可以对海量可变的数据更新提供支持。
-
极致的查询性能
:采取更先进的 Cascades 框架,实现更智能化的自适应调优;采取 MPP 并行执行模型,引入了自适应的 Pipeline 执行模型,提升了SelectDB 对于 CPU 多机多核的资源利用率;实现了全面向量化,并对执行算子进行了优化;支持多种索引结构进行查询时数据剪枝优化。
-
基于Multi-Catalog 的湖仓一体能力
:自动同步数据目录的数据库和表,元数据自动刷新,并采用高效数据缓存和 Native Reader ,较 Presto/ Trion 性能提高 3-5 倍。
-
高性价比日志分析方案
:利用
倒排索引
快速精准定位匹配的数据,结合时序存储模型特点和 TopN 查询的动态剪枝算法,相较于传统方案能够实现 4.2 倍的写入性能提升和 2.3 倍的查询性能提升。
其次,
飞轮科技云原生研发负责人周飞
分享了 SelectDB 云原生存算分离系统架构背后的设计与思考,并介绍了最新版本能力。SelectDB 内核基于 Apache Doris 最新发布的 2.1 版本打造,引入了自适应的 Pipeline 并行执行框架、异步
物化视图
、基于 Arrow Flight 的高速读取接口、自增列、自动分区以及服务端攒批等一系列重磅特性,在 TPC-H 1TB 测试数据集上获得超过 100% 的性能提升,查询性能居于业界领先地位。
此外,雅迪和编程猫作为典型客户,分享了在阿里云数据库 SelectDB 企业版上的应用实践经验。
-
北极星平台
作为
雅迪
内部的核心数据分析系统,通过实时监控营销指标,帮助管理者即时洞察市场动态。在升级阿里云 SelectDB 后,面对海量数据高并发、多维度、多指标的查询需求,
查询耗时从原有的平均 7 秒缩短至 1 秒以内
,极大提升用户查询数据的效率和满意度,增强了决策支持的及时性。
在相同业务负载下,所需服务器资源降低至原先的 1/3-1/4,硬件成本也大幅降低。
-
编程猫
曾围绕 Hadoop 生态构建了大数据系统,并引入了 Hive、Spark、Presto、HBase、
ClickHouse
等多个大数据组件。在数据开发过程中,繁杂的技术栈带来了庞大的维护压力,不同组件 SQL 语法不统一、学习成本高,同时数据中间结果依赖 Hive 进行计算、数据分析时需要等待。基于以上需求,
编程猫选择基于 SelectDB 作为数据仓库底座进行升级
。在架构升级完成后,SelectDB 真正做到了集存储、计算、查询服务为一体,大大简化了系统架构,加快了开发速度,使得数据的持续部署、持续开发、持续集成变得更简单。
雅迪和编程猫的宝贵实践经验分享以及所收获的显著成效,无疑是对 SelectDB 强大功能与卓越价值的最佳注解。
最后,
飞轮科技技术副总裁肖康