数字化转型浪潮中,数据已成为企业最宝贵的资产。然而,数据的海量增长对计算能力提出了前所未有的挑战。计算效率低下、成本高昂、使用门槛高,成为制约企业数据价值释放的三大痛点。作为全球领先的数据服务提供商,腾讯云凭借其强大的技术实力和丰富的行业经验,不断探索创新,致力于为客户提供更高效、更可靠的大数据解决方案。
6月28日,腾讯云举办“开箱吧,腾讯云”腾讯云大数据高性能计算引擎发布会,正式发布了其自研高性能计算引擎解决方案——Meson ,这一革命性引擎,预示着国内大数据高性能计算的新篇章,为数据湖、检索分析以及云数据仓库等场景提供极致性能提升,助力企业“降本增效”,解决行业痛点。
行业痛点:制约数据价值释放
大数据时代,数据无疑成为了企业决策和战略制定中不可或缺的重要资源。数据蕴藏着巨大的价值潜力,但企业在挖掘这些价值的过程中遭遇了重重困难,这些挑战在很大程度上制约了数据价值的充分释放。
1.计算效率低下:
大数据时代,数据量呈现出爆炸性的增长。每时每刻,无数的设备和交互都在产生海量的数据。这些数据的处理需求远远超出了传统计算引擎的能力范围,导致了严重的性能瓶颈。企业为了从数据中提取有用的洞察,往往需要进行复杂的数据分析任务,这些任务对计算能力有着极高的要求。然而,由于计算效率的低下,分析过程耗时漫长,结果生成缓慢,这使得企业难以快速响应市场变化,无法及时捕捉到那些转瞬即逝的市场机遇,从而在竞争中处于不利地位。
2.成本高昂:
大数据的处理不仅是一个技术问题,更是一个经济问题。处理大数据需要大量的计算资源,包括高性能的服务器、大容量的存储设备以及高速的网络等。这些硬件设备的成本高昂,对于许多企业来说,尤其是中小企业,构成了沉重的财务负担。除了硬件成本外,大数据的处理还涉及到软件许可、能源消耗以及人力资源等多方面的开支,这些都进一步推高了大数据技术的应用成本。对于许多预算有限的企业来说,高昂的成本成为了他们利用大数据技术发掘数据价值的一大障碍。
3.使用门槛高:
传统的计算引擎往往设计复杂,操作繁琐,不仅需要用户具备深厚的技术背景,还需要投入大量的时间和精力进行学习和实践。这种高昂的学习成本使得许多企业望而却步,尤其是那些缺乏专业技术团队的中小企业。即使是对于那些有能力组建技术团队的大型企业来说,也面临着人才培养的挑战。大数据技术领域的人才短缺,导致了人力成本的上升,这对于企业来说无疑是又一层的经济负担。高使用门槛不仅限制了大数据技术的普及,也在一定程度上制约了数据价值的广泛释放。
Meson高性能计算引擎:数据价值释放的加速器
腾讯云高性能计算引擎Meson ,作为自研高性能计算引擎解决方案,旨在解决大数据计算领域面临的性能瓶颈和效率问题。它融合了软件层面的向量化计算、硬件层面的GPU/FPGA加速以及AI层面的智能优化,形成了一套“软硬结合”的计算加速策略,为各种大数据工作负载提供极致性能提升,助力企业“降本增效”。
向量化计算:
高性能计算引擎 Meson 采用C++原生算子,实现SIMD指令集的向量化计算加速,将数据操作转化为并行处理,大幅提升计算效率,缩短分析结果生成时间,满足业务快速发展的需求。
GPU/FPGA硬件加速:
高性能计算引擎 Meson 与腾讯自研GPU技术紫霄相结合,充分利用GPU/FPGA的性能优势,实现更高效的向量生成和检索,显著提升计算速度,满足实时数据分析和洞察的需求。
AI4Data:
高性能计算引擎 Meson 利用AI技术进行负载智能预测、引擎运行时自动调优等,实现智能化升级,让系统越用越智能,用户越用越省心,进一步提升计算效率。
降低硬件成本:
高性能计算引擎 Meson 的应用,可以降低企业对计算资源的依赖,减少服务器、存储设备等硬件成本,帮助企业降低大数据技术的应用成本,提升投资回报率。例如,在高性能计算引擎 Meson 加持下,腾讯云ES为微信读书实现低成本的一站式向量检索方案,将存储成本从原来的纯内存400台64G机器下降到30台,并大幅降低了运维的成本。
提高资源利用率:
高性能计算引擎 Meson 通过优化算法和调度策略,提高资源利用率,降低资源浪费,进一步降低成本。TCHouse 优化器采用自顶向下的优化技术,相比于自底向上的方式可以更有效地进行剪枝,从而在有限的时间里获得更优的方案,最大程度地减少查询执行的成本。
弹性伸缩:
高性能计算引擎 Meson 支持弹性伸缩,可以根据业务需求动态调整计算资源,避免资源闲置,降低运营成本。TCHouse 采用存算分离架构,可以根据业务需求动态调整存储和计算资源,实现灵活的弹性伸缩。
高性能计算引擎 Meson 的应用,有效解决了以前困扰行业的突出问题,助力企业数字化转型,释放数据价值,创造更多可能。
腾讯云高性能计算引擎 Meson 不仅追求极致性能与成本优化,还致力于降低大数据处理的使用门槛,让企业能够更加便捷地运用大数据分析能力,实现数据驱动的业务决策。
简化操作:高性能计算引擎 Meson 提供了一套通用计算加速解决方案,使得腾讯云数据湖、数据仓库以及ES等产品能够无缝集成高性能计算能力。企业无需复杂的配置和专业技能即可享受高效的数据处理服务,简化了大数据分析的操作流程。
自动化优化:高性能计算引擎 Meson 内嵌的AI-powered查询优化技术和智能资源调度功能,能够自动识别和优化计算任务,减少人工干预。这不仅降低了技术难度,还确保了数据分析的高效运行,即使非专业人员也能轻松上手。
降低学习曲线:高性能计算引擎 Meson 的通用化和套件化设计,意味着用户在腾讯云大数据产品间切换时,能够保持一致的使用体验。无需重新学习新的操作界面或技术细节,大大降低了学习成本和适应时间。
在Meson引擎变革下,腾讯云大数据产品家族实现效能提升
腾讯云大数据高性能计算引擎 Meson 的发布,标志着腾讯云大数据产品家族迈入了全新的效能提升阶段。高性能计算引擎 Meson 的多层级、通用化和智能化特性,为腾讯云数据湖、检索分析服务、云数据仓库等产品带来了显著的性能提升,并为未来的技术演进奠定了坚实的基础。
在数据湖场景中,高性能计算引擎 Meson 实现了对Spark、Presto等JVM计算引擎的替代,通过Native语言重写执行层算子,采用SIMD指令集实现向量化计算加速。与开源Spark相比,高性能计算引擎 Meson 在全场景查询分析上性能提升超过2.27倍,单个SQL性能提升最高达6.2倍。
发布会上,腾讯云以在同一套作业环境中,先后运行 2 段 SQL ,对比了开源 Spark 引擎开源和 Meson 的区别。结果显示,在同样资源和配置下,作业运行效率提升了近
3
倍。
高性能计算引擎 Meson 全面兼容Spark生态,针对Iceberg格式进行了深度优化,支持超大规模流式upsert写入,并对腾讯云对象存储的元数据加速桶进行了向量化读取的改造,解决了存算分离架构下的向量化读取难题。
为了支持Iceberg表的高性能向量化查询,高性能计算引擎 Meson 在数据类型/函数优化、算子工程优化、数据文件格式优化和稳定性优化四个方面实施了工程化实践。在数据扫描方面,高性能计算引擎 Meson 通过构造delete bit map过滤DataFile数据,实现了MOR表Scan向量化读取,同时支持谓词下推和运行时过滤,有效减少了不必要的IO消耗,优化了向量化读取的性能。
腾讯云对象存储作为大规模存储系统,其高扩展性、低成本、可靠安全的特性受到广泛青睐。高性能计算引擎 Meson 研发了可直接向量化读取数据的FileSystem实现类,避免了行列转换,使IO读性能提升30%。针对大规模场景下Spark多Executor并发访问导致的流量控制问题,高性能计算引擎 Meson 引入了无服务缓存模型,实现本地缓存功能,提高了向量化引擎的吞吐量。
2.检索分析服务
在腾讯云检索分析服务Elasticsearch Service(简称腾讯云ES)中,结合高性能计算引擎Meson 解决方案,腾讯云ES是全球首个实现了GPU加速的ES服务。这一突破性的技术整合不仅提升了向量生成和向量检索的效率,还通过紫霄技术的引入,大幅增强了处理性能。紫霄V1的高性能特性为ES服务带来了显著的性能提升,尤其是在与腾讯混元技术的结合下,优化了成本效益,并提高了查询效率。
值得注意的是,目前腾讯云ES已与腾讯混元内部达成合作,一起致力于为客户提供极致的RAG体验。目前,腾讯云ES已为云知、安灯、乐享、微信读书等腾讯业务提供了一站式的RAG服务,显著提高了工作效率。
腾讯云ES支持的RAG技术有效解决了大语言模型应用中的幻觉问题、数据时效性差和私有数据安全问题。通过BM25评分算法优化向量检索结果,并与大语言模型结合进行文字理解与答案生成,腾讯云ES提供了一种创新的架构,旨在减少大模型幻觉现象,同时大幅提升准确度和性能。
相较于其他平台如Milvus,腾讯云ES展现了接近10倍的性能优势,这得益于其全面应用的技术,包括高精度向量检索、向量标量量化、自适应副本策略、查询裁剪、缓存优化及SIMD技术。这些技术的集成不仅优化了搜索体验,也确保了在处理大规模数据集时的高效率和准确性。