专栏名称: 飞总聊IT
飞总,从事大数据的基础构架研发10余年。本公众号的主要目的是和大家交流我在大数据基础架构,IT前沿发展,职场经验的方面的观点和看法。本公众号仅代表本人的观点,不代表公司观点。
目录
相关文章推荐
杭州交通918  ·  太意外!44岁女演员官宣分手 ·  2 天前  
钱江晚报  ·  大S去世后,小S首度更新动态 ·  2 天前  
杭州日报  ·  终于!他官宣喜讯!网友沸了:期待今年3月 ·  2 天前  
FM93交通之声  ·  晚高峰突发!杭州一新能源车起火! ·  3 天前  
51好读  ›  专栏  ›  飞总聊IT

腾讯云自研存储解决方案,全面支持AIGC

飞总聊IT  · 公众号  ·  · 2024-06-04 08:39

正文


关注飞总聊IT,了解IT行业的方方面面。


从ChatGPT开始,全球的AIGC狂潮,极大 改变了整个人工智能生态。 大语言模型的不仅仅让很多行业出现了颠覆式创新,基于大语言模型的各种商业应用也开始影响我们每个人。


新的AIGC的发展,对数据的需求也有了更高的要求。大语言模型需要大量的数据进行训练,微调,优化,才能够有效的生产包括文本,图片,适配在内的内容。 而这,也对存储提出了 更高的要求。


通常,在一个典型的AIGC业务处理流程里,按照顺序,我们对数据的使用大致分为如下的步骤:数据采集、数据清洗、训练、推理、内容治理等步骤,每个步骤都对存储有不同的需求,如下图所示:


在AIGC业务的不同阶段,对数据存储的要求也是有所不同的。


数据的采集阶段,主要是从互联网公网上抓取海量数据,数据量在PB级别,对象存储是一个好的选择。这就需要有全球公网接入能力,海量弹性存储,多样化的传输通道。


数据清洗,大部分情况下是通过大数据引擎,比如Spark等进行,需要支持HDFS的文件接口,对读和顺序写的性能都有要求。


对大语言模型的训练,往往需要读取清洗好的数据,生成向量化数据集,向量化的数据集在大语言模型中迭代,通常数据量应该在10-100TB。目前训练阶段的文件访问接口主要需要支持POSIX语义,要能够提供大量的写 带宽 和高性能的读OPS。


大语言模型上线服务推理阶段,要求快速加载模型,并针对输入的变量推理出结果,有些场景,模型可以加载常驻内存。文件访问需要支持POSIX语义,对读带宽要求很高。


腾讯云自研了新一代对象存储引擎YottaStore,为AIGC业务整个流程提供了稳定可靠的海量分布式存储平台。


首先,腾讯云的对象存储COS在全球提供了几十个数据中心的接入点,支持多地域的便捷公网接入能力。COS支持通过腾讯自研的全球骨干网,提供稳定的内网数据传输通道,支持数据全球传输。


这些能力对于AIGC业务的数据采集就非常的重要了。



大语言模型训练数据,不但需要采集中文互联网的数据,也需要大量采集英文互联网的数据。数据类型不仅仅有文本,还有图片、视频、语音。数据集需要跨境跨机房交换和存储。腾讯云对象存储所能提供的能力,是数据采集必不可少的。


原始数据集的存储,一方面需要弹性分配资源,另外一方面要保证数据可以随时访问,不丢数据。


在海量公网数据库的存储压力和连续访问的服务压力情况下。 腾讯云自研的对象存储引擎 YottaStore,在数据接入层和存储引擎层提供了多种业内领先的技术手段,保障了对象存储服务在提供超大规模服务的同时,可以做到高可用、高可靠。


在数据接入层面,腾讯云自研了无状态的弹性接入集群,支持不同运营商、多种线路的公网接入节点,并提供丰富的流量均衡策略;同时无状态的特性,可以做到无感的扩缩容节点,在流量突增需要增加节点,或者监测到故障需要剔除节点时,都能实现快速横向伸缩。


在存储引擎层面,腾讯云提供了原生多 AZ 的特性,支持任意机型硬件、任意冗余模式的存储;同时通过元数据分级存储等方式,单集群可以扩展到百 EB 级别,实现超大规模的集群管理。


AIGC的数据清理,通常需要通过Flink Spark等数据分析框架。而大语言模型的训练和推理,则需要支持POSIX语义。


腾讯云的对象存储COS全面兼容S3协议,能够在大部分兼容S3的应用中直接使用COS服务。使用包括Flink和Spark等数据分析框架进行数据清理自然也不是什么问题。


为了更好 支持大语言模型的训练和推理,腾讯云基于稳定可靠的COS基础存储服务,推出了业内首创的GooseFS数据湖三层加速体系,该加速体系基于数据加速器GooseFS、元数据加速器和COS加速器,构建了高效的数据湖存储方案,以促进数据要素的快速流转。



GooseFS 三级加速方案可以将训练数据加载到GPU内存、本地盘或者可用区全闪存储集群等不同级别的缓存中,缩短IO路径,提升数据访问性能。


相比起从对象存储COS中直接读取,GooseFS可以提供亚毫秒级的数据访问延迟、百万级的IOPS和Tbps级别的吞吐能力,有效提升数据清洗和训练的效率。


针对大模型的Checkpoint写入场景,腾讯云还提供了GooseFSx这一全兼容POSIX语义的高性能存储服务,提供高速的数据写入能力。


通过深耕软硬件的技术优化,腾讯云对象存储可以持续为大模型提供领先的存储服务。


除了对象存储COS产品以外,数据万象产品在AIGC场景中也起到了举足轻重的作用。


数据万象 包括了对文档文件、图片、音频和视频的处理,以及基于AI智能的多种数据处理服务。 通过这些能力,数据万象面向AIGC场景,提供了一站式的数据处理以及内容审核的服务。


数据万象产品近期发布的MetaInsight对AIGC业务尤其重要。 MetaInsight是基于AI大模型和向量数据库,为用户提供对全媒体类型进行跨模态的检索能力,从而可以更深入更高效的挖掘数据的内容价值。


MetaInsight服务有三个重要的特点:


第一,跨模态高效检索。MetaInsight采用多模态检索结合结构化标签的产品架构, 支持以文搜图、以图搜图、以文搜视频、以视频搜视频、以文本搜音频等多种数据检索的手段,并支持对对象元信息的高效查询和统计分析, 可以帮助用户快速、准确地找到所需的数据类型,大大提高了数据的可发现性,提升用户体验、研发效能。


第二,覆盖全面。 覆盖多行业全媒体文件类型,对经过授权的商业数据以及自有业务数据进行预处理抽取,通过机器翻译,模型清洗,图文配对,交叉验证等处理工作,收集整理了数百万条中文文本-图像数据,并使用自研检索引擎完成多模态特征







请到「今天看啥」查看全文