●
与传统业务场景相比,大模型对数据存储资源的需求有哪些相同与不同之处?
【议题说明】
大模型以接近人类的智能水平进行思考、对话和互动,引发了全球的广泛关注,并正在催生新一轮人工智能应用浪潮,同时由于这项技术的使用场景与传统业务场景的差异,对数据存储资源提出了新的要求。大模型作为新的应用范式,对数据存储的需求与传统业务有所不同。本议题核心研讨大模型应用对数据存储需求的特殊性在哪些方面,又有哪些与传统业务数据存储需求一致的地方。通过研讨数据存储需求的差异性,期待对企业数据的存储管理带来一定帮助,帮助用户企业更好地布局数据技术、数据存储资源,应对未来数字化、智能化的业务挑战,优化企业数据处理和存储资源配置,提高企业数据处理效率、降低成本、增强数据安全性、促进业务创新和提高服务质量。
【议题主持人】金海波 昆仑银行 大数据负责人:
本议题研讨大模型对数据存储需求与传统应用的相同点和不同点,为企业数据的存储管理提供一些思路和帮助。研讨主要在存储规模、性能、可扩展性、安全性等方面进行展开。
大模型应用对数据规模、处理速度、存储可靠性、数据安全性、存储效率和可扩展性等方面有很高要求。
对比传统业务场景和大模型场景在数据存储资源需求,相同之处如下:
(1)数据存储需求量大:无论是传统业务场景还是大模型场景,都需要大规模存储数据,以满足业务需求。
(2)数据安全性要求高:对于任何业务场景,数据的安全性和隐私保护都是重要的考虑因素。大模型也不例外,当用的数据以私域数据为主的时候,数据安全性尤其重要。
(3)数据质量很重要:无论是传统业务还是大模型应用,都需要确保数据的准确性和完整性,以提高模型的准确性和可靠性。
(4)数据存储可靠性:如果存储故障会导致计算无数据可用,GPU处于空转状态。不同之处有如下几方面:
(1)数据规模差异:传统业务场景通常处理的数据量较小,而大模型则需要处理大规模的数据,可能达到数十TB甚至数百TB。
(2)数据处理速度要求:大模型需要快速处理和分析大量数据,对数据处理速度的要求更高。因此,数据存储系统需要具备高性能的读写能力和数据处理能力。
(3) 数据存储类型多样化:在大模型场景中,除了结构化数据外,还需要处理大量的非结构化数据,如图像、音频和视频等。因此,数据存储系统需要支持多种类型的存储需求。
(4) 数据存储效率要求:由于大模型需要进行大量迭代和训练,对数据存储的效率和响应时间有更高的要求。因此,数据存储系统需要具备高效率和低延迟的特点。
(5)数据存储可扩展性:大模型的应用和发展通常需要不断扩展数据存储容量和性能。因此,数据存储系统需要具备可扩展性,能够随着业务的发展而灵活扩展。
理解大模型和传统业务场景在数据存储资源需求方面的相同与不同之处有助于有效满足大模型对数据存储资源的特殊需求。
相同之处:
(1)数据量大:大模型与传统业务场景都需要处理大量的数据,因此双方对于数据存储资源的需求量都很大。
(2)安全性:无论是大模型还是传统业务场景,数据安全性都是长期关注的话题,特别是内部私有数据和一些敏感数据。
不同之处:
(1)存储方式:大模型需要特定的存储方式来支持高效读取模型参数和训练数据,而传统业务场景可能更多使用传统数据库和文件存储方式。
(2)访问模式:大模型可能需要频繁的读写访问,而传统业务场景通常设计为批量处理和定时更新。
(3)数据结构:大模型可能需要更复杂的数据结构来存储模型参数和训练数据,而传统业务场景更注重结构化数据存储。
(4)存储性能:在训练阶段,数据集读入和Checkpoint写入,对存储有很高的性能要求。综上所述,虽然大模型和传统业务场景在数据存储资源需求方面有共通之处,如数据量大和安全性要求,但它们在存储方式、访问模式和数据结构等方面存在明显差异。理解这些相同与不同之处有助于有效满足大模型对数据存储资源的特殊需求。
大模型需要高效、灵活和可扩展的存储解决方案,以适应不断变化的数据量和计算需求。
大模型对数据存储资源的需求与传统业务场景相比:
相同之处在于,无论是大模型还是传统业务场景,都需要数据存储资源来存储和管理数据。数据存储资源需要具备可靠性、可用性和扩展性等特点,以确保数据的准确性和完整性,以及满足业务增长的需求。
不同之处在于,大模型对数据存储资源的需求更为复杂和多样化。大模型需要处理的数据量通常更大,数据类型更为复杂,需要进行高效的读写操作和数据处理。此外,大模型还需要支持各种算法和计算需求,包括深度学习、机器学习等,对存储性能和I/O吞吐量的要求更高。
大模型和传统业务一样,都需要保证数据的准确性和完整性,以避免数据错误或不一致导致的问题。
相同之处:
(1)存储容量:无论是传统业务还是大模型,都需要一定规模的存储容量来存储数据。
(2)读取性能:在许多应用中,快速的数据读取速度是必要的,无论是传统业务还是大模型。
(3)数据一致性和完整性需求:无论是传统业务还是大模型,都需要保证数据的准确性和完整性,以避免数据错误或不一致导致的问题。主要区别在以下方面:
(1)数据类型:传统业务通常处理结构化数据,大模型需要处理各种类型的数据,包括结构化、半结构化和非结构化数据。需要不同类型的存储解决方案,如对象存储或分布式文件系统。
(2)计算资源:大模型处理的数据量较大,需要更多的计算资源。对存储的性能需求增加,需要更高的I/O吞吐量、更快的处理速度等。
(3)数据备份:由于大模型需要处理大量数据,考虑到数据备份的成本和数据本身的价值,需要针对不同价值的数据制定不同的备份策略,以权衡数据的可用性和成本。
大模型对数据存储资源的需求具有相似性和差异性。在为特定大模型选择存储系统时,需要综合考虑其具体需求和约束。
大模型对数据存储资源的需求非常高,主要体现在以下几个方面。
1.相同之处:
(1)存储容量需求大:无论是哪种类型的大模型,都需要存储大量的数据,包括训练数据、模型参数等。
(2)高性能存储需求:大模型的训练和推理需要高速读写存储器,以支持实时处理和快速响应。(3)持久性需求:大模型训练和推理产生的数据需要长期保存,以便后续分析和挖掘。
(4)可扩展性需求:随着大模型的不断发展,数据量会不断增加,存储系统需要具备可扩展性,以适应数据量的增长。
2.不同之处:
(1)数据类型差异:不同类型的大模型(如NLP、CV、语音等)需要处理的原始数据格式不同,因此对存储系统的数据类型需求也有所不同。
(2)I/O性能要求:某些大模型需要高速I/O性能来支持实时的训练或推理,而其他模型可能对I/O性能要求较低。
(3)数据一致性需求:一些大模型需要高一致性的数据存储来保证训练和推理的准确性,而其他模型可能对数据一致性的要求较低。
(4)成本考虑:对于一些经济高效的模型,存储成本也是需要考虑的重要因素。
变的是数据存储类型,不变的是对存储可靠性、稳定性的要求。
传统业务场景和大模型场景在数据存储资源需求的不同之处如下:
1.传统业务场景,包括交易类的、数据分析类等,这些业务场景主要使用的是关系型的结构化数据,通俗来讲,就是二维表格。这些关系型数据在软件层面主要使用传统的关系型数据库进行存储,在硬件层面可以放在集中式块存储、文件存储等存储设备上。
2.大语言模型,顾名思义,以处理自然语言文字信息为主,因此它所使用的数据主要不是关系型结构化数据,而是海量的语言文字数据,可以使用文本数据库、向量数据库、数据仓库、数据湖等方式进行存储,因为语言文字数据具有海量的特性,所需要的空间非常大,且增长速度快,因此在硬件层面上,应该使用分布式存储、对象存储等。
相同之处:传统业务场景与大模型场景,都需要充足的数据存储空间,且存储设备都需要具备高可用、高性能、高吞吐、稳定性强的特点。
大模型与传统数据场景,均需具备良好数据基础与数据质量,且对数据安全性有较高的要求。
大型模型的到来对数据和存储提出了新的要求。从成本的角度来看,数据和数据的存储过程和处理过程越来越重要。不仅数据量增加,数据处理过程也更加复杂,对性能的要求也越来越高,其附加值也越来越高。
大模型要求算力和存力的建设需要有最佳的计算存量比例,大模型不能只靠计算能力做好。计算能力建设过多,存力建设过少,会导致计算能力闲置,资源浪费。企业需要开展计算能力网络优化行动,加大高性能智能计算供给,加强先进存储产品部署,加快构建云端协同、计算、存储、运输一体化、多层次算力基础设施体系 。
大模型项目需要考虑异构存储的统一存储和管理等新问题。
1.海量存储:大模型的训练需要海量的高质量数据,但是高质量数据往往从更海量的数据中筛选清洗而来,所以对于原始数据、清洗后数据的存储、分类管理是一个重要变化。
2.大规模异构存储:当前路线的多模态大模型的训练仍然需要异构数据,需要类似于数据湖的基础设施作为异构数据的集成管理。
3.日志存储的可控性:大模型服务的可控性一直是大模型应用的重要问题。随之而来的,海量异构的服务日志,如何进行日志记录、筛选、反馈处理以及内容后审查等都与以往服务存在较大的不同。
4.知识存储:RAG的向量化存储、图存储等,均是随着大模型技术发展而发展的,需要考虑异构数据的统一存储和管理等新问题。
随着大模型技术的发展和应用推广,大模型业务场景与传统场景差异体现在需求碎片化、多样化,导致了大模型作为一种新的范式,和传统业务对数据存储存在显著差异。
数据存储需求的相同点主要体现在数据安全性和数据质量。数据安全性方面,银行在业务开展过程中收集和存储了大量敏感信息,包括客户的证件号码、职业、家庭住址、联系方式、资产信息,企业内的员工信息、内控制度、风险策略、评级规则等,传统业务场景和大模型场景下,这些数据的安全性和隐私保护都是重要的考虑因素。数据质量方面,模型分析结果的可靠性,需要基础数据的准确性和完整性来进行保障。
数据存储需求的差异点主要体现在存储类型、数据规模、处理效率和可扩展性等方面。数据存储类型方面,区别于传统业务场景主要处理结构化数据,大模型需要存储和处理大量的非结构化数据,如文字、图像、音频和视频。数据规模方面,由于处理和存储数据类型的多样化,以及数据存储生命周期的增长,大模型需要处理的数据规模可能会达到传统业务场景的百倍以上。数据处理效率方面:相较于传统业务场景的批量处理定时更新,大模型需要对数据进行频繁、高效的读写操作和数据处理。数据存储可扩展性方面,由于大模型存储的数据规模增长呈现井喷现象,存储需要具备高效、灵活可扩展性。
综上,在大模型数据存储系统需要支持多种数据类型;需要存储的可靠性和稳定性强;需要支持PB级的数据存储容量;需要更高的I/O吞吐量、更快的处理速度;需要更加高效、灵活的存储可扩展性。
觉得本文有用,请
转发
或点击
在看
,让更多同行看到
本文来自社区同行共识探讨,并形成文章首发于《迈向YB数据时代》第8期。扫一扫,识别二维码去社区立即兑换纸质版→