在快速发展的人工智能环境中,为大语言模型(LLMs)准备高质量数据集已成为一项严峻的挑战。这直接影响到模型的准确性、性能,以及跨不同任务和领域生成可靠、无偏输出的能力。
得益于 NVIDIA 与
Dataloop
的合作,我们正在正面克服这一障碍,彻底改变企业为 AI 应用准备和管理数据的方式。
Dataloop 是 NVIDIA Inception 计划的成员,该计划旨在帮助各个阶段的初创公司加速发展和业务增长
。
NVIDIA NIM 微服务
与 Dataloop 平台的集成标志着在优化大型语言模型(LLMs)数据准备工作流方面取得了重大飞跃。这次合作使企业能够高效处理大型非结构化数据集,简化人工智能驱动流程和 LLM 训练的准备工作。
迄今为止,AI 团队在为大型语言模型准备数据时面临着两个主要障碍
处理多模态数据集 :
数据类型 (包括视频、图像、音频和文本) 多种多样,每种类型都有其独特的处理要求,因此创建一个连贯一致的准备流程极具挑战性。
确保数据质量 :
非结构化数据集通常缺乏一致性和元数据,使得 AI 模型无法准确解释内容。这会导致数据质量问题,需要大量的人工干预和数据准备技术(例如重复数据删除和质量过滤),以便正确标记和组织。
为了克服这些挑战,Dataloop 使用 NVIDIA NIM 高级推理功能,确保将非结构化数据集高质量转换为人类数据,捕获对 AI 应用至关重要的复杂行为。
虽然 NIM 微服务可在 GPU 层面加速推理,但 Dataloop 专注于简化和自动化 NVIDIA 模型的部署过程。这样可将部署速度提高 128 倍,相比传统的容器化方法。
您不再需要处理大量下载或云配置,只需拖放和运行 NIM 模型。通过 Visual Studio Code 进行实时调试,NIM 微服务可无缝实现生产就绪,消除了手动设置的复杂性,并实现高效的 AI 扩展。
图 1:比较图显示 Dataloop+NIM 在 AI 工作流方面的优势
此解决方案的核心是一个结构化框架,该框架将 Dataloop 平台与 NVIDIA NIM 推理功能无缝集成。这种集成使企业能够轻松处理大型非结构化多模态数据集。
通过自动执行数据准备和结构化等复杂任务,Dataloop 消除了对深度基础架构专业知识的需求,使组织能够轻松扩展 AI 模型。该框架编排跨多个大型语言模型(LLM)的流程,确保以并行方式处理数据,并快速准确地准备好部署,从而使 AI 的采用比以往更快、更高效。
NVIDIA NIM
微服务是一组直观的微服务,旨在加速任何云或数据中心的
生成式 AI
部署。NIM 支持各种 AI 模型,包括 NVIDIA AI 基础模型、社区模型和自定义模型,可确保使用行业标准 API 在本地或云端进行无缝、可扩展的 AI 推理。
图 2:NVIDIA NIM 架构
NIM 微服务提供交互式 API,使您能够更无缝地在 AI 模型上运行推理。这些 API 根据模型/模型系列打包为容器镜像 (图 2)。NIM 为自行托管的 GPU 加速微服务提供容器,用于跨云、数据中心和工作站的预训练和自定义 AI 模型。
NIM 使用
NVIDIA TensorRT -LLM
和 NVIDIA TensorRT 提供低响应延迟和高吞吐量。在运行时,NIM 微服务会为基础模型、GPU 和系统的每种组合选择最佳的推理引擎。NIM 容器还提供标准的可观测性数据源,并内置支持在 NVIDIA GPU 上使用 Kubernetes 进行自动扩展。有关 NIM 的功能和架构的更多信息,请参阅
NVIDIA NIM
文档。
企业会随着时间的推移生成和收集大量不同的数据(视频、图像、文本和音频)。这些数据在用于 LLM 训练时可以提供重要的业务价值和运营效用。为了释放这一价值,数据需要经过适当的准备和丰富,这些流程通常需要大量资源。
通过将 NVIDIA NIM 与 Dataloop 集成,企业可以简化数据增强过程,确保数据以更快、更高效的速度为 AI 应用做好准备。
图 3:完整的 Dataloop 数据增强工作流
Dataloop 可轻松连接到不同的数据源,并准确处理数百万个文件。Dataloop 平台与 NIM 微服务相结合,可加速 AI 工作流,降低开发成本,并使企业无需深度技术专业知识或复杂的基础设施即可扩展 AI 计划。
在深入探讨管道机制之前,以下示例描述了两个关键阶段,它们处理从提取到转换的所有工作。
该工作流通过无缝集成存储在任何主流云平台(例如 AWS、Google Cloud、Azure 等)中的大型数据集启动。Dataloop 编排数据流,支持对每个新文件进行实时标记和分析。
这种动态同步可确保数据集始终保持最新、可访问,并为预处理和 AI 模型训练做好准备,同时管道会动态扩展以处理数据大小和复杂性。
图 4:Datalooop 数据增强管道中的 AWS 节点
提取数据后,下一个阶段是对数据进行结构化和转换,使其适合大型语言模型(LLM)。NVIDIA 在此阶段的每个分支中都发挥着至关重要的作用。
通过使用
NeVA
等先进的 NIM 模型,管道将受益于更高的吞吐量和更低的延迟,从而显著加快数据结构流程。这些优化允许企业并行处理更多的数据,从而缩短处理多模态数据集的 AI 项目的上市时间。
在此阶段,Dataloop 会编排基础 AI 模型,以管理各种数据类型的内容分类、标记和汇总等任务,从而确保高效且可扩展的数据准备。
图 5:在 Dataloop 数据增强工作流中结构化节点
NVIDIA 解决方案(包括 NIM 微服务)可通过 Dataloop 平台中的 NVIDIA Marketplace Hub 获取,从而简化和加速面向开发者的集成。这些预训练的先进模型可立即使用,并可随时部署在新的和现有的数据管道中。
图 6:NVIDIA Marketplace Hub 在 Dataloop 平台上
借助直观的即插即用功能,您可以绕过复杂的设置步骤,立即开始将 NIM 微服务用于 AI 项目。
为了充分理解 Dataloop 与 NVIDIA NIM 集成的变革力量,必须了解该平台如何处理各种数据类型的结构化和丰富。每个工作流程都旨在解决不同数据格式的独特特征和挑战,确保简化、高效和准确的数据准备。
以下是 Dataloop 的数据增强管道如何优化不同数据格式的处理:
当图像到达管道时,
NVIDIA NEVA-22B NIM
微服务会立即对其进行处理。此模型能够非常精确地识别图像并自动为其添加注释,从而检测与独特项目相关的特定对象、场景或元素。
当每个文件流经时,Dataloop 会自动将标注编入索引,并在平台的
数据管理部分
提供这些标注,以便于参考和进一步细化。
图 6:数据增强管道中的图像工作流
视频文件通过智能帧提取节点进入工作流,该节点通过检测帧之间的运动变化来选择关键帧。Dataloop 使用零样本视频子采样技术来定位并仅提取最独特的帧,而不是处理每一帧,从而减少处理时间和资源。
然后,这些选定的关键帧由
NEVA-22B
进行分析,其中应用于图像的相同高精度标注现在用于视频帧。结果是清晰、可操作的见解,可用于丰富数据集。在标注后,已处理的帧将索引到原始视频文件,以确保所有内容在 Dataloop 中保持同步。
图 7:数据增强工作流中的视频工作流
音频文件首先通过编码器分类器节点进行分类,该节点使用 SpeechBrain 进行语言识别和自动语音识别(ASR)。
检测到语言后,该节点会连接到 OpenAI 的 Whisper 进行转录,从而将口语转化为文本。最后,Audio-to-Text 节点通过 LLM 将转录内容传递给 LLM,从而增强转录内容,LLM 会分析文本的准确性和一致性。
此过程可确保转录不仅正确,而且具有上下文意义,从而捕获音频的预期消息。然后,优化后的输出将编入 Dataloop 平台的索引,然后将文本输出传递到文本工作流,使数据可供进一步的 AI 处理。
图 8:数据增强工作流中的音频工作流
文本工作流程从
LlaMA 3.1 NIM微服务
开始,该微服务使用工具调用功能提取命名实体,从而精确识别诸如公司名称、日期和地点等关键实体。
之后,
NVIDIA EmbedQA-Mistral-7bv2
模型会创建语义嵌入,以捕获文本的更深层次含义和上下文。最后,Upload-to-Audio 节点会确保所有已处理的文本数据都已正确索引,使整个过程循环进行。
图 9:数据丰富工作流中的图像文本工作流
对数据进行结构化处理后,丰富的数据集将存储在 Dataloop 的
数据管理部分
中,这使得数据处理既直观又高效。
图 11:Dataloop 数据管理部分
无论文件类型如何,您都可以直接从数据集浏览器中对其进行可视化、探索,并
做出实时的数据驱动决策
。Dataloop 简化了数据集的查询、版本控制和管理,因此您可以自信地扩展,并确保每个数据都支持 AI,不会出现延迟或令人头疼的问题。
Dataloop 平台集成 NVIDIA NIM 可为企业带来诸多优势,包括简化部署、加速迭代功能、高性能数据处理以及无缝集成行业领先的模型。
随着该解决方案的演进和扩展,我们的目标是继续增强其多模态功能。虽然该系统目前以出色的准确性和效率处理视频、音频、图像和文本数据,但我们看到了扩展到更复杂的数据类型(例如 3D、传感器、表格和地理空间数据)的机会。
这些进步将为不同领域的 AI 应用打开大门,从自动驾驶汽车和机器人到环境监测和智慧城市,在这些领域中可以为 AI 模型训练和独特用例准备和丰富更复杂的数据集。
如果您对
Dataloop 上 NIM 微服务的技术方面
感兴趣,并想了解如何加速 NVIDIA 模型部署和简化 AI 工作流程,请参阅
AI Development Partnership
。
有关战略性、数据驱动的前景,请参阅
AI 商业领导者合作伙伴关系