专栏名称: 顶层架构领域
专注核心架构领域知识、经典干货总结、技术领域趋势跟踪,以通俗易懂的方式传播——复杂的事简单化
目录
相关文章推荐
新郑发布  ·  拜祖大典知多少 | 举行拜祖大典的意义是什么? ·  16 小时前  
新郑发布  ·  拜祖大典知多少 | 举行拜祖大典的意义是什么? ·  16 小时前  
福州新闻网  ·  刚刚!福州地铁推出“同行票”! ·  昨天  
江苏新闻  ·  演员王凯,有新身份! ·  昨天  
江苏新闻  ·  演员王凯,有新身份! ·  昨天  
第1眼新闻  ·  他在18岁最后一晚遗憾离世 ... ·  2 天前  
第1眼新闻  ·  他在18岁最后一晚遗憾离世 ... ·  2 天前  
51好读  ›  专栏  ›  顶层架构领域

简化大模型微调门槛:运用Ludwig低代码框架的平台技术实战

顶层架构领域  · 公众号  ·  · 2024-06-30 12:30

正文

点击上方 蓝色 顶层架构领域 ”,关注精彩与你分享

在人工智能的璀璨星河中,大型语言模型(LLMs)犹如引领方向的灯塔。但要让这些灯塔照亮特定领域,微调技术成为了关键。今天,我们将深入探索Ludwig框架微调与预训练技术,它们正以革新的方式,重塑AI模型微调的领域。

一、Ludwig 简介

在AI的世界里,简单性和灵活性是构建强大模型的关键。Ludwig 作为一个开源的低代码框架,用于构建 自定义 AI 模型,如 LLM 和其他深度神经网络。让这一过程变得像搭积木一样简单。
仓库地址: https://github.com/ludwig-ai/ludwig
官网地址: https://ludwig.ai/latest/

二、Ludwig 的核心优势

  • 极简上手 :用户仅需使用一个声明式的 YAML 配置文件,即可轻松训练出最先进的 LLM 模型。Ludwig 支持多任务和多模态学习,并提供全面的配置验证功能,能够在运行前检测无效参数组合,避免错误发生。
  • 高效性和可扩展性 :自动选择最佳批量大小,支持 DDP、DeepSpeed 等分布式训练策略,并提供参数高效微调(PEFT)、4 位量化(QLoRA)、分页和 8 位优化器等多种优化特性,即使面对超大规模数据集也能轻松应对。
  • 专家级控制: 用户可以完全掌控模型的各个方面,细致到激活函数的选择。同时,Ludwig 还提供超参数优化、模型可解释性分析以及丰富的指标可视化工具,满足专业开发者的需求。
  • 模块化和可扩展设计: 如同深度学习的“积木”,用户可以通过简单的参数调整尝试不同的模型架构、任务、特征和模态,极大地提升了模型开发的灵活性。
  • 面向生产环境: 提供预构建的 Docker 容器,原生支持在 Kubernetes 上使用 Ray 进行模型部署,并支持将模型导出至 Torchscript 和 Triton 等平台,以及一键上传模型至 HuggingFace。

三、Ludwig 的主要功能

  • 训练和微调 : 支持多种训练模式,包括对预训练模型进行完整的训练和微调。
  • 模型配置 : 使用 YAML 文件进行配置,允许用户对模型参数进行详细定义,实现高度的可定制性和灵活性。
  • 超参数调整 : 集成自动超参数优化工具,以增强模型性能。
  • 可解释的人工智能 : 提供工具帮助用户深入了解模型决策,提高模型的可解释性和透明度。
  • 模型服务和基准测试 : 简化模型服务的过程,并支持在不同条件下对模型性能进行基准测试。
Ludwig 的整体设计理念是简化 AI 模型的构建和部署流程 ,无论是 AI 领域的新手还是专家,都可以轻松上手,快速构建出适用于各种场景的定制化 AI 模型。

四、Ludwig 工作原理

配置

Ludwig 为用户构建 ML 管道的方式提供了一个富有表现力的声明性配置系统,例如数据预处理、模型架构、后端基础设施、训练循环、超参数优化等。
文档参考:https://ludwig.ai/latest/configuration/
了解更多,请参阅 Ludwig 官网 获得深入参考。

数据类型抽象

Ludwig 中的每个功能都由特定的数据类型描述。每种数据类型都映射到一组特定的模块,这些模块负责处理该类型的预处理、编码、解码和后处理。反之亦然,每个模块(预处理器、编码器、解码器)都注册到该模块支持的一组特定数据类型。
了解更多,请参阅 Ludwig 官网获得深入参考。

ECD 技术架构

Ludwig 的核心建模架构称为 ECD(编码器-组合器-解码器)。多个输入特征被编码并输入到Combiner 模型,Combiner模型对编码的输入进行操作以将它们组合起来。在输出端,组合器模型的输出被输入到每个输出特征的解码器进行预测和后处理。详细了解 Ludwig 的组合器模型,如TabNet、Transformer 和 Concat(广度和深度学习)
ECD 架构的示意图就像一只翩翩起舞的蝴蝶,因此也被称为“蝴蝶架构”。
ECD 架构可以灵活处理各种不同类型的输入和输出数据,因此适用于许多不同的应用场景。

五、Ray 分布式训练

Ludwig on Ray 使用户能够扩展他们的训练过程,从在本地笔记本电脑上运行,到在云端的 GPU 实例上运行,再到并行扩展到数百台机器,所有这些都无需更改一行代码。
通过与 Ray 集成,Ludwig 能够提供一种统一的分布式训练方法:
  • Ray 使您能够通过其集群启动器用单个命令配置一组机器。
  • Ray 上的 Horovod使您能够进行分布式训练,而无需在您的环境中配置 MPI。
  • Dask on Ray使您能够处理单台机器内存无法容纳的大型数据集。
  • Ray Tune使您能够轻松地在多台机器上并行运行分布式超参数搜索。
Ludwig 中无需更改任何一行代码。当 Ludwig 检测到您在 Ray 集群中运行时,Ray 后端将自动启用。
集群配置文档:https://docs.ray.io/en/latest/cluster/cli.html#ray-start






请到「今天看啥」查看全文