企业的智能之旅 | 人工智能基础模型的选择与评估

亚马逊云科技 · 公众号 · · 2024-12-20 11:00

正文

本文作者张侠

亚马逊云科技首席企业战略顾问

在数字经济时代，大数据和人工智能一体的数智技术成为企业转型和创新的战略制高点，数据、算力、算法的发展驱动了生成式AI基础模型的快速演进，推动了人工智能的迅猛发展。

企业领导、业务和技术高管需要熟悉了解如何选择、培训、精调、评估、改进生成式AI的基础模型，按需要对其进行定制化，将其构建部署到企业 应用中，以帮助企业获取差异化竞争力和创造业务价值。 对与模型的选择有关的知识和实践，我们做以下概括介绍，供您参考。

人工智能基础模型简述

人工智能基础模型包含用于执行各种任务的广泛算法和架构，从自然语言处理（NLP）到图像识别等等。这些模型根据其特点常常被冠以互不独立的种类标签。传统模型是指较小的、针对特定问题从头开始训练、执行特定任务的模型（如线性回归、决策树、KNN等）。神经网络模型是受人脑启发的模仿互连神经元组建的模型（如CNN、RNN、LSTM等）。生成式模型旨在生成类似于训练数据的新的数据内容（如GAN，VAE等)。强化学习模型通过反复试验学习最佳动作并根据其动作获得奖励或惩罚而建模（如QLearning、DQN、策略梯度方法等）。

生成式AI基础模型是指一类机器学习模型，通常基于转换器架构通过从大型数据集学习，无需进行针对特定任务的训练，获得能力以生成新文本、图像、视频、代码、音乐等内容，如Amazon Titan。这些模型是根据各种广泛的数据使用自监督或无监督方法进行预训练的，并通常针对特定领域和任务进行了微调。大语言模型（LLM）是其中的一个子类别，旨在理解和生成人类语言，通过以上下文相关的方式处理单词之间的关系来实现高效的语言处理。

企业选择购买还是开发模型？

对于寻求利用人工智能的企业来说，购买或开发模型是一个至关重要的各有利弊的决择。购买或开发模型的决定取决于众多因素，包括企业的规模、预算、专业知识、特定需求和长期战略。

企业内部开发模型可以更好满足特定行业的业务需求，优化独特应用程序的性能，并根据业务需求和技术进步的变化进行持续的更新和改进。 开发模型有助于企业在内部构建人工智能能力并促进员工的技能发展。企业可以保持对模型的完全控制，包括数据隐私、安全和知识产权。但开发人工智能基础模型需要大量时间、财务投资和专业知识，开发过程可能会很漫长，并存在无法按预期投产运行等风险。

企业购买模型可以快速获取比较成熟的安全可靠的模型进行快速部署，通常比从头开发模型更具成本和时间效益。 组织可以专注于自己的核心业务能力，而无需将过多的资源转移到人工智能开发上。但现成的模型可能无法完全满足特定的业务需求或用例，后期还要依赖外部提供商进行更新和维护。与第三方供应商共享敏感数据还可能会引发隐私和安全问题。

建立基础模型是一项繁重艰巨的工作，需要很强的技术资源和资金投入。 现阶段除了从事人工智能技术的专业公司和少数实力雄厚的大中型企业，大多数中小企业可以选择购买商业的或选择开源的基础模型，并在此基础上用自己的数据进行预训练，以得到最适合自己的基础模型。选定了模型之后，企业可以利用提示词工程、提取增强生成、模型微调和持续模型训练等方法，对模型进行进一步的适配和调优。

对于许多企业长期来说，混合方法也是可行的—— 从选择预先构建的模型开始，随着内部能力的增长和技术的成熟，逐渐过渡到购买模型和定制开发的结合。

人工智能基础模型的参数

人工智能基础模型在算法、结构、目的和应用方面差异很大。从擅长处理简单任务的传统模型到能够处理复杂数据和综合任务的高级神经网络基础模型，每种类型都有其独特的优缺点。 模型的选择取决于具体的场景用例、数据可用性和性能成本。 在评估人工智能基础模型时，应仔细考虑下述这些重要方面，以确保模型符合您的特定需求和目标。

狭义的常用的人工智能基础模型大小的主要参数如下：

模型参数数量： 模型中参数权重的总数。
模型内存占用： 存储模型参数和架构所需的内存总量。
输入令牌长度： 模型一次可以处理的最大标记数。
训练数据大小： 用于预训练模型的数据量。
层数和宽度： 模型的层数和每层的宽度。
批量大小： 训练期间同时处理的样本数量。

这些参数显著影响模型的性能、资源需求和部署可行性。较大的模型通常会捕获更多的复杂性提供更好的准确性，但也需要更多的资源来进行训练和推理。

除了上述模型尺寸相关的技术参数，下面这些广义的模型参数对于评估人工智能基础模型同样至关重要。通过综合考虑各个方面，您可以做出符合您的目标和资源限制的明智决策。

模型架构： 了解模型是否基于Transformer、卷积网络或其他架构。检查架构的层数和复杂性对性能可能的影响。
预训练数据： 检查预训练所用数据的种类和数量，这会影响模型的泛化能力。确保预训练数据与您的特定用例保持一致。
性能指标： 查看与您的应用程序相关的基准数据集的性能。F1分数、精度、召回率等指标可提供对模型性能的深入了解。
微调能力： 评估使模型适应特定任务或数据集的方便程度。确定模型在应用于新任务时是否有效保留已有的知识。
推理速度： 测量模型处理输入和生成输出所需的时间，这对于实时应用程序至关重要。评估模型是否可以同时处理多少个请求。
资源要求： 考虑训练和运行模型的硬件要求（例如GPU、TPU）。了解与部署相关的任何许可费用和运营成本。
可扩展性： 评估模型随着数据或用户需求的增加而扩展的能力。检查模型是否能够有效处理多个任务。
坚固性和可靠性： 评估模型在噪声或不完整数据条件下的表现。分析模型产生错误输出或错误分类的倾向。
模型偏差： 调查模型输出中的任何已知偏差以及这些偏差如何影响您的应用。
透明度： 考虑模型决策的可解释性，这对于建立信任和问责制至关重要。

选择人工智能基础模型的方法

选择人工智能基础模型需要综合考虑上述因素和参数，建议选择过程采用下述结构化方法步骤：

定义清晰的目标： 根据选责的应用场景，清楚地确定您想要实现的目标（例如文本生成、情感分析、图像识别等）。
评估模型类型： 选择模型适用于您涉及的任务（例如文本、图像等）并满足您的多模态需求。
了解模型能力： 确保模型是针对您的预期任务（NLP、视觉、多模态等）而设计并针对与您的领域相符的相关数据进行了预训练。
考虑定制和微调： 评估针对特定任务或数据集微调模型的难易程度，寻找允许修改以满足您独特需求的型号。
分析资源需求： 评估训练和部署模型的硬件和软件要求。
查看文档和支持： 确保提供全面的文档以促进实施和故障排除，寻找可以帮助解决问题的活跃社区或供应商的支持。
评估道德和法律因素： 调查模型的训练方式和已知偏差可能如何影响您的应用程序。确保使用模型符合相关数据保护法规，并且您可以负责任地处理敏感数据。
进行试点测试： 使用模型创建原型以评估其在现实场景中的性能。收集用户和利益相关者的反馈，在全面部署之前完善您的方法。
跟进最新进展： 密切关注基础模型的更新和改进。了解可能更好地满足您未来需求的新模型或架构。了解与使用该模型相关的任何许可费用或成本。
考虑费用和成本： 了解模型的整体投资要求、许可费用和运营成本，准备评估模型的效能、收益和回报。

亚马逊云科技提供Amazon Bedrock这项完全托管的服务，可以直接连接领先其他生成式AI提供商提供的各种预先训练的基础模型，并进行访问 ，使用户能够根据特定应用需求选择跨越不同的领域的模型（包括语言文字处理、图像视频生成等），简化了生成式AI应用程序的构建和部署过程，帮助企业高效灵活地选择正确的模型。 Amazon Bedrock最近推出Model Evaluation的功能专门帮助用户评估模型。 该服务还可以通过统一的API接口，将不同的模型轻松地与其他亚马逊云科技服务和工具集成，从而可以 无缝地选择、微调、扩展和监控模型 ，从而确保AI应用程序的高质量输出和持续性能优化。

智能之旅是我们这一代企业经营者和员工的使命，正确选择、精调、使用和评估人工智能基础模型是通往智能道路行动的重要一环。智能企业要着手集中安排团队和专人系统地获取掌握有关知识，有效地管理模型有关的职能。对于多数企业来说，从选择一个到几个已有的模型入手是现实的选择。通过选取合适的人工智能基础模型，企业可以确保依据整体业务战略有效进行生成式AI投资，交付重要的可见的业务结果，安全、可持续、可推广地推进人工智能的应用，帮助企业获取竞争优势并创造商业价值。

系列往期内容

企业的智能之旅 | 人工智能基础模型的选择与评估

正文

请到「今天看啥」查看全文