专栏名称: AI科技大本营

为AI领域从业者提供人工智能领域热点报道和海量重磅访谈；面向技术人员，提供AI技术领域前沿研究进展和技术成长路线；面向垂直企业，实现行业应用与技术创新的对接。全方位触及人工智能时代，连接AI技术的创造者和使用者。

大模型技术在企业应用中的实践与优化 | 新程序员

AI科技大本营 · 公众号 · · 2024-08-05 11:27

正文

【导读】大模型技术更新层出不穷，但对于众多企业及开发者而言，更为关键的命题则是如何进行应用落地，实现真正的智能化转型。本文系统且深入地探讨了大模型在企业应用中的关键环节和技术要点。从构建高质量的专属数据集、选择适宜的微调策略，到 RAG 技术应用和智能体协同工作，本文为企业应用落地提供了宝贵的洞见和实用策略，值得开发者们深入阅读。

作者 | 吴岸城

责编 | 唐小引

出品丨《新程序员》编辑部

随着人工智能技术的迅猛发展，大语言模型（Large Language Models，LLMs）已成为引领新一轮技术革命的核心驱动力。这些模型凭借其强大的自然语言理解和生成能力，在各行各业中展现出巨大的应用潜力。然而，将这些通用型大模型有效地应用于特定的企业场景，并从中获取实际商业价值，仍然是一个充满挑战的课题。

本文旨在深入探讨大模型在企业应用中的关键技术点，包括：

1. 如何构建高质量的企业专属数据集；

2. 选择合适的模型微调策略；

3. 优化检索增强生成（RAG）技术的应用；

4. 实现智能体（Agent）的协同工作。

大模型数据和微调

基于企业垂直数据构建

企业在应用大模型进行垂直数据构建时往往存在多个典型问题。首先，常面临的一个普遍问题便是 高质量数据的匮乏 。许多企业可能只有少量未经处理的文档，这些数据往往存在偏向性、时效性和准确性等问题。

其次是 数据处理的瓶颈 ，客户数据在投入使用前需经历繁琐的预处理流程，这不仅消耗大量时间，还伴随着高昂的成本。尽管采用 ChatGPT 等通用大模型可加速预处理，但出于企业数据安全考量，这一途径并不可行，导致数据处理手段受限。

并且， 数据的多样性 也是把双刃剑，它直接关系到模型的适应能力和预测精度。若数据种类单一，模型将难以应对复杂场景，灵活性受阻；反之，数据过于繁杂，则可能影响模型训练效果，降低准确率。

为了解决这一挑战，我们提出以下策略:

1. 数据清洗与人工标注

首先进行初步的数据清洗，去除明显的噪声和错误。例如，删除重复内容、纠正明显的拼写错误，以及移除与业务无关的信息。
由领域专家进行人工标注，确保数据的准确性和相关性。这一步骤尤为重要，因为它能够捕捉到细微的领域特定知识。
利用大模型对标注后的数据进行整理和扩展，生成更多相关内容。例如，可以使用 GPT-3 等模型根据已有数据生成相似的案例或场景。
最后再次进行人工审核，确保生成内容的质量和一致性。

这种迭代提升的方法可以显著提高数据质量，但需要注意控制成本和时间投入。建议企业根据项目规模和重要性来平衡人工投入和自动化程度。

2. 数据增强

利用大模型生成相关数据，扩充训练集。例如，对于客户服务场景，可以基于现有的问答生成更多可能的用户询问和相应的回答。

在生成过程中，需要特别注意数据的脱敏处理。例如，对于银行业务数据，可以使用占位符（如 XXXXX）替代敏感信息（如电话号码、账户信息等）。这样既保护了客户隐私，又保留了数据的结构和语义。
生成后的数据需要进行人工审核，确保其符合业务逻辑和安全要求。可以设立多级审核机制，包括业务专家、法律合规人员等，以确保生成数据的质量和合规性。

3. 通用数据与专业数据平衡

建议采用 7:3 的比例，即 70% 通用数据，30% 企业专有数据。这个比例可以根据具体应用场景进行微调。

通用数据有助于保持模型的基础能力，如语言理解、常识推理等。可以考虑使用公开的高质量数据集，如维基百科、常见问答集等。
专业数据则确保模型能够准确理解和处理特定领域的问题。这部分数据应该包括企业的产品手册、内部知识库、历史案例等。
这种平衡可以防止模型在获得特定领域能力的同时，保持其通用性能不会显著下降。例如，一个金融领域的模型不仅能够处理专业术语和规则，还能进行日常对话和通用任务。

通过以上策略，企业可以构建一个既包含丰富领域知识，又具有良好通用能力的数据集，为后续的模型训练和微调奠定坚实基础。

微调方法选择

微调是将预训练模型适应特定任务的关键步骤。选择合适的微调方法需要考虑具体目标和数据特征：

1. 改变输出格式

适用场景：当需要模型以特定格式输出结果时。
推荐方法：LoRA（Low-Rank Adaptation）或 QLoRA（Quantized LoRA）。
优势：这些方法可以在较小的计算资源下实现高效微调，特别适合需要快速迭代的场景。

2. 学习新知识

适用场景：当需要模型掌握大量新的领域知识时。
推荐方法：全量微调（Full Fine-tuning）。
注意事项：需要谨慎调整学习率，以避免过拟合。可以采用学习率衰减策略，或使用 AdamW 等优化器。

3. 特定任务优化

适用场景：文本分类、关系抽取、命名实体识别等特定 NLP 任务。
推荐方法：全量微调或任务特定的微调方法。
权衡：可能会导致模型在其他任务上的性能下降，需要根据具体需求权衡。

4. 预训练微调

适用场景：处理特殊领域数据，如中医、法律等专业文本。
方法：先进行领域特定的预训练，再进行监督微调（SFT）。
优势：能更好地捕捉领域特定的语言模式和知识结构。

需要结合客户需求，结合客户需求，建议先使用 Q- Lora 进行试验；如果 Q- Lora 不可行，则选择 Lora（高参数量）；如果 Lora 也不行，就考虑全参微调。

评估

准确的模型评估对于确保模型质量至关重要。以下是一些有效的评估策略:

1. 人工撰写评估数据

由领域专家创建专门的测试集，确保其覆盖关键业务场景。
避免使用训练数据中的内容，防止评估结果过于乐观。
实施建议：（1）创建多样化的测试用例，包括常见查询、边缘情况和潜在的错误输入；（2）定期更新测试集，以反映不断变化的业务需求和用户行为。

2. 自动评测方法

使用通用评测基准，如中文 SuperCLUE 等。
注意：一些评测集可能已被广泛使用，导致数据污染。应定期更换评测集（C-EVAL）。
实施建议：（1）结合多个评测基准，全面评估模型在不同方面的能力。（2）开发领域特定的自动评测集，更好地反映实际应用场景。

3. 黑盒对比评测

将模型输出与 ChatGPT 等知名模型进行对比，或直接使用知名大模型对输出进行打分。
采用人工评分，考虑准确性、流畅性、相关性等多个维度。
实施建议：（1）制定详细的评分标准，确保评分的一致性；（2）使用多名评估者，取平均分以减少主观偏差。

4. 特定任务评估

对于特定任务，如问答系统，可以使用 metrics（如准确率、F1 分数等）。
考虑使用 BLEU、ROUGE 等指标评估生成任务的质量。
实施建议：（1）对于问答任务，可以使用精确匹配（Exact Match）和 F1 分数；（2）对于摘要任务，结合使用 ROUGE-1、ROUGE-2 和 ROUGE-L；（3）对于生成任务，考虑使用人工评估和自动指标相结合的方法。

5. 在线 A/B 测试

在实际生产环境中进行小规模测试，比较新旧模型的性能。
关注用户反馈和业务指标的变化。
实施建议：（1）设置合适的流量分配比例，如 10%新模型、90%旧模型；（2）定义清晰的成功指标，如用户满意度、任务完成率等；（3）准备回滚策略，以应对可能的性能下降。

6. 长期监控

建立模型性能的长期监控机制，跟踪模型在实际应用中的表现。
定期收集用户反馈，识别模型的优势和不足。
实施建议：（1）设置自动化的性能监控仪表盘，实时跟踪关键指标；（2）建立用户反馈渠道，如满意度调查、意见收集表单等；（3）定期进行数据分析，识别模型改进的方向。

大模型+RAG

层级化数据

为提高检索效果，对数据进行层级化处理是一个有效策略。

1. 篇章级分析

分析文档的整体结构，识别主要段落和次要段落。
使用 TextRank 等算法提取关键句，作为段落摘要。
合并语义相近的段落，减少冗余。

2. 句子级分析

使用句子嵌入模型（如 BGE、BCE 等）计算句子相似度分数。
设定相似度阈值（如 0.8），将高于阈值的句子合并。
保留独特信息，避免过度合并导致信息丢失。

3. Token 级分割

根据模型的最大输入长度和数据资料特点（如 64-1024 tokens）进行分割。
考虑语义完整性，避免在句子中间截断。
对于长文档，可以使用滑动窗口技术，确保上下文的连贯性。

4. 多层级存储

将不同层级（如 C1 大标题、C2 小标题、C3 段落内容）分层存储。

使用树状结构或图数据库存储层级关系。
在检索时，可以根据查询的复杂度选择合适的层级进行匹配。

RAG 模型选择

选择合适的 RAG 模型对于提高检索质量至关重要：

1. 参考 Hugging Face 趋势

关注下载量高、Star 数多的模型。
查看最近更新时间，选择活跃维护的项目。

2. 考虑最新 Embedding 模型

如 BCE（Bi-Encoder Contrastive Embedding）等新兴模型。
评估其在特定领域数据上的表现。

3. 领域适应性

考虑模型在特定领域（如金融、医疗）的表现。
可能需要对选定模型进行领域适应性训练。

4. 计算资源权衡

权衡模型性能和计算资源需求。
考虑量化版本，如 INT8 或 INT4，以降低资源需求。

召回/排序优化

为了提升检索质量，可以采取以下优化策略。

1. 混合检索

结合字面相似性（如 BM25）和语义相似性（基于 Embedding）。
使用加权方法融合两种相似度分数。

2. 多路召回

控制召回数量在 50-100 个之间，平衡召回率和精确度。
使用不同的召回策略，如关键词匹配、语义相似度、TF-IDF 等。

3. 重排序

使用专用的 Rerank 模型，如 BERT-based 双塔模型。
选择 top k（通常为 10-20）作为最终结果。
考虑使用 Learning to Rank 等高级排序算法。

4. 递归检索

从小语义块开始，逐步扩大检索范围。
利用初步检索结果中的关键信息指导后续检索。

5. Step-back 方法

对复杂查询先进行抽象，找到更通用的概念。
基于抽象概念进行检索，再逐步具体化。

6. 假设文档嵌入

根据查询生成假设答案。
使用生成的答案作为查询向量，检索相关文档。

Agent 及其他

大模型选择与替代方法

选择合适的大模型需要考虑多个因素：

1. 语言需求

中文模型：如千问 2、GLM、零一等。
英文模型：如 GPT 系列、Llama 3 等。
其它专用语言模型。

2. 业务需求

编程：Code Llama、StarCoder 等。
图像生成：SDXL、Stable Diffusion 等。
图像理解：GLM、LLaVA-v1.6 等。

3. 功能需求

大模型技术在企业应用中的实践与优化 | 新程序员

正文

请到「今天看啥」查看全文