浅谈：大模型时代的一些技术壁垒

安诺成咨询 · 公众号 · · 2025-01-15 19:44

正文

正文共：2812字

图片共：5 张

预计阅读时间：7分钟

以下是对于大模型时代的一些技术壁垒的粗略思考，相信在实际的业务应用中还会遇到更多有意思的场景和问题，抱着好奇心来面对这些不确定性，正是这个AI、大模型时代赋予我们学习成长和突破自己的机会。

一、分层开发技术

通用模型只能算作是刚招进来的”大学生“，基础能力有，学习能力也有，但是需要进行岗前培训，而训练微调就是对大模型在某些特定领域进行”岗前培训“。提前设不同梯度的大模型开发技术，根据业务需求和资源情况，大模型开发可以分为不同梯度的技术路径，每种路径均可形成特定的技术壁垒：

1）全量调参： 这种方法需要依赖高质量领域数据的大规模积累、高性能计算资源（如数百张 GPU/TPU 的集群），以及具备算法创新能力的研发团队。全量调参后的模型往往能够展现出极高的定制化水平，能够精准适配复杂场景需求，但其高门槛也决定了只有极少数企业具备这种能力。

2）领域微调： 微调需要对领域数据的深刻理解，结合高效的训练流程与任务目标设定。这种技术路径对领域数据的积累和处理能力提出了很高的要求，同时微调流程的优化与自动化也成为竞争中的关键。微调需要对领域数据的深刻理解，结合高效的训练流程与任务目标设定。这种技术路径对领域数据的积累和处理能力提出了很高的要求，同时微调流程的优化与自动化也成为竞争中的关键。适合资源有限、需求明确的经济性应用，例如中小型企业快速推出服务化产品。

3）API 服务集成： 尽管调用 API 的技术门槛相对较低，但其真正的壁垒在于如何结合业务场景的独特需求进行深度集成。这需要对业务逻辑的全面理解，能够设计高效的 API 调用逻辑，并解决数据流处理中的问题（如实时性、稳定性与安全性），从而实现大模型在特定场景中的落地应用。适合智能化探索和部分应用验证的场景，操作简便，开发周期短。

二、检索赋能生成

当前大模型的输入和输出形式仍较为局限，主要以文字或图像作为输入，生成文字或结构化数据作为输出。即便是支持多模态的大模型，其本质仍依赖语义生成能力。而行业应用中往往涉及特殊格式或复杂数据需求，检索增强生成（RAG）技术为这些需求提供了解决方案，其核心壁垒体现在以下几个方面：

1）企业数据库对接： 数据库数据往往具有复杂的结构（如层级关系、非结构化字段），如何在不破坏模型语义生成能力的前提下对这些数据进行解析、检索、转换，是一个重要的壁垒。大模型与企业内部数据库对接，能够将静态的大模型赋予动态的知识扩展能力。

2）异构数据处理： 行业中存在大量同源异构数据（如表格、文档、图像等），而 RAG 技术可以通过多模态检索和生成能力对这些数据进行整合与优化处理。例如，在财务行业中，企业需要整合财务报表、合同文本和发票影像，这就需要 RAG 技术具备高度鲁棒的多模态处理能力，同时生成的结果还需满足合规性要求。

3）数据模态贯通： 通过提前打通数据模态和交互链路，可以使大模型快速、准确地理解场景需求，灵活调用历史信息。多模态数据链路的贯通需要解决模态转换中的信息丢失问题，例如将表格数据转换为语义文本时，如何保留数值精度和结构化信息。可以构建统一的多模态知识图谱，结合大模型的生成能力，为不同模态数据提供语义一致的生成方案，同时优化链路效率，减少数据在多次转换中的损耗。

浅谈：大模型时代的一些技术壁垒

正文

请到「今天看啥」查看全文