报告聚焦 AI 大模型领域,对过去一年的技术演进动态、技术趋势、以及开源开发者生态数据进行多方位的总结和梳理。
在第二章《TOP 101-2024 大模型观点》中,
杭州萌嘉网络科技 CEO
卢向东
分享了其作为大模型应用创业者,所感知到的 2024 年 RAG 市场环境的变化。
全文如下:
RAG 市场的 2024:随需而变,从狂热到理性
转眼到了 2024 年尾,和小伙伴一起创立 TorchV 也接近一年。虽然这一年做了很多事情,但从技术层面上来说,RAG 肯定是不得不提的,所以今天分享一下作为大模型应用创业者所感知的这一年,RAG 市场环境的变化。
RAG vs Fine-tune
2024 这一年,RAG 技术对应的市场需求变化也是挺大的。在讲变化之前,我觉得有必要分享一下为什么 RAG 是目前市场上不可或缺的一种大模型应用的技术实现方式,它的优点是什么?以及它和主要竞争技术之间的现状是怎么样的?
RAG 最开始被大家热推,更多是因为以下三个原因:可以避开大模型的上下文窗口长度的限制;可以更好地管理和利用客户专有的本地资料文件;可以更好地控制幻觉。
这三点到现在来看依然还是成立的,但上下文窗口这个优势已经慢慢淡化了,因为各大模型的上下文窗口都在暴涨,如 Baichuan2 的 192K,doubao、GLM-4 的 128K,过 10 万 tokens 的上下文窗口长度已经屡见不鲜,更别说一些特长的模型版本,以及月之暗面这样用长文本占据用户心智的模型。虽然这些模型是否内置了 RAG 技术不好说,但是 RAG 解决上下文窗口长度限制的特点已经不太能站得住脚。
但是第二点管理和利用专属知识文件,以及第三点控制幻觉,现在反而是我认为 RAG 最大的杀手锏。
因为 RAG 这种外挂文件的形式,我们便可以构建一个知识文件管理的系统来维护系统内的知识,包括生效和失效时间,知识的协作,以及便捷地为知识更新内容等。RAG 在知识维护上,既不需要像传统 NLP 那样由人工先理解再抽取问答对,也不需要像微调(fine-tune)那样需要非常专业的技术能力,以及微调之后的繁琐对齐(alignment)优化。所以如果客户的知识内容更新比较频繁(假设每天需要追加、替换大量实时资讯内容),特别是金融证券、企业情报等场景,RAG 知识更新便捷的特性真的非常合适。
RAG 的幻觉控制是一个有争议的话题,我之前写过类似观点,也有同学斩钉截铁地认为 RAG 和幻觉控制八竿子打不着,但我现在依然坚持 RAG 可以有效控制幻觉这个观点。
(1) 对于用户的提问输入,LLM 内部完全没有相应的知识来做应对。比如你问大模型,上周三我在思考一件事,但是现在想不起来,你帮我想想是什么。例子虽然夸张,但显而易见,LLM 也不知道,但是它会一本正经给你一些建议,当然肯定不是你想要的;
(2) 当我们给 LLM 原始问题,以及多个模棱两可或互相影响的参考材料,那么 LLM 给出的最终答案也会出错。
好,那么针对以上问题,是否我们解决好对原始问题的 “理解 - 检索 - 召回”,送到 LLM 的 context 足够清晰(指的是没有歧义内容、检索相关度高),结果就会非常准确?根据我们的实践结果,答案是明确的:今年 9 月份我们对一些项目进行了槽位填充(消除模糊问答)和元数据辅助之后,问答准确率可达到 98% 以上。比直接把大文本扔进同一个 LLM 测试的问答准确率几乎高出 14 个百分点。
有同学会说,LLM 幻觉的深层原因是 temperature 或者说概率引起的。就我纯个人观点来看,现当下的 LLM 参数足够大、知识量足够多,temperature 引起的偏差对于最终结果的正确性影响已经微乎其微了。
你应该看出来了,在 RAG 和微调之间,我明显站队了,而且从一年前就开始站队了,我们创业的技术方向也是如此。从今天来看,我觉得 RAG 在 2024 年的表现确实要强于微调。
图:Menlo Ventures 在 2024 年 11 月 20 日发布的市场调研报告。
来源:https://menlovc.com/2024-the-state-of-generative-ai-in-the-enterprise/
根据 Menlo Ventures 发布的市场调研报告显示,RAG 以 51% 的市场份额在企业市场份额中占据绝对优势,Fine-tune 和 Prompting 工程均下降两倍多。Agent 今年属于纯增长,目前情况还不错,但在企业应用领域,多 Agents 的编排依然存在理解能力不足和生成幻觉等问题有待提高。
如果去预测明年的企业级市场趋势,我觉得应用(Application)可能会是最大的关键词,甚至会超过 Agent 的热度。其实今年下半年已经能明显的看出来,越来越多传统大企业开始将大模型技术引入到业务中,而且他们的特点是要求高、需求刚、付费爽。而一旦大家开始在大模型的应用侧竞赛,RAG 在整个业务流程中白盒流程多、易控等特点愈发会受到企业客户和开发者的热捧,优势进一步拉大。
企业 AI 应用市场在 2024 年的变化
2024 年的上半年,AI 市场充斥着激情,那种热情似乎走在街上都会扑面而来,个人感觉最主要的推动者是自媒体和模型厂商。模型厂商的出发点很容易理解,快速打开市场嘛,但考虑到他们是要最终交付的,所以相对还是比较理性。但自媒体就不一样了,整个上半年看过太多的文章,大家也都是把最好的一面呈现给了大众,所以很多人会觉得我才几个月没关注,AI 已经发展到我不认识的地步了,AI 已经无所不能了。所以,在 2024 年上半年,我们接触到的企业需求中,占主流的是那种大而全的需求,要用 AI 替代他们业务的全流程或基本流程,气味中充满了使用者的野望。
但实际情况并不理想,AI 或者大模型还真没到这个程度,而且最关键的是范式转换也还需时间。什么是范式转换?最简单的例子就是以前人们用笨重的蒸汽机推动主轴承转动,带动整车间的机器工作。但是换了电动机之后呢,工作方式变了,动力可是变得非常分散,比如你拿在手上吹头发的吹风机。带着微型电动机的吹风机和传统的蒸汽机在工作范式上就完全不同,采用 AI 大模型之后,企业的业务流程也存在范式改造的过程,并非一朝一夕可以完成的。
所以,上半年我遇到的、参与的或者听说的那些大而全的 AI 项目,一半是在可行性推演中没有被验证,一半是交付之后效果很不理想,成功者寥寥。
在今年 7 月份开始,陆续有一些传统大企业找上门来,包括非常知名的企业,以及世界 500 强和多家中国 500 强。如果从时间上来说,他们属于 AI 投入相对较晚的了,但他们的优势是需求非常明确,要求也极高。比如有些企业仅仅就是解决一个咨询服务的需求,在产品范围上就是一个 AI 问答,但要求准确率接近 100%,就像我们 CTO 在《AIGC 时代的淘金者,TorchV 这一年的心路历程》说到社保咨询一样。
-
对企业现有业务流程改造相对较小,内部推动的阻力相对较小,企业客户配合度高;
-
-
使用功能较小但可用性较高的 AI 产品,可以让企业内部员工快速接受 AI,做进一步业务流程改造的前期预热;
-
乐于承接大而全需求的合作厂商多半是外包性质的(这个观点有点伤人,但确实是我看到的现状),而专业的、交付成功率更高的厂商往往更喜欢需求清晰且有难度的任务。
我在上文中已经有提到,2025 年会有更多企业需求方采用 AI 技术,但企业永远不会为你的技术买单,他们只会为他们自己的使用价值买单。比如可以帮助他们提升销售额、业务流转效率更高,或者和竞争对手的竞争中获得优势,还有就是降低成本等等。所以,大模型应用端多端不够,还需要生长出藤蔓围绕着企业流程开花结果,这个任务最终会落在应用(Application)—— 内化了企业流程、借助了大模型能力的、带有可交互界面的程序。2025 年会成为大模型应用或 AI 应用之争。
另外还有一个趋势也很明显,就是知识管理和协作。我们都说这波 AI 浪潮把原来 “没用” 的非结构化数据给激活了,所以我们马上会看到那些原来堆在角落里面的 “冷” 文件和知识(类似 wiki)会被大量启用,“热” 文件和知识会爆炸性增长,知识的协作和管理会成为新的问题 —— 就像你有再多的先进坦克和战车,却因为无序的交通都堵在阿登森林了。
AI 从业者观察
因为我看到的不代表真相,所以这一章节会很短,仅仅分享两个发现。
(1) 关于 AI 大模型的自媒体数量在减少,从搜索引擎趋势,加上我和几个业内朋友的 blog、公众号以及 X 的阅读量下降趋势也可以佐证这一点,下半年虽然市场理性回归,但整体热度是在下降的。OpenAI 不再持续放大招可能也是重要原因之一。
(2) 我前期接触了很多因为 AI 热潮而在企业内部抽调精干力量组成的 AI 小组、AI 研究组和 AI 创新组等团队的成员,但下半年有不少类似团队已经解散,人员回归到原有岗位。
还有一点就是上半年加我微信好友的很多独立开发者或在职的个人,多半也已经在寻觅了半年机会之后放弃了继续探索,这一点在和他们交流,以及他们朋友圈的内容变化中可以明显感知。
图:技术采用生命周期。现阶段的 AI 大模型市场似乎正处于过高期望之后的下坡过程中