报告聚焦 AI 大模型领域,对过去一年的技术演进动态、技术趋势、以及开源开发者生态数据进行多方位的总结和梳理。
在第二章《TOP 101-2024 大模型观点》中,AI 创业者、前华为计算机网络与协议实验室助理科学家、首届“天才少年”
李博杰
提出,大模型开始往专业(Professional)模型和个人(Personal)模型两个方向分化。专业模型是通向 AGI 的必经之路。
但 AGI 能否实现,最大的不确定性在于技术和资金
。未来,个人模型将百花齐放,AI 公司很难单靠模型本身建立护城河,产品的重要性将高于模型能力。
全文如下:
AI 的三岔路口:
专业模型和个人模型
文 / 李博杰
2024 年大模型真正开始落地,大多数科技工作者在工作中至少使用一款大模型提升效率,很多国民级应用和手机厂商也接入了大模型。大模型开始往专业(Professional)模型和个人(Personal)模型两个方向分化。
专业模型是旨在提升生产力的模型,例如 AI 辅助编程、写作、设计、咨询、教育等。一旦模型能力达到门槛,专业模型将带来很高的附加值。
2024 年,专业模型已经在很多领域落地。例如,AI 辅助编程可以提升开发效率一倍以上,仅用每月数十美元的 API 调用成本,就相当于每月上万美元的工程师。AI 生成图片、播客、直播等,可以上百倍提升画师、配音员、主播的工作效率。AI 在心理、法律、医疗等领域的咨询服务可达到初级专业人士水平,每小时收费相比模型成本也高上百倍。AI 虚拟外教已经可以媲美真人外教,由于发音标准,效果甚至超过大多数国内英语老师。
专业模型是通用大模型和垂直领域数据、工作流的结合。
这里通用大模型的基础能力是关键,一个世界领先的通用大模型加上 RAG(搜索增强生成)行业知识库,做出的专业模型效果往往超过开源模型加上一些垂直领域数据微调得到的行业模型。因此,专业模型虽然训练、推理成本都较高,但考虑到较高的溢价空间,投入是值得的。
由于通用大模型的通用性,难以建立差异化壁垒,也难以形成网络效应,因此基础模型公司的竞争将非常激烈,算力将成为长期竞争力的关键。
对
于大公司而言,能否集中算力、数据和人才,保持组织高效很关键。
创业公司需要更多的资金支持,或者与云计算平台或芯片厂商深度合作,才能竞争专业模型的最高水平。一个例外是图片、视频等基于扩散模型的生成模型,在创作需求简单的情况下,未必需要通用语言模型这么大,是一个差异化竞争的机会。
随着专业模型编程能力的提升和 AI Agent 工作流进一步成熟,低代码编程将成为可能,很多人心中的想法将可以快速转化成应用,应用创业的试错成本已经大幅降低,未来甚至可能出现 Sam Altman 所说的“仅有一个人的 10 亿美金公司”。
由于定制化开发、知识收集整理的成本降低,大量现实世界中的工作流和行业知识将转化为行业应用和行业数据,传统行业数字化转型中的定制化开发难题有望解决。
对程序员而言,需求表达能力、沟通能力等软技能和系统架构设计等硬核能力将越来越重要,因为 AI 就像今天的基层程序员,需要人表达清楚需求才能做好,复杂系统的架构设计和问题解决也还是要靠人。
专业模型是通向 AGI 的必经之路。
Anthropic CEO 预测,未来 5 年专业模型将达到人类顶尖专家水平,将人类科研进展加速 10 倍,15 年后人类寿命有望达到 150 岁。但 AGI 能否实现,最大的不确定性在于技术和资金。
技术方面,一些头部大模型公司已经发现 Transformer 能力“撞墙”,现有高质量语料基本都被用过了,进一步提升模型智力需要强化学习等新方法。资金方面,一些智库预测,AGI 将需要上万亿美元的投资,芯片的能耗也将使人类的能源消耗增加一倍。如果 AGI 达成,将显著改变国际竞争格局和人类生活方式。
相比更类似“阿波罗计划”的专业模型,个人模型不需要那么大训练投入,也更容易变现。个人模型旨在帮助普通人提升生活质量,例如生活助手、旅行助手、电话助手等,把《Her》等科幻电影中的场景变为现实。
一般认为,同时具备 GPT-4o 多模态能力和 o1 推理能力的模型就可以满足个人模型的需求,目前国内的头部 AI 公司也已接近个人模型的技术目标。
但目前端到端多模态模型和推理模型的成本仍然较高,且在一些场景下还不够稳定。
但 2023 年以来,模型知识密度有每 8 个月提升一倍的“类摩尔定律”趋势,加上硬件的摩尔定律和推理框架的优化,一到两年后,个人模型的成本将达到可以让用户随时使用的水平,就像互联网应用一样,通过广告和少数订阅即可盈利。类似 o1 的强推理能力模型也不一定需要很大,未来将成为个人模型的标配,经常算错数的模型将被淘汰。
手机、PC 和空间计算设备的端侧个人模型将足够满足大多数日常需求,智能汽车可能成为家庭计算中心。云端模型将作为端侧模型的补充,用于处理较复杂的任务和处理大量数据。模型的多模态能力将使 AR/VR 等空间计算设备成为更自然的人机交互入口。推理能力将使得模型可以可靠处理复杂任务,真正节约用户时间,甚至做到人力不能及的信息采集和分析。多模态和推理能力也将使具身智能真正具备通用的感知、规划、控制能力。
顶级的专业模型公司有最高质量的数据,因此可以蒸馏出知识密度最高的个人模型。但由于个人模型的推理成本较低,知识密度稍低的模型未必没有市场。由于训练成本较低,未来个人模型将百花齐放,AI 公司很难单靠模型本身建立护城河,产品的重要性将高于模型能力。
面向个人生活和娱乐的 AI 产品关键是用户交互,目前优秀的 AI 应用已经不简单是生成文字。在 Claude Artifacts 之后,AI 生成代码,再运行代码,生成图文并茂的回答,直观的图表,多模态带讲解的播客,甚至带交互的小游戏、小应用,已经成为 AI 应用的新范式。
在个人模型成本尚未降低到可以随意使用时,商业上成功的应用可能将有更高的“读写比”,也就是每次模型生成的内容可以被用户多次使用,一种模式是内容社区,创作者利用 AI 生成内容,大量的用户访问这些内容;另一种模式是用户的问题有很高比例是重复的,例如拍照搜题、生成调研报告等。
总体来说,目前 AI 应用尚处于“iPhone 1”时代,模型能力、应用生态、用户习惯都在快速进化中。
所谓“AI 一天,人间一年”,即使是 AI 专家,也很难跟上所有最新的科研进展。大模型的时代才刚刚开始,预测未来的最好方式就是持续学习、探索、利用 AI 能力,创造未来。