从算法到应用,从技术突破到场景落地,大模型在这一年中取得了哪些具有里程碑意义的进展?
作者 | 《新程序员》编辑部
11 月 14 日,由 CSDN 联合高端 IT 咨询与教育平台 Boolan 举办的“2024 全球机器学习技术大会”在北京盛大开幕。大会核心聚焦大模型技术演进、多模态、GenAI 产品创新与探索等开发者们关注的 AI 前沿技术,共设置 12 大技术专题。主会场上,CSDN 高级副总裁、Boolan 首席技术专家李建忠,新加坡工程院院士、IEEE Fellow、昆仑万维荣誉顾问颜水成,传神语联创始人何恩培,新浪微博
首席科学家、新技术研发负责人张俊林结合实践案例分享了他们在 AI 时代领悟的全新思考。
大会期间,来自腾讯、阿里巴巴、字节跳动、百度、美团、小米、蚂蚁集团、eBay、快手科技、京东、金山办公、小红书、得物、昆仑万维、新浪微博、商汤科技、潞晨科技、智谱AI、百川智能、新浪微博、澜舟科技、传神语联、昇腾、快递100、
人民邮电出版社异步社区、
电子工业出版社博文视点、
清华大学出版社、机械工业出版社、人民邮电出版社图灵文化、JINA AI、Dify.AI、中科加禾、Lepton AI、RMKV元始智能、趋境科技、Percena、中国国际图书贸易集团有限公司、瞻胜传播、中国搜索、新译科技、东方国信、Nimdzi Insights 等知名科技企业与组织,中国科学院、微软亚洲研究院、北京智源人工智能研究院、中国人民大学、中国人工智能学会、中国信息通信研究院、北京语言大学、北京交通大学等学术科研机构的技术大咖与
专家学者齐聚一堂,向现场观众与「云会员」们深入分享大模型技术实践及应用落地经验。
李建忠:大模型技术演进与应用创新洞察
作为 AI 领域的探索者与见证者,CSDN 高级副总裁、Boolan 首席技术专家李建忠为大会带来主题为《大模型技术演进与应用创新洞察》的开场演讲。他首先谈到了广受业界关注且成为推动大模型发展关键的扩展法则(Scaling Law)。Transformer 架构自 2017 年问世以来,逐渐引领 AI 进入大模型时代,此架构的成功在于完美适配了 Scaling Law,实现了算力、数据、参数三者之间的解耦,使得它们能够独立、快速地扩展。
李建忠 CSDN 高级副总裁、Boolan 首席技术专家
深入剖析 Scaling 背后的技术哲学,李建忠强调:“
解耦方可通用,通用方可扩展。
解耦需要设计正交,正交意味着独立性。
”
在李建忠看来,这一哲学不仅适用于 AI 领域,同样在互联网发展史上也有深刻体现
,例如:
TCP/IP 协议实现了对网络连接的 Scaling,Web/HTML 则实现了对网络应用的 Scaling。
立足当下,李建忠基于强大的 Scaling 能力分享了过去一年中大模型技术的三大演进趋势:
-
Inference Scaling :从训练到推理。在推理能力方面,李建忠以 OpenAI o1 为例并指出,OpenAI o1 基于强化学习(RL)和 Self-play 实现了推理的
Scaling Law,使模型从预训练阶段的“统计学习”转变为推理阶段的“探索创新”,完成了从系统 1(快思考)到系统 2(慢思考)的飞跃。
-
Modality Scaling:从文本到多模态。
在多模态智能方面,李建忠分析了几个重要案例:Sora 使用 Patch 统一视觉数据的“元表示”,GPT 使用 token 统一自然语言文本的"元表示",智源 Emu3 和 GPT-4o 则分别实现了多种模态的统
一。
李建忠
强调了语言在多模态智能的地位,他
引用
维特根斯坦的观点:“语言的边界即思想的边界”,
认为
语言不仅包含人类知识,也蕴含了思维的推理过程。如果多模态系统中缺乏充分的语言数据支撑,其智能能力将受到严重限制。
-
Data Scaling:数据扩展。
李建忠指出,AI 大模型的数据
将从
互联网
上现有的
数据(结果性、静态、显性)、
逐步过度为
合成数据(机器生成)和共生数据(过程性、动态、隐性)。
在互联网上的静态数据被消耗殆尽的趋势下,人机共生数据将为大模型提供源源不断的数据供给。
最终,在落地的应用层面,李建忠认为 2024 年最显著的发展是智能体(Agent)。他预见互联网将从“信息网络”向“行动网络”演化,在这个新的范式下,人类只需表达需求,智能体就能完成规划和行动。这种转变不仅改变了计算任务的模式,也将重塑人机交互的方式,开启了一个全新的智能时代。
颜水成:基础模型的根基
新加坡工程院院士、IEEE Fellow、昆仑万维荣誉顾问颜水成在《基础模型的根基》主题演讲中表示,最初在 Training Scaling Law 阶段,AGI 似乎还遥不可及。然而,随着 Inference Scaling Law 的提出,通向 AGI 方向的路径越来越清晰。不过,颜水成指出,无论是文本交流、语音对话,还是基于视频的互动,实时性的要求都非常高。在这种情况下,仅靠 Training Scaling Law 和 Inference Scaling Law 是无法完全解决问题的。他强调,如果要长期致力于 AGI 的研究,关键在于 AI 系统与 AI 算法的结合。
颜水成 新加坡工程院院士、IEEE Fellow、昆仑万维荣誉顾问
基于对大模型基础研究的深度思考,颜水成认为 AI 研究应该聚焦在两个关键维度:一是从 AI 系统维度将 AI 理解为“Almighty Intelligence”(万能智能),二是从 AI 算法维度将其视为“Affordable Intelligence”(可负担智能)。
在 AI 系统研究方面,颜水成强调“
研究即产品
”的理念。他认为大模型研究应该包括语言、多模态、音乐、音频、视频和 3D 等多个维度,并以实际应用为导向。这种研究思路已经在多个领域展现出潜力,比如利用分层推理提升对话系统的能力,以及在音乐生成和短剧制作等领域的创新应用。特别值得注意的是,在短剧创作领域,颜水成认为这可能是 AI 最具想象力的应用空间。他详细介绍了从剧本创作、角色生成、场景制作到最终视频合成的完整工作流程。“虽然目前的效果还不够完美,但我相信在接下来半年到一年时间里,随着各类基础模型的进步,特别是在可控视频生成方面的突破,这个领域会有重大进展。”
在算法研究方面,颜水成指出,要让 AI 真正成为“可负担的智能”(Affordable Intelligence),算法创新至关重要。在很多数学家眼中,机器学习工程师主要做三件事——逼近误差(网络架构)、估计误差(数据/损失函数)和优化误差(参数优化器)。颜水成透露其个人主要更想专注于第一和第三个维度上的研究上,其背后原因是考虑到目
前训练一个大模型动辄需要 6500 万美元,如果能在训练或推理效率上提升 20-50%,就能产生巨大的经济和环境效益。
在具体的算法创新上,颜水成重点介绍了 Skywork AI 在 MoE(专家混合)系统优化上的突破。通过引入“
零计算
专家
”(Zero-computation Experts)的概念,他们成功将 MoE 的计算效率提升了一倍,同时保持甚至提升了模型性能。“我们不仅在 FFN 层实现了这一突破,还将 MoE 思路成功应用到了注意力机制中,创造了 Mixture-of-Head Attention 结构。”
在优化器方面,他们开发的新型优化器在各类架构上都展现出了显著优势,能在继续训练场景下实现 1.5-2 倍的加速。颜水成特别提到了一个有趣的发现:在不同层次的网络中,底层更依赖于困难样本的梯度,而高层则更依赖于简单样本的梯度。这一发现启发了新的训练策略,有望进一步提升模型性能。
“在中国,特别是在训练加速这个领域的研究还比较少,大家都不太愿意投入。” 颜水成指出,“但这恰恰是一个极其重要的方向。从长远来看,只有让 AI 变得更高效、更经济,才能真正实现 AI 的广泛应用,特别是在端侧设备上的智能化转型。”
何恩培:基于双网络架构的数推分离大模型探索与实践
未来的大模型是否有可能在保持高性能的同时,而又让客户能够安全可控和经济适用?这是一个值得深思的问题。传神语联创始人兼董事长何恩培以《基于双网络架构的数推分离大模型探索与实践》为题,首次对外分享了传神在大模型领域的独特探索。他们开发的大模型“任度”是全球首个通过双网络架构实现数推分离的大模型,形成了“双脑”联合推理的独特优势
。
传神是全球大模型领域第一家实现数推分离技术路线的人工智能企业,也是中国人工智能在行业内的重大突破。
何恩培 传神语联创始人兼董事长
何恩培表示,任度幸运地走通了一条独特的路。它从未从主流大模型发展遇到的问题中寻找突破机会,而是自公司诞生起就走在这条路上,一走,就是近 20 年。
回看过去,从 1999 年开始,传神就选择了完全自主研发的道路。在当时开源框架并不流行的背景下,他们开发了自己的神经网络库 zANN。谈及背后原因,何恩培坦言,“这不是因为我们预见到今天的科技形势,而是为了提高开发效率。2015-2016 年主流开源框架出现时,我们也讨论过是否转向开源,但最终选择了继续坚持自主研发。现在看来,这个选择让我们获得了更大的创新空间。就像盖房子,如果地基是别人的,想要改变就会受到很多限制。”
至于后来任度为何会走数推分离路线,何恩培表示,“2021 年我们做法律 AI 助手时遇到过一个问题 ——每天都有新的判例数据产生,不可能每次都重新训练整个模型。”因此,他们基于 moH(
混合商
)架构实现数推分离,推出了“任度”,以此解决大模型领域如何高效处理增量数据这一难题。
双网络架构的核心在于将推理训练和数据处理分开。推理网络负责思维和决策,数据学习网络负责知识获取和存储,两个网络通过共享嵌入层和中间表示层进行协同,形成了一种类似于“主脑”与“辅脑”的高效配合模式,支持独立训练和联合推理。这样的设计不仅避免了额外计算资源的需求和专业人才的大量投入,还能有效防止模型能力随时间退化,同时确保数据的安全性和隐私性,无需客户数据离场训练。
值得一提的是,传神“根原创”任度大模型为双网络数推分离这一创新性架构筑牢了基座。其最大意义在于,从底层算法框架到上层应用都是全技术栈自主研发的成果,未使用任何开源代码和框架,有力保障了技术自主与安全可控。
何恩培特别提到,今年 7 月,他们请中国信通院进行了评测,确认任度是一个“零开源依赖”的大模型 —— 无主流开源大模型依赖、无主流开源机器学习框架依赖、无第三方开源库依赖、无开源许可证依赖、无已知开源安全漏洞风险。在当前复杂的国际形势下,这种技术自主性变得尤为重要。
“开源很重要,可以快速解决当下问题,让我们当下获得更好,但一定要拿出一定资源支持自主的原始创新——根原创,因为自主可控的根原创,是为了未来我们可以长久的活的更好更安全。”何恩培表示,“我相信中国有很多像我们这样的团队在默默耕耘,他们或许还没有站出来,但终将会成为中国 AI 技术发展的重要力量。”
张俊林:OpenAI o1 技术原理解析
两个月前,OpenAI 推出了其最新力作——OpenAI o1,迅速成为了科技界的热点话题。OpenAI o1 最大的亮点在于其具备了类似人类的推理能力,这意味着它能够在处理复杂问题时,不仅仅是简单地匹配已知的数据模式,而是能够在模型内部执行一个类似于“思考”的过程。这种能力让 o1 在物理、数学、生物和化学等多个学科领域的表现力都不错。关于 OpenAI o1 是如何实现这一突破的,新浪微博首席科学家和新技术研发负责人张俊林进行了深入的技术解析,揭示了 o1 模型背后的技术原理和创新。
张俊林 新浪微博首席科学家、新技术研发负责人
张俊林首先从认知科学角度解释了 o1 的重要性。人类大脑有两种思考模式:
快思考(系统 1)
和
慢思考(系统 2)
。传统大语言模型如 GPT-4 类似于系统 1,只能进行快速、直觉式的反应。“它一旦输出某个 token 就不会回头修正,即使发现错误也只能用更多的错误来掩盖,这也是大模型产生「
幻觉
」的重要原因之一。” 而 o1 则通过强化学习实现了类似系统 2 的深度思考能力。
在奥林匹克数学等高难度测试中,o1 展现出了远超 GPT-4o 的表现。“最新版本在奥数测试中能达到 56 分,而此前的模型只有 13 分左右。这种在复杂逻辑推理方面的巨大提升,将为 Coding 等复杂应用带来革命性变化”,张俊林分析道。更重要的是,o1 开创了强化学习 Scaling Law 的新范式。传统的 Scaling Law 认为只要增加模型规模、数据量和算力,模型性能就会持续提升。“但这条路已经接近极限,目前最大的训练数据集也就是 18T 数据,想要获得更多高质量数据越来越困难。” 张俊林指出,o1 通过在推理阶段引入强化学习,开辟了能力提升的新路径。同时,o1 也为小模型发展扫清了障碍。
在探讨 o1 的技术架构时,张俊林认为它很可能借鉴了 AlphaZero 的思路。“在 o1 发布后,OpenAI 团队多次提到他们一直在思考如何将 AlphaZero 的搜索模式引入语言模型。” 他分析,o1 可能采用了连续状态空间(输入问题和已生
成
的思考过程)配合离散行为空间(各种思考模式)的设计,通过强化学习来选择最优的思考路径。
“最关键的创新在于如何将强化学习与语言模型结合”,张俊林解释说,“强化学习负责在高层次上选择思考策略,而语言模型则负责具体的 Hidden COT 对应Token的生成。这种结合让模型既能进行系统性的规划,又保持了语言表达的流畅性。”
对于 o1 是否由单个模型构成的争议,张俊林倾向于认为是多模型协同的结果,最小构成可能是主模型+COT 摘要模型,也可能是主模型+辅助模型池子+COT 摘要模型。
如今 o1 模型这种以强化学习与 LLM 融合构造的新型架构模式已经开始改变整个行业。张俊林以搜索引擎为例,“在 o1 之后,各大搜索引擎纷纷推出'深度搜索'功能,通过将复杂问题分解为多个子问题,对多次搜索结果通过逻辑推理来整合最终答案,这本质上就是借鉴了 o1 的思路。”