专栏名称: Z Finance
我们相信认知能够跨越阶层,致力于为年轻人提供高质量的科技和财经内容。
目录
相关文章推荐
开发者全社区  ·  龙太子的瓜 ·  22 小时前  
进出口银行  ·  助民企 赋新能 | ... ·  昨天  
开发者全社区  ·  一顿饭42w ·  昨天  
开发者全社区  ·  华科大老师的公积金!! ·  3 天前  
51好读  ›  专栏  ›  Z Finance

深度丨阶跃星辰姜大昕分享:从模仿学习到自主发现物理规律,AGI三阶段路线图首次曝光!

Z Finance  · 公众号  ·  · 2025-02-22 16:26

正文

图片来源:阶跃星辰
2 21 日,阶跃星辰在上海成功举办首届 Step UP 生态开放日。阶跃星辰创始人、 CEO 姜大昕在主旨演讲中表示,我们朝着实现 AGI 的目标稳步前进,目前已进入 Agent (智能体)的发展阶段。他指出,智能体的发展依赖于两大关键要素:一是多模态能力,让智能体充分地感知和理解世界;二是推理能力,使智能体能够进行长思维链的慢思考,主动规划、尝试、反思,通过不断纠错提供准确的答案。
以下是姜大昕分享的全文。

姜大昕: 尊敬的各位领导、各位来宾、亲爱的阶跃合作伙伴,欢迎大家来到阶跃星辰生态开放日,今天是我们第一次生态开放日,热烈欢迎大家的到来,也衷心感谢大家的支持。

阶跃星辰是一家大模型创业公司,我们的目标是实现通用人工智能,十倍每一个人的可能。如果是 10 年前我们谈到通用人工智能,也就是 AGI ,那还是一个遥不可及的梦想,然而随着大模型技术的飞速发展,到了今天,越来越多的人开始认为 AGI 未来几年就能成为现实。

大家知道去年的诺贝尔物理学奖和化学奖同时颁给了人工智能领域,这也彰显出人工智能已经成为当下推动科技革命的核心力量。而围绕着人工智能所构建的大的算力基础设施,也达到了前所未有的规模和速度。阶跃从成立之初就规划了实现 AGI 的路线图,具体说来有三个阶段,模拟世界、探索世界和归纳世界。

在模拟世界的阶段,训练大模型的主要范式是模仿学习,学习的主要目标是各种模态的表征,包括从文本,声音,图像,视频一直到 4D 时空的物理世界。这里所要解决的关键问题就是如何用神经网络统一表征,从简单到复杂的各种模态。

当模型学会了表征世界以后,下一步就要培养模型能够解决问题的能力,比如说解数学题和写代码这样的逻辑推理问题,以及泛化到各个领域的复杂问题。

我们知道,对于复杂问题的求解,人脑启动的是一套叫作系统 2 的能力,也就是慢思考的能力。碰到一个难题的时候,通常不是开口报答案,而是分几个步骤,如果思路不对,还会重新探索,直到解决成功为止,如何让模型学会慢思考呢?我们采用的方法就是强化学习。大家一定听说过 alphago ,以及最近大火的 deepseek ,他们背后采用的就是强化学习的方法。智能的下一个境界,就是机器通过自主学习,主动发现物理规律。就像牛顿从苹果落地中发现了万有引力定律,爱因斯坦在头脑中推导出相对论那样,未来的人工智能可以在生物、核能、材料、量子计算等各个领域和科学家一起完成创新。我们把这个阶段称为归纳世界。

当模型学会了表征世界以后,下一步就要培养模型解决问题的能力,比如说解数学题和写 代码这样的逻辑推理问题,以及泛化到各个领域的复杂问题。对于复杂问题求解,人脑启动的是一套叫作系统 2 的能力,也就是慢思考的能力。如何让机器学会慢思考的能力呢?我们采用的方法就是强化学习。大家一定听说过 alphago ,以及最近大火的 deepseek ,他们背后采用的就是强化学习的方法。

智能的下一个境界,就是机器通过自主学习,主动发现物理规律。就像牛顿从苹果落地中发现了万有引力定律,爱因斯坦在头脑中推导出相对论那样,未来的人工智能可以在生物、核能、材料、量子计算等各个领域和科学家一起完成创新。我们把这个阶段称为归纳世界。

阶跃的工作,正是沿着这三个阶段展开,在去年一年时间里,我们发布了一系列模型,形成了从千亿参数到万亿参数,从语言模型到多模态模型,从多模理解到多模生成,从模仿学习到强化学习的全方位模型矩阵,涵盖了这种路线图里的多个关键节点。

限于时间的关系,下面我们就选择其中的一小部分向大家做一个汇报。

在春节期间,最火热的就是两件事情,一件就是哪吒 2 ,另一件是 deepseek Deepseek 开源了最强大的语言模型,为整个的 AI 社区做出了了不起的贡献,于此同时,开发者也热情的探讨,在多模态领域,是不是也能够推出非常强大的多模态模型,那么阶跃星辰在多模态领域有着深厚的积累,也创建了强大的模型。

我们在近期发布了两款多模态的大模型,首先是我们的文生视频模型,它的参数量达到 300 亿,可直接生成 204 帧、分辨率 540P 的高质量视频,大家其实在开始的时候看到了视频的集锦,就是我们的视频模型开源以后,全世界的开发者在 24 小时内创作的各种视频所串联的结果,我们看到所生成的视频背后的模型在指令遵循、运动平滑性、物理合理性、美感度等方面的表现均超过已有的开源视频模型。其实,它也是 300 亿模型,是目前世界上参数量最大的模型,现在用户可以免费下载模型,也可以来到跃问的网页端,或者是下载跃问 APP 体验生成的效果。

开源之后,收到了开发者很多反馈,期待我们进一步开发图生视频的模型,这里我也预告一下,阶跃星辰将在 3 月份会开源图生视频,敬请大家关注。

除了视频生成以外,我们还开源了语音模型 Step-Audio 是行业内首个产品级的开源语音交互模型,它的参数量达到了 1300 亿,在 LlaMA Question Web Questions 等几个主流公开测试集中, Step-Audio 模型性能均超过了行业内同类型开源模型。值得一提的是,它在汉语水平考试中的表现尤为突出,是最懂中国话的开源语音交互大模型。

大家同样可以免费下载这个模型,或者来到我们的跃问 app 里体验这个语音模型的效果。我们衷心的希望通过这两款大模型的开源,能够助力开发者创造出更丰富更多彩的应用。

模型开源以来,得到了广泛的关注, 在产业侧,有更多的伙伴加入了我们的开源生态,包括技术社区、创作社区、芯片、云厂商、产业方等,特别是在 3 天前,我们与吉利官宣了联合开源多模态大模型的进展;在用户侧,我们的开源模型受到了广泛用户的追捧,海外各平台曝光量近千万;在技术社区层面, Github 收藏数的增速也远超同类知名模型。所以我们不仅感受到了开源的意义,更希望持续贡献开源力量。

除了开源模型之外,阶跃的视觉理解模型一直保持了领先的性能,成为众多 agent 开发者选用的主力模型。阶跃的视觉理解模型也在各大主流榜单上也长期名列前茅,比如在 1 月份的 lmsys opencompass 上位列国内第一。

下面和大家汇报一下阶跃在推理模型方面最新的探索, open-reasoner-zero ,所谓推理模型,是指它背后也采用了和 openai o 系列模型以及 deepseek r1 模型相类似的强化学习算法。

这里我们一个比较有趣的观察是,只用最基本的 PPO 算法和基于规则的奖励函数,就能激发模型的长思维链的思考,并且有效的提高推理能力。

同时在 gpqa 这个数据集上,我们的方法仅用 4% 迭代次数,就超越了相同尺寸模型采用 deepseek r1 zero 方案的分数,也就是说,训练的效率提高了 25 倍。

我们把这一观察背后的所有实验结果、代码、数据以及论文都打算开源,希望和社区分享这一学术成果。这里也和大家透露一个阶跃内部正在研发的项目,就是视觉推理模型。目前的视觉理解模型还停留在系统一的阶段,也就是快思考的模型,然而视觉和文本一样,遇到复杂问题,还是需要思维链和慢思考能力的。比如这里的例子,沿着蓝色箭头行走我能到达哪个商店。我们要解决这个问题,这需要一步步跟着蓝色箭头移动,是一个慢思考的过程。

如何把强化学习的方法引入到视觉领域,实现在视觉空间下的慢思考,这是一个前沿的问题,我们正在这个方向上努力。模型技术日新月异的发展,让人们对应用也充满了期待。过去的两年中,大家探索了非常多的方向。然而什么是大模型时代的超级应用,这个在行业内也并未达成共识。时间到了 2024 年下半年的时候, agent 这个词变得越来越热,现在大家都在谈论 agent

什么是 agent 呢?其实业内也没有一个标准定义,这里我想突出 agent 最重要的特点是能够自主地帮助人类完成复杂任务。所谓自主,顾名思义有两层含义,一个是自动一个是主动。自动,就是 agent 在执行任务的时候尽可能自动完成,减少或无需人类干预。所谓主动 , agent 能根据用户所处的环境,也就是用户的 context 主动发起任务而不仅是被动接受任务。要达成自主完成复杂任务这个目标还需要有一些辅助的属性,例如外部工具的能力,具有长期短期记忆能力,等等。

Agent 还可以分为不同的种类,比如垂直领域的 agent 以及智能终端上的 agent 。今天的我们生态大会的主题就是 agent ,后面会看到很多不同领域不同类型的 agent

为什么 Agent 这个概念会在眼下这个时间点变得火热,以至于很多人认为 2025 年会是 agent 的元年?我想这是因为 agent 爆发需要两个必要条件,一个是多模态的能力,另一个是慢思考能力。而这两个能力在 2024 年的时候都取得了突破性的进展。

首先多模态能力是让智能体充分的感知和理解这个世界,这样一来就能更好的理解用户的任务。我们来看一个演示。这段视频中 agent 可以流畅的和用户进行语音交流,这里用到了我们的语音大模型的支持。更有趣的是他可以看到用户所处的环境,理解这个环境中发生了什么,比如它可以告诉用户目的地就在这条街的尽头,还能提醒用户现在是红灯要注意安全,这就需要视觉理解模型的支持。所以通过这个例子可以看到,多模态能力对于 agent 的输入输出是非常重要的。

除了多模态能力,想要让任务的完成率更高, Agent 还需要强大的推理能力,也就是慢思考的能力。比如在金融领域,我们经常需要解读新闻内容,分析事件影响并找出关联的板块和股票。我们和财联社合作研发的小财神这个 Agent 可以帮助完成这个任务。我们来看一个演示。

在这个演示中,用户输入了一个关于超导量子计算机的新闻,希望 agent 做一个解读。 Agent 首先查找金融数据库,然后分析这个事件的背景和意义,接下来再分析这个事件对各行业,产业链和公司的影响,然后分析对股市的影响,在分析的同时还要告诉一些注意事项,最后形成一个完整的报告。所有背后这一系列动作的就是慢思考的过程,就是阶跃的新一代推理模型,它的原理和 open ai o 系列模型以及 deepseek r1 模型是一样的,都是采用了强化学习的方式。

现在机器的思考能力比较弱,只能思考几十秒钟,最多几分钟,随着模型能力的增强,思考的时间越来越长,范围越来越宽广,意味着我们距离 AGI 的目标越来越接近了。

前面讨论了 agent 的特点以及核心能力,阶跃基于自主研发的强大模型矩阵,和我们的合作伙伴一起打造垂类 agent 以及智能终端 agent 。今天我们很高兴的邀请到了来自金融领域,内容创作,新消费以及数字人领域的合作伙伴的代表,以及我们非常优秀的 c 端开发者的代表。在后面环节中他们会和大家分享打造垂类 agent 历程、经验和收获。除了垂直领域的 agent ,还有智能终端上的 agent 。可能每个人都希望有一个 Jarvis ,这一愿望在不久的将来就能实现了,无论是 AI 手机和







请到「今天看啥」查看全文