专栏名称: 六合商业研选
六合咨询立足新经济,挖掘明日之星,发现价值,传播价值;国际化视野、多角度观察、深度思考、体系化研究,持续提升研究广度与深度,全面覆盖一级、新三板、二级(A股+美股+港股);深度剖析优质企业商业模式与投资价值,前瞻性洞察行业本质与发展趋势。
目录
相关文章推荐
津云  ·  “王子请恢复健康,永不复发!” ... ·  21 小时前  
TGB湖南人  ·  DeepSeek带来的AI平权全面落地 ·  22 小时前  
共同体Community  ·  深圳市第三儿童医院,开业时间定了! ·  22 小时前  
共同体Community  ·  深圳市第三儿童医院,开业时间定了! ·  22 小时前  
资中交警  ·  平安春运 交警同行 | ... ·  3 天前  
资中交警  ·  平安春运 交警同行 | ... ·  3 天前  
51好读  ›  专栏  ›  六合商业研选

【长期主义】第301期智能说:杨植麟、姜大昕、朱军探讨大模型技术路径,对话英伟达科学家Jim Fan

六合商业研选  · 公众号  ·  · 2024-09-28 06:30

正文


2024年9月19日,2024云栖大会,阶跃星辰创始人姜大昕、月之暗面Kimi创始人杨植麟、生数科技首席科学家朱军,与极客公园创始人张鹏一起,探讨各自眼中AI技术发展的现状,推演未来18个月,大模型行业会发生什么。

2024年9月17日, 红杉美国发布英伟达高级研究科学家Jim Fan专访,探讨具身智能、机器人技术、虚拟世界的未来。Jim Fan表示,英伟达正在押注具身智能与人形机器人技术发展。他认为,未来10年内,人形机器人将达到甚至超越人类敏捷性与可靠性,目标是为日常生活开发可以承担家庭琐事,极大提升生活质量与经济价值。


本期长期主义,选择杨植麟、姜大昕、朱军对话,Jim Fan专访纪要,Founder Park、有新Newin发布,六合商业研选精校,分享给大家,Enjoy!

正文:

全文21,843字

预计阅读44分钟

o1 发布后,信息量最大的圆桌对话:杨植麟、姜大昕、朱军探讨大模型技术路径

时间:2024年9月19日

来源:Founder Park

字数:10,018

2024云栖大会,阶跃星辰创始人姜大昕、月之暗面Kimi创始人杨植麟、生数科技首席科学家朱军,与极客公园创始人张鹏一起,探讨各自眼中AI技术发展的现状,推演未来18个月,大模型行业会发生什么。

AI 发展速度太快

张鹏:OpenAI发布到现在快2年,这2年里引发整个世界对AI的讨论。各位都是大模型创业者,你们感受是怎样?

我们是在看游戏,你们在打游戏,感受可能会很不一样。过去18个月,AI技术发展在减速吗?

姜大昕 :我觉得过去18个月是在加速,速度还是非常快。

过去18个月里发生的大大小小AI事件,我们可以从两个维度看,数量、质量。

数量上,每个月都有新模型、新产品、新应用涌现出来。单说模型,OpenAI 2月发的Sora,过年期间把大家轰炸了一下,5月出GPT-4o,上周又出o1。

OpenAI老对手Anthropic,它有Claude 3、3.5系列,再加上Google Gemini系列、Groq、Llama……

2023年,我们体感是GPT-4一家独大、遥遥领先,2024年变成群雄并起、你追我赶局面,各家肯定是在提速。

质量角度看,我觉得有三件事情给我印象非常深刻。

第一、GPT-4o,多模融合领域上了新台阶。

之前有视觉理解模型GPT-4v,视觉生成模型DALL-E、Sora,声音模型Whisper、Voice Engine,4o把孤立的模型能力融合在一起。

为什么融合非常重要?我们物理世界就是多模态, 多模融合有助于我们更好为物理世界建模,更好模拟世界。

第二、特斯拉FSD V12,端到端大模型,它把感知信号直接变成控制序列。

我觉得自动驾驶非常有代表性,它是从数字世界走向物理世界的真实应用场景。 FSD V12的成功意义,不仅在自驾本身,可以说这套方法论为将来智能设备如何与大模型结合,如何更好探索物理世界指明方向。

第三、o1,第一次证明语言模型也可以有人脑的慢思考,也就是系统2的能力。

我们一直认为AGI演进路线,分为模拟世界、探索世界、归纳世界。系统2的能力,正是归纳世界的前提条件。

过去几个月时间,GPT-4o、FSD V12、o1分别,在这三个方向上,都取得非常大的突破,为将来发展指明方向。我觉得无论是从数量,还是质量,都是可圈可点。

张鹏:感觉你在你期待领域里,都看到广泛突破与进展。植麟体感怎样?投身其中的人,可能会跟我们外边看游戏的人不一样。

杨植麟 :我觉得整体处于加速发展阶段,AI发展核心,可以从两个维度看。

第一,纵向维度,智商一直在提升,体现上还是看文本模型能做到多好;

第二,横向发展,除了文本模型之外,刚才提到多模态,这些模态是在做横向发展,它让模型具备更多技能,能够完成更多任务,同时跟纵向智商发展相结合。

这两个维度上,我都看到常大的进展。

纵向维度上,数学竞赛能力,2023年完全不及格,2024年,已经能得到90多分。

代码也一样,现在能击败很多专业编程选手。

产生很多新的应用机会,比如现在流行的开源AI编程助手Cursor,能通过自然语言直接写代码,未来这样的软件,会越来越普及。

很多具体技术指标,比如现在语言模型能支持上下文长度,2023年大部分模型只能支持4~8K上下文。今天4~8K已经是非常低了,128K是标配,很多已经可以支持1M,或者甚至10M上下文长度,它也是智能不断提升的重要基础。

最近很多进展,不光只是在做Scaling,很多进展来自后训练的算法优化、数据优化,这些优化周期会更短,更短的优化周期,会导致整体AI发展节奏进一步加快。

横向上,也产生很多新突破。

Sora可能影响力最大,它完成视频生成,最近也有特别多新产品与技术出来,比如现在已经可以通过一篇论文,直接生成一段真假难辨的Podcast双人对话。未来类似这样不同模态之间转化、交互与生成会变得越来越成熟,我觉得整体在加速过程中。

张鹏:感觉这些技术还在加速扩展,可能没有长出Super APP,如果抛掉Super APP视角,看技术,反而能看到它真正进展,这可能是更理性客观视角。

朱军老师,你怎么总结这18个月?你觉得AGI技术,经历什么样的发展?

朱军 :AGI里,大家最关注的还是大模型,大模型方面,从2023~2024年,发生很多重要变化,我非常同意整个进展在加快。大模型解题速度变快,学习曲线learning curve变得更陡。

大语言模型,从2018年到现在,发展过来,走了6年,2023年下半年,大家开始讨论多模态,2024年初,只过了半年时间,多模态大模型时空一致性,已经让大家震惊。这种加速最核心原因在于,大家对路线认知与准备,达到比较好程度。

物理条件,比如云设施、计算资源的准备也在加速。ChatGPT刚出来时,大家不知所措,很多人没准备好接受它,花了很长时间学习与掌握。当我们接受与掌握它之后,再去解决新问题,发展速度越来越快。

能力辐射到实际用户身上,有快慢之分,也分行业。可能在广泛角度上,大家没感知到能力的进步,从技术来说,进步曲线越来越陡。我对高阶AGI发展比较乐观,发展速度会越来越快。

o1 提升AI上限,带来新范式

张鹏:外界有人说,AGI怎么发展变慢,三位反应好像是:你还想要怎样?它的发展进程,在18个月里,已经让我们每个人目不暇接。

OpenAI 新模型o1,在专业人群里产生非常大影响,现在还有很多讨论。先问大昕,你怎么看o1?很多人认为,这是AGI发展阶段一个重要进步,我们到底怎么理解这个进步?

姜大昕 :我看到一些非共识,有些人觉得o1意义很大,有些人觉得o1不过如此。我试用o1第一印象是,它的推理能力非常惊艳。我们自己试了很多测试问题,觉得推理能力上了很大台阶。

它背后意义究竟是什么?我能想到有两点。

第一、o1第一次证明LLM可以有人脑慢思考,也就是系统2的能力。

以前GPT训练范式,是预测下一个token,注定它只有系统1的能力,o1用了强化学习这样新的训练框架,带来系统2的能力。

系统1是直线型思维,我们看到GPT-4可以把一个复杂问题拆解成很多步,分步解决,它还是直线型。

系统2与系统1,最大区别在于,系统2能够探索不同路径,可以自我反思、自我纠错,不断试错,直到找到正确途径。

这次o1,把以前模仿学习与强化学习结合起来,模型同时有人脑系统1与系统2的能力,我觉得从这个角度看,它的意义非常大。

第二、带来Scaling law新方向。

o1 试图回答一个问题是:强化学习究竟怎么泛化?

o1不是第一个做强化学习,DeepMind一直在走强化学习路线,从AlphaGo到AlphaFold到AlphaGeometry。DeepMind在强化学习上非常厉害,以前这些强化学习都是为特定场景设计,AlphaGo只能下围棋,AlphaFold只能预测蛋白质结构。

o1 重大意义,是让强化学习通用性与泛化性,上了大台阶。o1已经Scale到很大的规模,我认为它带来Scaling技术新范式,不妨称之为RL Scaling。o1不成熟,还是一个开端。这点恰恰让我觉得非常兴奋,这等于OpenAI跟我们说,我找到了一条上限很高的道路,仔细思考它背后方法,会发现这条路能够走下去。

o1 从能力上,展示LLM可以有系统2的能力,技术上带来新Scaling范式,我觉得它的意义非常大。

张鹏:听起来,说现在有非共识,感觉你是非常看好,非常认同的。朱军老师怎么看,o1带来这一阶段的进展,你怎么评价它的意义?

朱军:我看法是,它代表显著的质变。

我们对AGI大概做过一些分级,学术界与产业界有L1~L5的分级。

L1,相当于聊天机器人,类似ChatGPT等,之前大家做了很多对话。

L2,推理者,可以做复杂问题深度思考的推理。

L3,智能体,数字世界走向物理世界,要去改变,去交互。

L4,创新者,要去发现、创造一些新东西,或者发现一些新知识。

L5,组织者,它可以协同,或者有某种组织方式更高效运转,

这是大家对AGI L1~L5的分级,每一级也有narrow与general区分,现在在某些任务上可以展示出来。

比如o1在L2的narrow场景下,在一些特定任务下已经实现,可以达到人类很高阶智能水平。我觉得从分级角度看,它代表整个行业巨大进步。

技术上,过去强化学习或者其他一些技术,在研究里已经做出很多东西,但能在大规模基座模型上Scale up,做出效果,从工程或者从实现上,对行业是很大的触动。

它也会触发或者激发出很多未来探索,或者实际研发,可能会走向从narrow到general的跃迁。

这个速度,我相信会很快,大家已经有很多准备,我期待这个领域有更多人将L2做得更好,甚至实现更高阶效果。

张鹏 :感觉你对这个定义已经很高,你看到AGI L2层面,显著明确的路径与阶段性成果,之前都在L1层面。要到大家期望的拥抱改变物理世界,最终还要往前走,到L3,可能这件事就真的会完整、系统性发生。

回到植麟这边,这次发布o1之后,Sam Altman热情洋溢说,我们认为这是一次新范式革命。Sam很会演讲,很会表达。我想听你怎么看,怎么理解他说的这是一次新范式变革,你是否认同?

杨植麟 我觉得它意义很大,主要意义在于提升了AI上限

AI上限是说,能提升5%~10%生产力,还是10倍GDP?

我觉得这里最重要问题是,能不能通过强化学习进一步Scaling,我觉得o1是完全提升AI上限的东西。

如果我们看AI历史上70~80年发展,唯一有效的是Scaling,加更多算力。

o1出来之前,有很多人在研究强化学习,没有一个非常确切的答案,强化学习如果与大语言模型,或者与pre-training、post-training整合在一起,它能不能持续提升?

比如GPT-4这一代模型提升,更多是确定性提升,在一样的范式下把规模变得更大。

o1 的提升,不是一个完全确定性的提升。

之前,大家可能会担心数据墙问题,现在互联网上大部分优质数据已经被使用完,没有更多数据可以挖掘,原来范式可能会遇到问题。

AI有效了,需要进一步Scaling,这个Scaling从哪里来?

o1很大程度上解决了这个问题,或者说至少证明初步可行。初步可行情况下,可能会有越来越多人投入做这个事情,最终要做到10倍GDP的效果,它完全有可能,是一个很重要的开端。

对很多产业格局,或者对创业公司的新机会来讲,也会发生一些变化。比如这里很关键的一个点是,训练与推理算力占比,会发生很大变化,这个变化不是说训练的算力会下降,训练的算力还会持续提升,与此同时,推理的算力提升会更快,这个比例的变化,本质上会产生很多新机会,会有很多新的创业公司机会。

一方面,达到一定算力门槛的公司,可以做很多算法的基础创新,甚至可以在基础模型上取得突破,我觉得这个很重要。

对算力相对小一点的公司,也可以通过后训练方式,在一些领域做到最好效果,也会产生更多产品与技术机会,整体打开创业相关的想象空间。

张鹏 :这一次核心的范式变化,带来的是在Scaling law上解决我们接下来Scale what,我们看到新的路径,未来可拓展的创新路径空间与探索东西变多,而不像原来,是一个收缩,甚至是遇阻的状况。

推理能力泛化路径不明确,是一个新的技术变量

张鹏:朱军老师,今天在阶段性、比较明确的一些场景里,把RL加到体系里,成为新范式后,我们能看到明显泛化这个能力的路径吗?

朱军 :这个问题很值得思考,现在它先是在一些任务上能取得突破,我们再想着把它做到更广泛任务上,或者有更广泛能力提升上。

目前看,o1没有完全告诉我们技术路线怎么做。

张鹏 :明显没有ChatGPT出来前open。

朱军 :本身科研积累解读,能看到它到底用了哪些技术。

这里有个很重要的问题,叫过程监督的数据,它与之前的结果直接output的监督,不太一样,要对里面每一步都去标注,比如思考的过程,获取这种数据,首先可能比较难,需要专业的人做专业的高价值数据。

实际做的过程中,包括大家之前看AlphaGo迁移到其他领域,面临同样问题,在更泛化,或者更开放场景下,奖励模型Reward Model(用来评估与奖励智能体行为的模型,决定智能体如何学习与优化决策)不好定义。

比如说,现在有确定答案的定理证明或者是编程问题,Reward是比较明确的,奖励函数很容易定义。

如果到自动驾驶、具身,或者艺术创作里面,比如生图、生视频,这里的界定比较模糊,可能很多场景下,很难清晰定义到底什么好,什么不好,可能很多问题不是是与非的问题,比如像生成式内容,对美学或者对其他评价,每个人感受不太一样。

这种情况下,要去泛化,技术上面临很多问题,我怎么定义Reward Model,怎么收集数据,包括怎么高效实现,给它Scale up。

现在大家看到这条路,相当于已经看到曙光,引导大家朝这个方向努力。

结合现在比较强大的基座模型,可能比之前上一代AlphaGo迁移到其他领域里,我相信会更快,包括像一些开放领域,我们有更好模拟器,甚至包括一些AGI的生成方式来构建这个环境。这些加持在一起,我想这条路会走得更快一点,会比之前更容易取得效果与提升。

张鹏:今天还没有看到公开、明确,可以确定性把这个泛化完成的路径,它存在探索的空间与足够可能性。

追问植麟,这个状态对像你们这样创业公司,是好事还是坏事?

杨植麟 :我觉得这是很好的机会,等于有了一个新的技术变量,一个新的技术维度。

这个我们之前或多或少也有一些投入,现在可能它会变成一个主题,这个主题下,我们会有非常多新机会。

一方面,是朱军老师提到的怎么泛化的问题;另一方面,这个过程中还有一些基础的技术问题没有被完全解决,底层涉及训练与推理,这两个东西要同时Scaling,很多问题,今天还没有被完全探索清楚,包括刚才提到过程监督的问题,中间一些幻觉也会给它效果带来很大伤害,这些问题都很值得研究。

如果能做好,可以把现在很多能力提升一个台阶。

对我们来讲,可能会有更多通过技术创新,形成一些突破的机会。

张鹏 :有不确定是好事。有确定方向与不确定路径,对创业公司是好事,否则没有创业公司的事。

新范式对算力需求更大

张鹏:过去我们说算法、算力、数据,这三个都是谈AGI时关键三角,这次看起来,算法层面有些范式变化,反过来对算力、数据,这个三角形会怎么产生连锁反应,能不能帮我们推理一下?

姜大昕 :我觉得算法、算力、数据,这个连锁的铁三角关系没有改变。

RL是算法上改变,对算力造成的结果中,有一个是确定的,有一个大概率会确定,还有一个是目前不太会确定的。

确定的是,推理侧,它对计算的需求量肯定成倍提升,这就是OpenAI在博客里提到的Test-Time Scaling。 它对推理芯片能力要求肯定是提高了,可想而知,OpenAI在o1背后可能是用了H100做推理,一个问题往往要消耗十几秒、几十秒时间,我们要加快速度,对推理芯片要求也会提高。

一个大概率会确定的事是,在训练RL阶段,我们所需要的算力可能不比预训练少,这可能是一个非共识。

RL的阶段,我们做 自我对弈 self-play,这个数据量理论上可以没有上限,我们听说OpenAI在训练Strawberry模型时用了上万张H100,训练几个月,现在还是o1的preview,训练还没有完成,训练的代价非常高。

如果我们追求的是通用,有泛化能力的推理模型,而不是为某个特定场景所设计的RL模型,可能训练所需要计算量并不小。

还有一个我不太确定,在self-play时,我们用了主模型,它的参数量要不要再继续Scale,让它产生更好的推理路径。

现在大家有一个普遍观点,GPT-4到万亿级参数后,你再去Scaling它的参数,它的收益边际是在下降。

如果RL方法产生放大器作用,它能加倍你的收益,是不是总的收益ROI又打正?这是不太确定的事,可以留在后面验证。

如果这个结论成立,算力增长又回到平方的维度,计算量=参数量×数据量,我感觉是,RL带来的,不管是对推理侧、还是算力侧,它对算力需求都在增长。

数据测,RL阶段有两种数据,一个是少量人工合成的数据,二是海量机器生成的数据。数据量可以很大,数据质量非常关键,怎么构造生成数据的算法,self-play用的主模型能力变得非常关键。

模型输出变慢,怎么向用户交待

张鹏:三位都是创业者,有自己团队。

植麟,Kimi在2024年引发很多关注,产品发展得很好。你觉得这一波AI新变化,接下来会对AI相关产品,带来什么样连锁反应,这个变化会如何发生?

杨植麟 :我觉得我们现在处于产业发展早期,这个阶段技术驱动产品会更多,很多时候,产品需要看当前技术怎么发展,去把最大化价值提取出来。

我们可以根据新的技术进展,反推一下,现在产品应该做什么变化。

现在技术发展,有几个点:

第一、会有很多探索新PMF的机会。 PMF是两方面平衡,一方面是大模型需要做系统2的思考,导致延时增加,这个延时增加,对用户是一个负向体验,所有用户都希望能尽快拿到结果。

第二、它能提供更好输出,能拿到更好结果,能完成一些更复杂任务。 我觉得新PMF探索的过程,是要在延时增加,带来用户体验下降与结果质量更高的用户价值上升之间,找到一个平衡点。

要让增量价值大于体验损失,我觉得很重要,在一些更高价值场景,特别是生产力场景,可能率先会有一些东西出来,如果是娱乐场景,用户很难忍受延时上增加。

我觉得产品形态上,可能也会发生一些变化,引入思考范式。现在即时类似聊天的产品形态,一定程度上会发生变化,以后AI可能会思考20秒、40秒,或者调用各种工具。它会执行分钟级别、小时级别,甚至天级别任务,产品形态上会更接近一个人,更接近真实的Assistant或者助理,帮你完成一个一个任务。这里面产品形态的设计,我觉得会发生很大变化,新的想象空间蛮大。

推理能力会向物理世界落地

张鹏:我们看到AGI领域有一些其他变化,比如李飞飞在推空间智能,也看到自动驾驶、机器人等具身智能方面变化。

想问朱军老师,在AI相关条线里一些技术进展,会对未来产品,或者说技术最终落到产业里有什么明确推动?

朱军 :大规模预训练技术,代表着整个范式变化。不光是从语言到多模态,再到具身智能,或者李飞飞空间智能,重点还是怎么让智能体能够有交互,能够在交互过程中学习。

智能角度看,这是必然,决策交互是智能里非常核心能力的体现,人类每时每刻都在做决策。 我们面对的是未知的开放环境,对智能来说,它的发展路径规划里,也是朝这个方向在走。

现在所有进展,包括o1、视频生成、3D,这些东西最后,指向两个方向:

一个是给消费者看到的数字内容,看上去很好看、很自然,能够讲故事,能够让大家参与讲故事、能够交互。数字内容上,这肯定是很重要的方向。

一个方向,指向实体、指向物理世界,这一定是生产力的提升。

不光给我们做一些好看的东西,或者好玩的东西,最终还要与物理世界结合。 这其中可能最好的结合点是与机器人结合,现在已经有好多例子,我们看到很好的一些进展,比如用预训练范式让机器人能力具有通用性。

我们自己实验室做过一些例子,类似四足机器人,过去让它跑起来,需要用很多人工调参。现在,在一个仿真环境里,或者用一些AI方式来生成一些合成数据,让它在里面大规模训练,训练出来的策略,可以灌到机器人,相当于换了一副大脑,可以让它四肢更好协同起来,同样一套策略,可以做各种场地适应。

这还只是初步的例子,现在大家也在关注更复杂的控制决策,像空间智能、具身智能等。

智能体是AGI的L3,现在到L1、L2的进展后,后面肯定会提升到L3,让机器人更好做推理规划,更高效与环境做交互,更好完成复杂任务。

现在很多任务,相对来说还是会进行分解,定义成一个简化的。

未来,通过它内嵌的思维链,或者过程的学习方式,能够完成复杂任务。到那时,智能的能力,又有很巨大的提升。

谈卡伤感情,没卡没感情

张鹏:大昕,之前你们花很多成本做基础模型,多模态模型,参数也要做得很大,都让人觉得要捏把汗,要花很多资金,还会经常遇到问题。

过去18个月,包括o1出来,对你心态有什么影响?未来作为创业公司,是有更大创新空间,有了更让人兴奋的可能性吗?

姜大昕 :我觉得两个角度看,一个是创新的点,RL与前面范式不太一样,GPT范式是predict next token,2018年GPT-1出来,一直到GPT-4,除了加混合专家模型MOE以外,没有什么太多新东西。

o1我觉得还是初始阶段,刚才谈到强化学习究竟怎么与大模型结合,能够做到泛化,我觉得里面有非常多问题值得探索。

刚才植麟谈到Reward Model,包括在做搜索路径时,需不需要人工干预,帮它找到更好路径等等,self-play题目从哪里来、答案怎么找,这些都是一些新的未知领域,要去探索。

我相信未来一段时间里,肯定会有很多加速,一定是这样一个趋势。对我们创业公司,在创新方向上,肯定有很多机会。

一方面,我认为在推理侧、训练侧,需要的算力还是不小,尤其当我们追求通用性能够泛化的推理模型时,所需要的算力不小。

我们内部也有调侃,谈卡伤感情,没卡没感情,后面又加了一句,用卡费感情,如果我们所要追求的目标是AGI,付出再多,还是要坚持下去。

张鹏:过去觉得如果按照Scaling law继续往下走,玩家会变得越来越少,对资源比拼要求太高。

现在,你觉得对于资源的门槛,有降低吗?还是说,继续要拼算力上的资源?

姜大昕 :我觉得分成两种不同创新,一种是基础模型,奔着AGI去,要做通用的泛化新能力强的,这个投入还是很大,我们看到国外巨头都是1年千亿美元的规划。

一方面,我觉得做应用,有大量创新空间。

我们本来觉得GPT-4展现出来的智能,加上智能体Agent框架,已经能够解决很多问题,一个是数字世界的问题,一个是物理世界的问题。

2024年,o1出来后,强化学习泛化到更高的阶段,上限变得更高,这里还是有大量机会。

做AI应用,找ChatGPT弱点

张鹏:植麟,今天能不能换个身份,假定今天不是创业者,是个有技术背景,对AI很了解的投资人。你今天会看创业者什么数据,作为投资决策?

杨植麟 :首先DAU这些数据,肯定是重要指标。

然后,可能分成几个层面。

第一、作为创业者,做一个产品,首先要有价值,或者满足用户真实需求。

这个跟AI没太大关系,产品本身需要满足这些属性,可能又有更多前置指标,比如留存,这个还是最重要的。

第二、跟AI更相关,不光要有价值,也要有增量价值。

相比市面上已有AI产品,或者说更通用的AI产品,类似ChatGPT,能产生增量价值,产生在ChatGPT里做不了的事,或者说做起来体验很差的事,这个会有很大增量价值,比如说最近很火的Cursor就是例子。

一般增量价值,会来源几个方面,一方面,可能交互完全不一样,或者不同入口,有可能背后对应不同资源。通过这种方式产生增量价值,我觉得可能会是很重要的事情。

第三、不光有增量价值,还要随着技术发展,市场规模应该越来越大,而不是越来越小。

如果目前产品有一定PMF,还没有泛化到很主流的群体,有可能技术不够强,这时再搭配上第二点,有增量价值,这个市场越来越大,它可能是一个好的AI创业机会。

张鹏 :听起来是,数据要看,在看数据之前,先看逻辑,产品存在的逻辑,如果它成立,数据又能证明,就是值得投的公司。

朱军:18个月,在L4取得进展

张鹏:下一个18个月里,期待看到什么样进展?AGI领域里,第一你觉得会很兴奋,第二你觉得它是有可能的事情。

朱军 :我希望看到L3已经实现。

AGI的L3,至少在智能体、世界模型的创建生成、虚实融合,在一些特定场景下的决策能力有巨大提升,它会利用我们今天讲到的推理、感知等。

张鹏 :特定场景里,不是copilot,而是autopilot了。

朱军 :我觉得可能在某种意义上会达到这种能力,至少在一些特定场景。

我们前一段时间对L4做了专门分析,发现如果要做科学发现或者创新,需要的能力,目前散落在各个角落,现在没有一个系统,把这些整合在一起。

如果更激进一点,我甚至觉得未来18月,可能在L4上也会有显著的进展。 这里主要说的是严肃科学,L4还有创意表达的部分,某种意义上已经达到,比如像艺术创造、图生视频,一定程度上帮大家放大想象,或者是让想象可以具象化。我对整个发展较乐观,至少L3,或者L4有一些苗子。

张鹏:2024年底之前,你自己的事上有什么进展,能提前透露?

朱军 :2024年底,希望将我们视频模型能够以更加高效、更可控方式提供给大家。

高效与可控主要是指,表达一个故事,不是简单让一段话或者一张图片动起来,我们希望它可以连续的讲,不光是人的一致性,还包括像物体等各种主体一致性,包括交互性。

高效,一方面是解决对算力成本的考量,如果想服务更多人,让大家用,首先成本要降下来,不然还是烧钱、一直赔钱。

一个更重要的还是体验上,对使用者,想表达自己创意,需要多次与系统交互,一方面验证,是获得启发,这个过程需要模型能够比较高效,比如说终极目标是实时,让大家能快速尝试。

到这个阶段,我相信用户体验、用户量,都会有巨大提升,这是2024年我们重点想突破的。

杨植麟:开放性的强化学习、自我进化

张鹏:3个月目标,与18个月对未来的期待,都很明确。

植麟,可以说说18个月,也可以讲讲未来3个月会有什么进展。

杨植麟 :我觉得接下来最重要的milestone,是开放性的强化学习。

比如在产品上跟用户交互,在真实的环境里面完成任务,自己进化。

o1已经一定程度上说明这个方向比之前有更强确定性,这个会是重要里程碑,可能也是AGI路上仅剩,甚至唯一的一个重要问题,我觉得这个会很关键。

张鹏:这个关键问题,你期待未来18个月有突破与进展?

杨植麟 :应该是能看到很多进展。

张鹏:未来3个月,有什么可以透露的。

杨植麟 :我们望能在产品与技术上持续创新,至少在一两个重要领域,能够做到世界最好,有新的进展尽快跟大家分享。

姜大昕:多模融合,通向世界模型

张鹏:大昕你怎么看18个月与未来3个月。

姜大昕: 第一、我也很期待强化学习能够进一步泛化。

一个方向我很期待,视觉领域理解与生成一体化。文字领域,GPT已经做到理解生成一体化,视觉领域非常难。

目前为止,我们看到的视觉模型,理解与生成是分开的,即使多模融合的GPT-4o,其他模态都解决,唯独不能生成视频,这是悬而未结的问题。

为什么很重要?如果我们解决视频理解生成一体化,就可以彻底建立多模的世界模型,有了多模的世界模型后,可以帮助我们生成非常长的视频,解决Sara目前技术缺陷。

还有就是,可以与具身智能结合,作为机器人的大脑,帮助智能体更好探索物理世界,这个我非常期待。

张鹏:2024年底之前,你这边有什么值得期待的进展?

姜大昕 :一方面期待模型或者技术进步,一个是产品能够带给用户更多更好体验。

阶跃有一款产品叫跃问,用户可以在上面体验到我们最新万亿参数模型,它不光是理科很强,文学创作能力也很强,经常给大家带来一些惊喜。

跃问上,还有一个新功能是拍照问,用户经常拍照片问食物卡路里,问宠物心情,问一个文物前世今生等。

包括Meta眼镜发布,还有Apple Intelligence,都突出视觉交互功能,我们在跃问上也有体现,我们会努力一步步把这个功能做得越来越好。

红杉美国对话英伟达科学家Jim Fan:10年内,人形机器人将超越人类敏捷性与可靠性,所有可移动东西终将实现自主化

时间:2024年9月20日

来源:有新Newin

字数:11,702

英伟达高级研究科学家Jim Fan,近日与红杉美国投资人展开关于具身智能、机器人技术、虚拟世界领域的前沿思考。

Jim Fan展示英伟达在构建智能机器人方面长期愿景,讨论推动这项技术的核心挑战与突破机会。

Jim指出,英伟达正在押注具身智能与人形机器人技术发展。他认为,未来10年内,人形机器人将达到甚至超越人类敏捷性与可靠性。他们目标,是为日常生活开发可以承担家庭琐事,如洗衣机器人,极大提升生活质量与经济价值。

他特别强调虚拟世界与物理世界交叉影响,虚拟世界提供强大的世界模拟器,让研究者能通过模拟数据与领域随机化技术,加速机器人在现实中应用。他提出,通过在虚拟环境中训练,智能体可以无缝泛化到物理世界,达到零次微调的转移效果。

Jim认为,视频生成是未来AI重要方向,能够以数据驱动方式模拟世界,为AI模型提供真实物理与渲染数据;对AI模型推理能力,特别是编程能力充满期待,认为未来10年内,AI智能体将在自动编程与加速软件开发方面取得重大进展。

Jim特别提到研究中的品味,即确定值得解决的问题,比寻找解决方案更难、更重要。

他提到了自己在李飞飞等导师指导下,培养识别哪些问题能够产生最大影响的能力,认为具身智能是未来AI智能体重要方向。

他建议AI创业者保持对最新文献与工具的敏锐洞察,寻找能够长远发展的领域。

Jim引用英伟达CEO黄仁勋,所有能够移动的东西,最终都会实现自主化。他认为,随着硬件技术与制造成本下降,未来机器人将像iPhone一样普及。英伟达正着手构建从硬件到软件的完整技术栈,支持智能机器人发展。

Sonya Huang 今天我们邀请到英伟达高级研究科学家Jim Fan。Jim领导英伟达具身智能Embodied AI智能体研究工作,涉及物理世界中机器人技术与虚拟世界中游戏智能体。

Jim团队负责Project Groot项目,你可能在2024年GTC大会上,看到过与黄仁勋同台展示视频中出现的人形机器人。

今天我们很高兴能与Jim讨论关于机器人技术一切问题。为什么选择现在?为什么是人形机器人?如何实现机器人领域的GPT-3时刻?

非常激动能够与大家分享关于机器人技术与具身智能的各种内容。在我们深入讨论之前,你的个人故事非常有趣。

你是OpenAI第一位实习生,能不能给我们讲一下个人经历,你是如何走到今天这一步的?

Jim Fan 我很愿意与大家分享这些故事,2016年夏天,一些朋友告诉我,城里有家新的初创公司,让我看看。

我当时心想,我没什么别的事情可做,我已经被录取为博士。那个夏天我很空闲,决定加入这家初创公司OpenAI。

我加入OpenAI那段时间,我们已经在讨论AGI,我实习导师是Andrej Karpathy与Iliya Sotskever。

我们一起讨论,展开一个项目 World of Bits。这个项目想法非常简单,我们希望建立AI智能体,它能够读取电脑屏幕上像素信息,然后控制键盘与鼠标。如果你仔细想想,这种界面是最通用的。

我们在电脑上做的所有事情,比如回复邮件、玩游戏、浏览网页,都可以通过这个界面完成,将屏幕像素映射到键盘与鼠标的控制。

这是我在OpenAI第一次AGI尝试,也是我AI智能体旅程第一个篇章。

Stephanie Zhan 我记得World of Bits这个项目,我不知道你参与其中,真是太有趣了。

Jim Fan 一个非常有趣的项目,也是OpenAI Universe平台一部分,这是一个将所有应用程序与游戏,整合到这个框架中的更大计划。

Stephanie Zhan 你觉得当时有哪些突破,你认为当时在智能体领域,面临的主要挑战是什么?

Jim Fan 当时我们主要使用的方法是强化学习。

2016年,还没有LLM或Transformer模型。

强化学习在特定任务上有效,但它不具备广泛的泛化能力。比如我们无法给智能体任何一种指令,要求它完成各种通过键盘与鼠标操作的任务。当时,它在我们设计的特定任务上有效,但没有真正实现泛化。

促使我进入下一个阶段,我去斯坦福大学。我开始在斯坦福,跟随Favilly教授攻读博士学位,主要研究计算机视觉与具身智能Embodied AI。

2016~2021年,我在斯坦福期间,见证斯坦福视觉实验室转变,从Favilly教授带领的静态计算机视觉,如识别图像与视频,转变为具身计算机视觉,即智能体在交互环境中学习感知,并采取行动。

这个环境可以是虚拟的在模拟中,也可以是物理世界中。这是我博士阶段,主要是从静态视觉,过渡到具身智能的研究。

博士毕业后,我加入英伟达,一直工作到现在。我将博士论文中研究内容,带到英伟达,继续从事具身智能研究工作,直到今天。

Sonya Huang 你目前负责英伟达具身智能计划,可以简单介绍一下这个项目的含义,你们希望实现的目标吗?

Jim Fan 目前我共同领导的团队是GER,代表具身智能体研究Generalist Embodied Agent Research。简单说,我们团队工作可以总结为三个字,生成行动。

我们构建具身智能的智能体,这些智能体会在不同世界中采取行动。如果这些行动是在虚拟世界中进行,就是游戏AI与模拟;如果是在物理世界中进行,就是机器人技术。

2024年3月GTC大会上,黄仁勋在主题演讲中,展示Project Groot项目,这是英伟达在构建人形机器人基础模型上的一项重要努力,这正是GER团队目前重点工作。我们希望为人形机器人,乃至更广泛的领域,构建AI大脑。

Stephanie Zhan 你认为英伟达在构建这些技术上,有什么竞争优势?

Jim Fan 这是很好的问题。

首先,毫无疑问是计算资源。所有这些基础模型,都需要大量计算资源来扩展。我们相信Scaling law,类似LLM Scaling law,具身智能与机器人技术的Scaling law尚待研究,我们正在这方面做努力。

英伟达第二个优势,是模拟技术。英伟达在成为AI公司之前,是图形公司,我们在构建模拟如物理模拟、渲染与GPU实时加速方面,拥有多年专业知识。在构建机器人技术时,我们大量使用模拟技术。

Stephanie Zhan 模拟策略非常有趣。你认为为什么大多数行业,仍然非常专注现实世界的数据,而采用相反的策略?

Jim Fan :我认为我们需要各种数据,仅依靠模拟或现实世界数据不够。在GER具身智能体研究团队中,我们将数据策略大致分为三个部分:

第一、互联网规模的数据,比如网上标签与视频。

第二、模拟数据,我们使用英伟达的模拟工具,生成大量合成数据。

第三、实际机器人数据,我们通过在机器人平台上操作机器人,收集、记录这些数据。

我相信一个成功的机器人策略,需要有效利用这三种数据,混合它们,提供统一的解决方案。

Sonya Huang 你刚才提到的数据,是实现机器人基础模型工作的关键瓶颈,你能不能多谈谈你对这个观点的信念,需要什么样的优秀数据,来突破这个问题?

Jim Fan :我认为我刚才提到的三种不同类型数据,各有优缺点。

首先是互联网数据,它们最具多样性,包含大量常识性先验知识。

比如大多数网上视频,都是以人为中心,我们喜欢自拍,喜欢记录彼此进行各种活动,也有很多教学视频。

我们可以利用这些数据,来学习人类如何与物体交互,物体在不同情况下的行为,这为机器人基础模型提供常识性先验知识。

互联网数据没有行动信号,我们无法从互联网上,下载机器人的运动控制信号。

引出第二种数据策略,使用模拟。模拟中,你可以拥有所有动作,可以观察这些动作在特定环境中的结果。

模拟的优势,在于它是无限数据,数据量随计算资源增加而扩展。投入越多GPU,产生数据越多,数据是实时的。

如果仅在真实机器人上收集数据,会受到每天24小时限制。

通过GPU加速的模拟器,我们可以将实际时间加速到1万倍以上。同样工作时间内,我们能够以更高速度收集数据。

模拟的弱点,是无论图形管道多么好,模拟与现实总会有差距。 物理规律与视觉效果,都与现实世界有所不同,内容的多样性,不如我们在现实世界中遇到的情景。

最后是实际机器人数据,这些数据没有模拟与现实的差距,它们是在真实机器人上收集,收集成本要高得多,需要雇人操作机器人。

它们依然受限现实世界时间,每天只有24小时,需要人类收集数据,成本非常高。

我们认为三种类型数据,各有优势,成功的策略,是结合它们优势,消除它们劣势。

Sonya Huang 黄仁勋演讲台上可爱机器人,真是精彩的时刻。如果你有5年或10年的梦想,你认为团队会实现什么?

Jim Fan 纯粹是推测,我希望我们能在接下来2~3年内,看到机器人基础模型的研究突破,我们机器人领域的GPT-3时刻。

之后就不确定,要让机器人进入人们日常生活,不仅是技术问题。机器人需要价格合理,能够量产,我们需要确保硬件安全性隐私与法规方面考虑。

这些问题,可能需要更长时间,才能使机器人进入大众市场,比较难以预测,我希望研究突破,能够在未来2~3年内到来。

Stephanie Zhan 你认为AI机器人领域GPT-3时刻,会是什么样?

Jim Fan 这是好问题。

我喜欢将机器人技术分为两个系统:系统一与系统二,这个概念来自《思考,快与慢》。

系统一,低级的运动控制,无意识、快速。例如,当我拿起这杯水时,我不会真的思考每毫秒如何移动手指,这就是系统一。

系统二,缓慢、深思熟虑,更像是推理与规划,使用的是我们有意识思维。

我认为GPT-3时刻,将出现在系统一上。

我最喜欢的例子,是打开这个动词。想象一下,打开这个词的复杂性。打开门与打开窗户不同,打开瓶子或手机的方式也不同。

对人类理解打开,在与不同物体交互时,意味着不同动作,没有任何问题。

但是到目前为止,我们没有看到一个机器人模型,能够在低级别运动控制上,对这些动词进行泛化。

我希望能看到一个模型,能够理解这些动词的抽象含义,能够在各种对人类有意义的场景中进行泛化。我们没有看到这种情况,但我对未来2~3年内出现这个时刻,持乐观态度。

Sonya Huang 关于系统二思维?你认为我们如何才能实现这个目标?你认为在LLM领域的推理工作,也会与机器人领域相关?

Jim Fan 绝对相关。

我认为在系统二,我们已经看到一些非常强大的模型,它们可以进行推理、规划,甚至编程,这些正是我们今天看到的LLM与前沿模型。

将系统二与系统一整合起来,本身是研究挑战。

问题是,针对机器人基础模型,我们是否应该有单一的大模型,还是采用某种级联方法,保持系统一与系统二模型独立性,让它们通过某种方式进行沟通?这是悬而未决的问题,它们各有优缺点。

如果是第一个想法,模型更简洁,只有一个模型,一个API来维护。这也更难控制,它们的控制频率不同。

系统二模型的控制频率较低,比如1Hz/每秒一次决策;系统一需要更高控制频率,比如1,000Hz/每秒1,000次决策。

类似我握住这杯水的微小运动,是每秒数千次决策。这种不同频率的控制,难以通过单一模型实现。

可能级联的方法会更好,问题是,系统一与系统二之间如何沟通?它们通过文本交流,还是通过某种潜在变量?目前不清楚,我认为这是非常令人兴奋的新研究方向。

Sonya Huang 你觉得我们能够通过扩展与Transformer技术,突破系统一思维吗?还是说要祈祷好运、看事态发展?

Jim Fan 我希望我之前描述的数据策略,能帮助我们实现这一目标,我们还没有完全发挥出Transformer的潜力。

本质上讲,Transformer是通过输入与输出token来工作。最终,token质量,决定这些大型Transformer模型质量。

对机器人,数据策略非常复杂。我们既有互联网数据,也需要模拟数据与真实机器人数据。

一旦我们能够扩展数据管道,获得高质量动作数据,我们可以将这些数据token化,将其输入Transformer进行压缩,Transformer的潜力,未完全发挥出来。

一旦我们解决数据策略问题,我们可能会看到一些随着数据与模型规模扩展,而出现的涌现现象。我称之为具身智能的Scaling law,这才刚开始。

Stephanie Zhan 我对此非常乐观。

很好奇的是,当我们到达突破点时,你个人最期待看到的是什么?你认为哪个行业、应用或用例,会完全改变今天机器人世界?

Jim Fan 我们选择人形机器人作为主要研究方向,有几个原因。

一个原因,世界是围绕人体形态设计,所有餐馆、工厂、医院,我们设备与工具,都是为人类及其手形设计。

原则上,一个足够先进的人形机器人硬件,应该能够完成任何一个普通人可以完成的任务。

人形机器人硬件,当前没有达到那个水平,我相信未来2~3年内,人形机器人硬件生态系统将会成熟。

届时,我们将拥有可负担得起的人形机器人硬件,问题将变成如何为这些人形机器人提供AI大脑。

一旦我们拥有能够接受任何语言指令,完成任何人类能做任务的通用基础模型,我们可以释放大量经济价值。比如我们可以在家庭中拥有机器人,帮助我们做家务、洗衣、洗碗、做饭,或者照顾老人。

我们可以在餐馆、医院、工厂中使用它们,帮助完成各种人类的工作,我希望这能在未来10年内实现。

不仅是技术问题,还涉及许多技术之外的问题,我对此充满期待。

Sonya Huang 你们选择专注人形机器人,还有其他原因吗?

Jim Fan 还有一些更实际的原因,比如训练管道。

关于人类的数据,在网上有很多,视频中内容大多是以人为中心,人类在执行日常任务或娱乐活动。

人形机器人外形,最接近人类形态,意味着我们用这些数据训练的模型,可以更容易迁移到人形机器人形态,而不是其他形态。

比如说,关于机器人手臂与夹爪的视频有多少?很少见,但我们能看到很多关于人用五指手工作的视频。

训练人形机器人可能更容易,一旦我们拥有这些基础模型,我们可以进一步专门化它们,应用到机器人手臂等更具体的机器人形态上,这就是为什么我们首先追求全面的解决方案。

Stephanie Zhan 你们目前只专注人形机器人,还是也会涉及机器人手臂或机器狗?

Jim Fan Project Groot,目前主要专注人形机器人。

我们构建的管道,包括模拟工具与真实机器人工具,足够通用,将来可以适应其他平台,我们正在构建这些工具,以便广泛适用。

Sonya Huang 你多次提到通用。

我认为机器人领域的一些人,认为通用方法行不通,必须针对特定领域与环境。

为什么你们选择通用的方法?我们节目里经常提到Richard Sutton的苦涩教训,你认为这在机器人领域也适用吗?

Jim Fan 绝对适用。

我想首先谈谈,我们在自然语言处理NLP领域看到的成功案例。

在ChatGPT与GPT-3出现之前,NLP领域有很多专门针对不同应用的模型与管道,比如翻译、编程、数学运算与创意写作,它们都使用不同模型与训练管道。ChatGPT出现后,将所有这些应用,统一到单一模型中。

我们称这些为通才模型,一旦有了通才模型,我们就可以通过提示、精炼等方式,将它们专用于具体任务,形成专才模型。

历史趋势,几乎总是专才通才模型,比原始的专才模型要强大得多,维护起来更简单,只有一个API,输入文本,输出文本。我认为我们可以遵循NLP领域成功路径,这在机器人领域也将如此。

到2024年,大多数机器人应用处于专才阶段,针对特定任务、特定硬件、特定数据管道的专门模型。

Project Groot目标,是构建用的基础模型,首先用于人形机器人,推广到各种机器人形态或具身形式,这就是我们追求的通才时刻。

一旦我们有了通才模型,我们可以对其进行定制,使其适用于具体的机器人任务,这些将成为专才通才模型的体现。

在拥有通才模型之前,这一切还不会发生。

短期看,追求专才模型更容易,只需专注非常狭窄的任务领域。

我们在英伟达,相信未来属于通才模型,它需要更长开发时间,也有更多研究难题要解决,但这是我们首先追求的目标。

Stephanie Zhan 英伟达构建Project Groot另一个有趣之处在于,英伟达既拥有芯片,也拥有模型。你认为英伟达可以做些什么,在自家芯片上优化Groot模型?

Jim Fan 2024年3月GTC大会上,黄仁勋发布下一代边缘计算芯片,称为Jensen Source芯片,它是与Project Groot一起发布。

我们想法是,向客户提供一个从芯片级别Jensen Source系列芯片,到基础模型Project Groot,再到模拟工具与沿途开发其他实用工具的完整技术栈,这将成为面向人形机器人智能机器人的计算平台。

我引用黄仁勋一句名言,我相信这一点,也是我最喜欢的之一,所有能够移动的东西,最终都会实现自主化。

现在还没有实现,我们可以预见,未来10年或更长时间内,如果我们相信将来会有与iPhone一样多的智能机器人,我们最好从今天开始建设。

Sonya Huang 太棒了。你们研究,目前是否有特别值得强调的成果?有什么让你对你们方法充满信心或乐观的?

Jim Fan 我们可以谈谈一些之前的工作。

我非常满意的一项工作叫URAC,我们在这个项目中做了一个演示,训练五指机器人手进行转笔的动作。

对我个人,这特别幽默,我已经放弃转笔这个技能。我自己做不到,机器人手可以。我们用来训练它的方法是,我们使用LLM来编写代码,控制由英伟达构建的模拟API,称为i6M API。LLM输出代码,来定义奖励函数。

奖励函数,是我们希望机器人完成的理想行为规范。如果机器人走在正确轨道上,它就会获得奖励;如果做错事,会受到惩罚。

通常,奖励函数是由非常了解API的机器人专家设计,这是一个需要高度专业知识的工作,过程非常繁琐与手动。

我们开发一种算法,使用LLM来自动化奖励函数的设计,让机器人能够完成复杂任务,比如转笔。

这是一种通用技术,我们计划将其扩展到不仅是转笔,它应该能够为各种任务设计奖励函数,甚至可以通过英伟达的模拟API生成新任务,这为我们进一步发展,提供广阔空间。

Sonya Huang 我记得5年前,有一些研究团队在解决魔方问题,用机器人手来完成,当时感觉机器人领域经历一个幻灭期。过去1年左右,这个领域似乎又热起来。

你认为,为什么现在是机器人领域的时机?有什么不同的地方?我们听说OpenAI重新进入机器人领域,大家都在加大努力,你觉得有什么变化?

Jim Fan 我认为现在有几个关键因素,与之前不同。

首先是机器人硬件。

2023年底开始,我们看到机器人硬件生态系统激增。

特斯拉开发Optimus,波士顿动力Boston Dynamics等,还有很多初创公司。我们看到硬件越来越强大,具有更好灵活手与全身可靠性。

第二个因素,价格下降。

我们看到人形机器人制造成本,显著下降。

2001年,NASA开发人形机器人Robonaut,如果我没记错,每个机器人成本超过150万美元。

最近一些公司,能够将全功能人形机器人价格定在3万美元左右,大致相当于一辆车的价格。

随着产品成熟,它的价格通常会趋向原材料成本。对人形机器人,原材料成本,通常只有汽车4%左右。

未来几年,我们可能会看到成本急剧下降。这使得硬件越来越负担得起,这是人形机器人再次获得动能的第二个因素。

第三个因素,基础模型方面。

我们看到LLM,如GPT、Claude 、Llama等,在解决推理与规划问题方面,表现得非常出色。这些模型能够很好泛化,能够编写代码。

我们提到的URAC项目,正是利用这些语言模型的编程能力,开发新的机器人解决方案。还有多模态模型兴起,提升计算机视觉与感知能力。

我认为这些成功,鼓励我们追求机器人基础模型,我们可以利用这些前沿模型泛化能力,在其上添加动作层,生成最终驱动人形机器人的动作token。

Stephanie Zhan 我完全理解这一切。

你提到的很多研究进展,许多是你自己在Centauril等项目中做出的贡献,再加上英伟达的工具如IZX等,极大加速该领域进展,尤其是在传感与更便宜的传感设备等方面。

我觉得现在是从事这个领域工作,非常激动人心的时刻。

Jim Fan 我同意。

Sonya Huang 我记得你最初研究,更多是在虚拟世界领域。

你能不能谈谈,是什么让你对开放沙盒游戏我的世界Minecraft与机器人产生兴趣?

在你看来,它们是否是相关的?是什么让你对虚拟世界产生兴趣?

Jim Fan 这是好问题。

对我来说,我个人使命是解决具身智能问题,虚拟世界中具身智能智能体,就是像游戏与模拟中的智能体。我对游戏有非常特别的情感,我自己很喜欢玩游戏。

Stephanie Zhan 你玩什么游戏?

Jim Fan 我玩Minecraft,我试过,我不是非常好的玩家。

我希望我的AI,能弥补我糟糕的游戏技巧。

我之前参与几个游戏项目。第一个是Mind Dojo项目,我们在Minecraft游戏中开发通用智能体平台。

对不熟悉的观众,Minecraft是开放的体素世界,你可以在其中做任何你想做的事情。你可以制作各种工具,冒险,它是开放式游戏,没有特定的得分目标,没有固定的剧情。

我们从互联网上收集大量数据,有人玩Minecraft的视频,也有解释游戏机制的wiki页面,这些是多模态文档,还有像Reddit的Minecraft子论坛,那里有很多人用自然语言讨论游戏。

我们收集这些多模态数据集,训练模型玩Minecraft,这个项目是Mind Dojo。

后来第二个项目是Voyager,这个想法是在GPT-4发布后产生,它是当时最好的编程模型。

我们想,如果我们将编程作为行动? 基于这个想法,我们开发Voyager智能体,它通过编写代码与Minecraft世界互动。

我们使用一个API,将3D的Minecraft世界转换为文本表示,让智能体使用行动API编写代码。就像人类开发者一样,智能体不总是能在第一次写出正确代码。

我们给它一个自我反思循环,如果它在Minecraft世界中遇到错误或做错事,它会收到反馈,修正它的程序。一旦它写出正确程序,我们称之为技能,它会将其保存到一个技能库中。

以后当智能体遇到类似情况时,它不需要再次经历试错过程,可以直接从技能库中调用技能。

你可以将这个技能库视为一个代码库,它是由Voyager自己互动构建,完全没有人类干预,整个代码库都是Voyager自己开发。

这是第二个机制,技能库。

第三个机制,我们称之为自动课程生成。 智能体知道它知道什么,也知道它不知道什么。

它能够提出下一个任务,这个任务既不会太难,也不会太简单,它能够沿着这条路径发现各种技能、工具,并在Minecraft的广阔世界中旅行。

它旅行得很多,我们称之为Voyager,这就是我们团队最早构建具身智能体与虚拟世界交互的尝试之一。

Sonya Huang 谈谈你刚才提到的课程生成机制,我觉得这非常有趣,这似乎是推理与LLM世界中尚未完全解决的问题之一。

如何让这些模型,自我意识到下一步该做什么,以提高自己?你能否再详细谈谈你们在课程生成与推理方面的构建?

Jim Fan 我认为这些前沿模型,展示了一种非常有趣的涌现特性,它们能够反思自己行为,它们似乎知道自己掌握什么、不知道什么,能够据此提出任务。

Voyager 中,我们给智能体设定高层指令,尽可能多发现新物品。

我们只给这个一句话目标,没给出任何关于先发现哪些物品、先解锁哪些工具的指令。

智能体通过编码、提示与技能库,自己发现这些。这种系统的工作方式非常惊人,我认为这是一种在拥有强大推理引擎后,自然涌现的特性。

Sonya Huang 你认为,为什么这么多的虚拟世界研究,都集中在虚拟世界?我相信不仅是许多深度学习研究人员喜欢玩游戏,这可能有点帮助。你觉得在虚拟世界中解决问题,与物理世界中问题,有什么联系?两者如何相互影响?

Jim Fan :我一直认为游戏与机器人之间,有很多相似原则。

对具身智能体,它们输入是感知信息,比如视频流与一些感官输入,输出是行动。

游戏中,这可能是键盘与鼠标的动作,在机器人中是低级别的运动控制。

API 角度看,两者是相似的。

这些智能体,需要探索世界,某种程度上需要自己收集数据,这就是我们强化学习与自我探索,这一原则在物理智能体与虚拟智能体中都是共享的。不同之处在于,机器人技术更难,需要跨越模拟与现实的差距。

模拟中,物理与渲染永远无法完美,将模拟中学到的东西,转移到现实世界是一大挑战,这是一个开放的研究问题。

机器人技术有一个模拟与现实差距问题,游戏没有,你是在同一个环境中训练与测试,这是它们之间的区别之一。

2023 年,我提出一个概念,基础智能体Foundation Agent,我相信最终我们会拥有可以同时应用于虚拟与物理智能体的模型。

基础智能体,将能够在三方面实现泛化:第一是它能够执行的技能,第二是它能够控制的具身形态,第三是它能够掌握的世界,无论是虚拟世界还是现实世界。这就是我们GER团队想要追求的终极愿景,基础智能体。

Stephanie Zhan 谈到虚拟世界与游戏领域,你已经在开放环境中解锁一些推理与涌现行为。游戏世界里,你个人梦想是什么?你希望AI智能体,在游戏领域带来怎样创新?

Jim Fan 我对两个方面特别兴奋。

首先,游戏中的智能体。

现在NPC非玩家角色,有固定脚本,手动编写。

如果我们有真正活着的NPC?他们能够记住你之前告诉他们的事情,可以在游戏世界中采取行动,改变游戏叙事与故事发展。这是我们还没有见到的,我觉得这里有巨大潜力。

这样一来,每个人玩同一个游戏,都会有不同体验,甚至1个人2次玩同1个游戏,故事也不一样,这样每个游戏,都有无限重玩价值。

第二个方面,游戏世界本身的生成。

我们已经看到许多工具在做这方面部分工作,比如从文本生成3D资产,或者从文本生成视频的模型,还有能够生成故事情节的语言模型。

如果我们把这些工具结合起来,游戏世界可以在你玩的时候即时生成,与你互动。这将非常令人惊叹,也是一个真正开放式的体验。

Stephanie Zhan 特别有趣。

关于智能体的愿景,你觉得需要GPT-4级别的能力?还是像Llama 8B这样模型就能实现?

Jim Fan 我认为智能体,需要具备几个关键能力。

首先,它需要能够进行有趣对话,拥有一致的个性,具备长期记忆,还要能够在世界中采取行动。

这些方面,目前Llama模型已经相当不错,还不足以产生非常多样化与引人入胜的行为,我认为在这方面仍有差距。

另一个问题,推理成本。

如果我们想将这些智能体部署给游戏玩家,要么需要非常低的云托管成本,要么能够在本地设备上运行,否则在成本上不可扩展,这是另一个需要优化的因素。

Sonya Huang 你觉得在虚拟世界中所有工作,是否是为了服务于物理世界的目标?还是虚拟世界本身就是足够有价值的领域?你如何在物理世界与虚拟世界之间,平衡你的工作优先级?

Jim Fan :我认为虚拟世界与物理世界,最终只是在同一个轴上的不同现实。

举个例子,有种技术叫领域随机化,它的工作原理是你在模拟中训练机器人,同时在1万个不同的模拟中并行训练,每个模拟的物理参数都不同,比如重力、摩擦力、重量等,这是1万个不同的世界。

如果我们有一个智能体,能够掌握所有这1万个不同的现实配置,我们现实的物理世界就只是第1万零一个模拟。这种情况下,我们能够从虚拟世界,直接泛化到现实世界。

这正是我们在Eureka后续工作中所做的。我们使用各种随机化的模拟训练智能体,无需进一步微调,就能够将其直接转移到现实世界。

我相信这种方法是有效的,如果我们有各种虚拟世界,包括游戏世界,有一个智能体能够在所有这些世界中掌握各种技能,现实世界只是更大分布中的一部分。

Stephanie Zhan 你能不能跟大家分享一下Dr.Eureka项目?

Jim Fan Dr.Eureka项目中,我们基于Eureka的成果,依然使用LLM作为机器人开发者。LLM会编写代码,代码用于指定模拟参数,比如领域随机化参数。

经过几次迭代后,我们在模拟中训练的策略,能够泛化到现实世界。

我们展示的一个具体例子是,我们让一个机器狗在瑜伽球上行走,它不仅能够保持平衡,还能向前行走。

有一个非常有趣的评论,有人让自己真狗尝试这个任务,结果发现它的狗真的能做到这一点。某种程度上,我们神经网络超越真狗表现。

Sonya Huang 我敢肯定我的狗,做不到。

Jim Fan 人工狗智能ADI,这是下一本冒险书的主题。

Sonya Huang 虚拟世界领域,最近出现很多令人难以置信的3D与视频生成模型,许多都是基于Transformer。你觉得我们是否已经达到可以凭借这些架构,实现理想目标的阶段?或者你认为在模型架构方面,仍然需要一些突破?

Jim Fan 我认为在机器人基础模型方面,我们没有充分发挥Transformer架构极限,当前更大瓶颈是数据问题。

我们无法从互联网上,下载机器人控制的数据,我们必须在模拟或通过真实机器人收集这些数据。

一旦我们有了成熟的数据管道,我们可以将这些数据token化,将它们送入Transformer进行压缩,就像Transformer预测Wikipedia上下一个词一样。

我们仍在验证这些假设,我认为Transformer极限还未被充分探索。目前有很多替代Transformer架构的研究,我对此非常感兴趣。

最近有一种测试时训练test-time training的架构,还有一些其他替代方案,它们提出一些非常有前景的想法。这些替代架构,还没有达到最前沿模型的表现,我期待看到更多Transformer替代方案出现。

Stephanie Zhan 有没有什么特别吸引你注意的模型,为什么?

Jim Fan 我提到member工作与测试时训练模型,这些模型在不同时间点表现得更有效率。

与Transformer模型需要处理所有过去Token不同,这些模型有更高效的内在机制,我觉得它们很有前途。

我们需要将它们扩展到前沿模型的规模,才能真正看到它们与Transformer的正面对比。

Stephanie Zhan 具身智能领域外,你对AI最感兴趣的是什么?

Jim Fan 我对视频生成特别兴奋,我认为视频生成是一种世界模拟器,我们可以从数据中学习物理与渲染。

我们已经看到OpenAI Sora这样模型,后来有很多新模型跟上Sora,这是一个正在进行的研究话题。

Sonya Huang 世界模拟器,能带给我们什么?

Jim Fan 我认为它能为我们带来数据驱动的模拟环境,在其中我们可以训练具身智能,将非常了不起。

Stephanie Zhan 长期看,你对AI最感兴趣的是什么?10年或更久以后?

Jim Fan 有几个方面。

首先是推理方面,我对能够编程的模型非常感兴趣。

我认为编程是非常基础的推理任务,具有巨大的经济价值。10年后,我们会有达到人类水平的编程智能体,这将大大加速开发进程,使用这些大模型本身。

第二个方面,机器人技术。

我认为10年后,我们将拥有像人类一样可靠与敏捷的人形机器人,甚至可能超越人类。

我希望到那时,Project Groot会取得成功,我们能够拥有帮助我们日常生活的人形机器人。

我只是希望机器人能帮我洗衣服,这是我的梦想。

Sonya Huang 你觉得哪一年,机器人会帮我们洗衣服?

Jim Fan 越快越好,我已经等不及。

Sonya Huang AI领域,谁最启发你?你曾有机会与许多伟大的AI人物共事,最早可以追溯到你的实习时期,现在谁对你影响最大?

Jim Fan 我在AI领域有太多的英雄。

首先,我非常敬佩我博士导师李飞飞,她教会我如何培养良好的研究品味。

有时候,问题不是如何解决,而是要确定哪些问题值得解决,什么问题比如何解决问题要难得多。

博士期间,我在她指导下,转向具身智能研究,现在回想起来,这是正确的方向。我相信AI智能体的未来将是具身,不论是用于机器人还是虚拟世界。

我也很敬佩Andrej Karpathy,他是一位伟大的教育家。

他写代码,就像写诗一样,我非常仰慕他。

还有黄仁勋,我对他的敬佩之情,溢于言表。

他不仅关心AI研究,还非常了解模型的技术细节,这让我非常佩服。

Stephanie Zhan 谈到拥有良好的研究品味,你对在AI领域创业的创始人有何建议?他们该如何找到正确问题去解决?

Jim Fan 我认为有一些研究论文,现在变得越来越容易理解,里面有一些非常好的想法,越来越实用,不仅是理论性的机器学习。

我建议大家保持对最新文献关注,尝试其他人开发的开源工具。

比如在英伟达,我们开发模拟器工具,任何人都可以访问,下载,可以在模拟环境中试验机器人,亲自实践非常重要。

Stephanie Zhan 黄仁勋作为一个偶像,你认为在AI领域创业的创始人,能从他身上学到哪些实用的建议?

Jim Fan 我认为是找到正确的方向去努力。

例如,英伟达押注人形机器人,我们相信这是未来。

还有具身智能,如果我们相信10年后,世界上会有与iPhone一样多的智能机器人,我们最好今天就开始努力。


【长期主义】栏目每周六、与长假更新,分以下系列:

宏观说:全球各大国政要、商业领袖等

社会说:比尔·盖茨等

成长说:洛克菲勒、卡内基等

科学说:历年诺奖获得者、腾讯科学WE大会等







请到「今天看啥」查看全文