2025年了，RL还是通往通用智能的一条主流赛道嘛？

自动驾驶之心 · 公众号 · · 2025-01-20 07:30

正文

作者 | 中年失败男性编辑 | 自动驾驶之心

原文链接：https://www.zhihu.com/question/8841862617/answer/82308586701

点击下方卡片，关注“ 自动驾驶之心 ”公众号

戳我-> 领取 自动驾驶近15个 方向学习路线

>> 点击进入→ 自动驾驶之心 『自动驾驶』 技术交流群

本文只做学术分享，如有侵权，联系删文

谈RL的未来前我们先谈我们说RL的时候其背后支撑的技术具体解决了什么问题。

无论大家概念上理解的RL是什么样的，formalize的时候必然是用Markov随机过程来建模环境的。在这个formulation下，我们需要一种优化算法找到一个policy使得其能最大化objective function。由于吃四个包子吃饱不代表前三个白吃了，所以必须解决一个temporal credit assignment的问题。RL绝大部分的literature主要解决这个问题。

除此之外还有structural credit assignment，这个研究的很少，并且有文章指出structural credit assignment可以转化成temporal credit assignment。这个在simulation的时候当然是可以的，但是也就是simulation是可以的，现实是不行的。

显然，解决temporal credit assignment不能解决AGI，在A deep learning framework for neuroscience 中提到的三个方面architecture，learning rules，objective functions，目前来看和temporal credit assignment没什么关系。如果以后有关系，那以后解决的temporal credit assignment问题和现在的所谓的rl也没什么关系。

① 2025中国国际新能源技术展会

自动驾驶之心联合主办中国国际新能源汽车技术、零部件及服务展会。 展会将于2025年2月21日至24日在北京新国展二期举行，展览面积达到2万平方米 ，预计吸引来自世界各地的400多家参展商和2万名专业观众。 作为新能源汽车领域的专业展，它将全面展示新能源汽车行业的最新成果和发展趋势， 同期围绕个各关键板块举办论坛，欢迎报名参加。

② 国内首个自动驾驶学习社区

『自动驾驶之心知识星球』近4000人的交流社区，已得到大多数自动驾驶公司的认可！涉及30+自动驾驶技术栈学习路线，从0到一带你入门 自动驾驶感知 （ 端到端自动驾驶 、 世界模型 、 仿真闭环 、 2D/3D检测、语义分割、车道线、 BEV感知、 Occupancy