专栏名称: 自动驾驶之心
自动驾驶开发者社区,关注计算机视觉、多维感知融合、部署落地、定位规控、领域方案等,坚持为领域输出最前沿的技术方向!
目录
相关文章推荐
牛叔科技  ·  13199元的安卓机皇来了!2K屏+2亿像素 ... ·  8 小时前  
牛叔科技  ·  13199元的安卓机皇来了!2K屏+2亿像素 ... ·  8 小时前  
读嘉新闻  ·  深夜,暴涨! ·  17 小时前  
读嘉新闻  ·  深夜,暴涨! ·  17 小时前  
机智猫  ·  春季手机市场格局或将出现逆转 ·  昨天  
机智猫  ·  春季手机市场格局或将出现逆转 ·  昨天  
老铁股道  ·  A股:真牛逼,杀疯了! ·  2 天前  
老铁股道  ·  A股:真牛逼,杀疯了! ·  2 天前  
51好读  ›  专栏  ›  自动驾驶之心

2025年了,RL还是通往通用智能的一条主流赛道嘛?

自动驾驶之心  · 公众号  ·  · 2025-01-20 07:30

正文

作者 | 中年失败男性 编辑 | 自动驾驶之心

原文链接:https://www.zhihu.com/question/8841862617/answer/82308586701

点击下方 卡片 ,关注“ 自动驾驶之心 ”公众号

戳我-> 领取 自动驾驶近15个 方向 学习 路线

>> 点击进入→ 自动驾驶之心 自动驾驶 技术交流群

本文只做学术分享,如有侵权,联系删文

谈RL的未来前我们先谈我们说RL的时候其背后支撑的技术具体解决了什么问题。

无论大家概念上理解的RL是什么样的,formalize的时候必然是用Markov随机过程来建模环境的。在这个formulation下,我们需要一种优化算法找到一个policy使得其能最大化objective function。由于吃四个包子吃饱不代表前三个白吃了,所以必须解决一个temporal credit assignment的问题。RL绝大部分的literature主要解决这个问题。

除此之外还有structural credit assignment,这个研究的很少,并且有文章指出structural credit assignment可以转化成temporal credit assignment。这个在simulation的时候当然是可以的,但是也就是simulation是可以的,现实是不行的。

显然,解决temporal credit assignment不能解决AGI,在A deep learning framework for neuroscience 中提到的三个方面architecture,learning rules,objective functions,目前来看和temporal credit assignment没什么关系。如果以后有关系,那以后解决的temporal credit assignment问题和现在的所谓的rl也没什么关系。

① 2025中国国际新能源技术展会

自动驾驶之心联合主办中国国际新能源汽车技术、零部件及服务展会。 展会将于2025年2月21日至24日在北京新国展二期举行,展览面积达到2万平方米 ,预计吸引来自世界各地的400多家参展商和2万名专业观众。 作为新能源汽车领域的专业展,它将全面展示新能源汽车行业的最新成果和发展趋势, 同期围绕个各关键板块举办论坛,欢迎报名参加。

② 国内首个自动驾驶学习社区

『自动驾驶之心知识星球』 近4000人的交流社区,已得到大多数自动驾驶公司的认可!涉及30+自动驾驶技术栈学习路线,从0到一带你入门 自动驾驶感知 端到端自动驾驶 世界模型 仿真闭环 2D/3D检测 语义分割 车道线 BEV感知 Occupancy







请到「今天看啥」查看全文


推荐文章
读嘉新闻  ·  深夜,暴涨!
17 小时前
读嘉新闻  ·  深夜,暴涨!
17 小时前
老铁股道  ·  A股:真牛逼,杀疯了!
2 天前
老铁股道  ·  A股:真牛逼,杀疯了!
2 天前
摄影笔记  ·  一大波冰岛风光延时即将来袭!
7 年前