|
ICLR 2025 Spotlight | SmODE: 神经常微分网络让深度强化学习的控制更加丝滑! 深度强化学习实验室 · 公众号 · · 2 周前 · |
|
|
【上海算法创新研究院】推理大模型算法实习工程师(强化方向) 深度强化学习实验室 · 公众号 · · 3 周前 · |
|
|
【RL博后研究员招聘】亚利桑那大学刘博博士(师从图灵奖Barto)课题组 深度强化学习实验室 · 公众号 · · 3 周前 · |
|
|
【清华大学】神经网络优化器进化论:从SGD到RAD,读懂AI训练的内功心法 深度强化学习实验室 · 公众号 · · 3 周前 · |
|
|
【重磅】2024图灵奖颁给了强化学习之父Richard Sutton与导师Andrew Barto师徒二人 深度强化学习实验室 · 公众号 · · 4 周前 · |
|
|
从仿真到现实:对抗强化学习练就互搏神技 深度强化学习实验室 · 公众号 · · 1 月前 · |
|
|
【Facebook新发】MLGym&-Bench推进 AI 研究智能体的新框架和基准 深度强化学习实验室 · 公众号 · · 1 月前 · |
|
|
【重磅最新】伯克利Sergey Levine提出 Scaling laws in deep RL? 深度强化学习实验室 · 公众号 · · 1 月前 · |
|
|
【留言送5本】清华大学刘知远团队新作,28位AI天才们的热血传奇,比番剧更燃! 深度强化学习实验室 · 公众号 · · 1 月前 · |
|
|
DeepSeek核心强化学习GRPO算法解读:大模型与小模型的不同选择 深度强化学习实验室 · 公众号 · 科技创业 科技自媒体 · 1 月前 · |
|
|
NeurIPS 2024 | DACER:扩散模型与在线强化学习强强联合创造新SOTA! 深度强化学习实验室 · 公众号 · · 2 月前 · |
|
|
清华团队提出RL专用神经网络优化器,性能位居榜首 深度强化学习实验室 · 公众号 · · 3 月前 · |
|
|
【第二弹】强化微调,用少量样本训练专家模型 深度强化学习实验室 · 公众号 · 科技自媒体 · 3 月前 · |
|
|
【清华大学】当鲁棒控制遇到强化学习:零和博弈视角的非线性拓展 深度强化学习实验室 · 公众号 · · 3 月前 · |
|
|
【重磅】阿尔伯塔大学提出“Stream-X”强化学习新范式,无需经验重放、目标网络或批量更新。 深度强化学习实验室 · 公众号 · 科技自媒体 · 4 月前 · |
|
|
【腾讯】招聘强化学习算法研究员 深度强化学习实验室 · 公众号 · · 4 月前 · |
|
|
强化学习之父Sutton万字采访:炮轰深度学习只是瞬时学习,持续学习才是智能突破的关键 深度强化学习实验室 · 公众号 · · 4 月前 · |
|
|
控制系统可控性检验理论的变革:从模型驱动到数据驱动 深度强化学习实验室 · 公众号 · · 4 月前 · |
|
|
开放式物理RL环境空间,智能体零样本解决未见过人类设计环境! 深度强化学习实验室 · 公众号 · · 4 月前 · |
|
|
【图灵奖得主Yoshua Bengio】提出强化学习新策略, 解决策略KL正则化漏洞问题。 深度强化学习实验室 · 公众号 · · 5 月前 · |
|