专栏名称: 小白学视觉

本公众号主要介绍机器视觉基础知识和新闻，以及在学习机器视觉时遇到的各种纠结和坑的心路历程。

OpenAI 联合创始人预言成真！

小白学视觉 · 公众号 · · 2024-07-22 13:08

正文

ChatGPT 火爆全球后，基于人类反馈的强化学习（RLHF）成为了一项可能让机器像人一样思考的重要技术。 OpenAI 联合创始人、研究科学家 John Schulman 将“ RLHF” 看作是 ChatGPT 成功的秘密武器。

强化学习在大模型中的应用具有广泛潜力和机会 ，特别是 ICLR2024接收论文中就有573篇论文与强化学习或大语言模型相关，远超其他研究分类。

所以这次我整理了

+ 10年（2008-2018）NIPS顶会强化学习论文 100篇

+ ICLR2024强化学习和 LLM 相关论文 573篇

+ Neurips 2023 强化学习论文 350篇

+ ICLR2023顶会强化学习论文 376篇

+强化学习发展路线 （含论文 1 40篇 ）

+ AAAI2023强化学习论文 11篇

+经典 强化论文合集 100篇

扫码回复 “强化学习”

立即领取 1500篇强化学习顶会论文

最近，大语言模型LLM成为了大家关注的热点，在人机对话领域具有里程碑的意义。 然而，传统的LLM并没有明确的动作层次上的策略，其潜在的策略可以看成是对Token的选择。

那么如何更好的学习基于深度强化学习任务型对话策略呢？

这次我邀请了 国内985理工强校博士徐老师， 在 7月25日19点30 和大家探讨任 务型对话策略的现有研究方法 、 对话策略的评估方式 、数据集，以及介绍经典论文 ，并且和 大家分享对话策略在大模型中的应用以及未来的研究趋势。

扫码回复 “强化学习”

预约25日晚19：30大咖直播

深度学习和强化学习分别在2013年和2017年被选全球十强技术之一 ，甚至有研究者构建了一个 “人工智能 =深度学习 + 强化学习” 的公式，由此可见深度强化学习的价值及重要性。

RLHF是一个将强化学习与人类反馈相结合的框架，以提高个体（Agent）在学习复杂任务中的表现。 在RLHF中，人类通过提供反馈参与学习过程，帮助个体更好地理解任务，更有效地学习最优策略， 这次我邀请了多位顶刊大佬给大家录制了三节强化学习课程，三小时吃透强化学习！

扫码回复 “强化学习”

解锁三节强化学习系列课

顶会idea福利

沃恩智慧 秉承服务好每一位学员的初心 ，从人工智能论文辅导起步，逐步扩充到人文社科、医学、理工科、金融商科等全方向，SCI、SSCI、CCF、EI、南核北核等国际/国内期刊会议均可提供专业辅导。

请到「今天看啥」查看全文

推荐文章

出彩写作 · 用deepseek写材料，是辅助而不是替代，是寻取智慧而不是索要成稿。

10 小时前

高山流水的心语屋 · 东拉西扯：第一名与最后一名同学的不同人生

昨天

高山流水的心语屋 · 东拉西扯：第一名与最后一名同学的不同人生

昨天

之乎者野记 · 日子762|十一点是睡觉的时间

2 天前

之乎者野记 · 日子762|十一点是睡觉的时间

2 天前

時間的玩家TimeIsArt · 每日临在 | 2025.02.11

2 天前

時間的玩家TimeIsArt · 每日临在 | 2025.02.11

2 天前

出彩写作 · 春节假日里的暖心小标题（向《人民日报》学提纲框架拟写第5周）

2 天前

程序猿 · 对，广东亿迅要招JAVA！

7 年前

大数据风控联盟 · 不关心风控，坏账率接近50%依然月挣3千万，暴利背后是万丈深渊

7 年前

BestDesign · 这位垃圾箱居住达人，要开卖 14 万美元的小型组装房

7 年前

米尔看天下 · 长寿不在于运动，而在于静养！

7 年前

真实故事计划 · 少女的喜丧

7 年前

OpenAI 联合创始人预言成真！

正文

+ ICLR2024强化学习 和 LLM 相关论文 573篇

请到「今天看啥」查看全文

+ ICLR2024强化学习和 LLM 相关论文 573篇