专栏名称: 将门创投

将门是一家专注于发掘及加速技术创新激活商业价值的创业公司的创投机构。将门旗下设有将门创新服务、将门技术社群以及将门投资基金。关注领域包括机器智能、物联网、自然人机交互、企业计算。

Talk预告｜北京大学周嘉懿：Language Feedback - 大模型价值观对齐的催化剂

将门创投 · 公众号 · 科技创业 · 2025-02-12 08:22

正文

本期为 TechBeat人工智能社区 第 661 期线上Talk。

北京时间 2 月13日 (周四)20:00， 北京大学博士生 周嘉懿 的Talk将准时在TechBeat人工智能社区开播！

他与大家分享的主题是: “Language Feedback - 大模型价值观对齐的催化剂” ，届时他将讨论如何通过语言反馈避免大模型陷入“追求酸苹果”的局部最优，并提升对齐的表现。

Talk·信息

▼

主题：Language Feedback - 大模型价值观对齐的催化剂

嘉宾：北京大学 · 博士生 - 周嘉懿

时间：北京时间 2 月13日(周四)20:00

地点：TechBeat人工智能社区

http://www.techbeat.net/

长按识别二维码，一键预约TALK！

Talk·介绍

▼

基于人类反馈的强化学习面临着“苹果困境”：一个酸苹果和一个坏苹果，哪个更好？酸苹果不好吃，坏苹果不健康，酸苹果略胜一筹；我们如何避免大模型陷入“追求酸苹果”的局部最优，提升对齐的表现？且看语言反馈如何解决。

Talk大纲

1. 背景：大模型发展与价值对齐方法

2. 现状：基于人类反馈强化学习（RLHF）的局限性

3. 方法：序列到序列奖励建模：使用语言反馈提升RLHF

4. 未来：使用语言反馈提升全模态模型的RLHF

Talk·预习资料

▼

论文链接：

https://arxiv.org/abs/2412.15838

代码链接：

https://github.com/PKU-Alignment/align-anything

论文链接：

https://arxiv.org/abs/2409.00162

Talk·提问交流

▼

在Talk界面下的 【交流区】 参与互动！留下你的打call🤟和问题🙋，和更多小伙伴们共同讨论，被讲者直接翻牌解答！

你的每一次贡献，我们都会给予你相应的i豆积分，还会有惊喜奖励哦！

Talk·嘉宾介绍

▼

周嘉懿

北京大学 · 博士生 ‍‍‍

周嘉懿，北京大学人工智能研究院在读博士生，导师为杨耀东助理教授，研究方向为大模型安全与价值对齐，在计算机CCF-A顶级会议（NeurIPS，AAAI等）与期刊（JMLR，ACM等）发表多篇论文，获AAAI2025 Oral。谷歌学术引用300余次，成果被OpenAI 、Meta、图灵奖获得者Yoshua Bengio等引用，被MIT Tech Review报道。主导开发智能体安全探索与大模型安全对齐框架4个，在开源平台GitHub累计收获3k stars。