专栏名称: 将门创投
将门是一家专注于发掘及加速技术创新激活商业价值的创业公司的创投机构。将门旗下设有将门创新服务、将门技术社群以及将门投资基金。关注领域包括机器智能、物联网、自然人机交互、企业计算。
目录
相关文章推荐
河北广电  ·  广电行业如何搭车DeepSeek? ·  昨天  
河北广电  ·  广电行业如何搭车DeepSeek? ·  昨天  
51好读  ›  专栏  ›  将门创投

Talk预告|北京大学吉嘉铭:大模型的高效对齐器 - Aligner

将门创投  · 公众号  · 科技创业  · 2024-12-24 08:22

正文

本期为 TechBeat人工智能社区 651 线上Talk。

北京时间 12 月25日 (周三)20:00, 北京大学博士生 吉嘉铭 的Talk将准时在TechBeat人工智能社区开播!
他与大家分享的主题 是: 大模型的高效对齐器 - Aligner 届时他将 围绕NeurIPS 2024 Oral工作Aligner: Efficient Alignment by Learning to Correct展开,重点关注当下大模型的对齐三角难题(难、慢、贵),提出大模型的高效对齐器Aligner。
Talk·信息
主题:大模型的高效对齐器 - Aligner
嘉宾:北京大学 · 博士生 - 吉嘉铭
时间:北京时间 12 月25日(周三)20:00
地点:TechBeat人工智能社区
http://www.techbeat.net/

长按识别二维码,一键预约TALK!


Talk·介绍
本次Talk主要围绕NeurIPS 2024 Oral工作Aligner: Efficient Alignment by Learning to Correct展开,重点关注当下大模型的对齐三角难题(难、慢、贵),提出大模型的高效对齐器Aligner。基于核心的insight:Correction is easier than Generation,Aligner通过学习preferred和dis-preferred回答之间的修正残差,仅需2B的参数量便可增强11类模型包括GPT-4在推理方面36.4%和在安全方面21.6%的性能表现。同时,Aligner作为人类偏好蒸馏器,可以实现多轮weak-to-strong Generalization,并为超级对齐(Super Alignment)难题提供解决方案。
Talk大纲
1. 对齐器Aligner的研究背景

a) 人工智能对齐;AI Alignment

b) 大模型的预训练与后训练;Pre-training and Post-training in Large Models

c) 基于人类反馈的强化学习技术;Reinforcement Learning from Human Feedback

2. 对齐器Aligner的研究动机

a) 大模型系统中如何开发类似Windows系统的补丁机制

3. 对齐器Aligner

a) 对齐器Aligner:一个用于大语言模型系统的补丁机制

b) 如何训练一个高效对齐器Aligner?

c) 对齐器Aligner的残差修正范式

d) 实验结果

e) 对齐器Aligner的参数规模是否越大越好?

f) 对齐器Aligner与现有方法(In-context Learning,RLHF和DPO)的性能比较

4. 功能特点

a) 对齐器Aligner 使对齐更具行为可解释性

b) 利用对齐器Aligner 实现模型的信任域提升(Trust Region Improvement)

c) 通过对齐器Aligner 实现弱到强的泛化(Weak to Strong Generalization)范式下的超级对齐


Talk·预习资料

论文链接:

https://arxiv.org/abs/2402.02416

论文链接:

https://arxiv.org/abs/2310.19852

论文链接:

https://arxiv.org/abs/2203.02155


Talk·提问交流

在Talk界面下的 【交流区】 参与互动!留下你的打call🤟和问题🙋,和更多小伙伴们共同讨论,被讲者直接翻牌解答!

你的每一次贡献,我们都会给予你相应的i豆积分,还会有惊喜奖励哦!

Talk·嘉宾介绍

吉嘉铭 ‍‍‍‍‍‍‍‍‍

北京大学 · 博士生
吉嘉铭,北京大学人工智能研究院博士生在读,导师为杨耀东助理教授,研究方向为大模型安全与价值对齐,在计算机顶级会议期刊发表Oral、Spotlight等十余篇,谷歌学术引用1600余次,获北京大学博士最高研究奖“校长奖学金”,获首批国自然博士青年基金资助(2023年度北京大学智能学科唯一),被评为2025苹果学者(Apple Scholar),成果被OpenAI 、Meta、图灵奖获得者Yoshua Bengio等引用,被MIT Tech Review报道。

个人主页:

https://www.techbeat.net/grzytrkj?id=32707








请到「今天看啥」查看全文