专栏名称: 人工智能学家
致力成为权威的人工智能科技媒体和前沿科技研究机构
目录
相关文章推荐
机器之心  ·  华人研究团队揭秘:DeepSeek-R1-Z ... ·  昨天  
宝玉xp  ·  ChatGPT 的 Canvas ... ·  昨天  
爱可可-爱生活  ·  【Let's Build a Simple ... ·  3 天前  
爱可可-爱生活  ·  【DeepSeek:比ChatGPT危险10 ... ·  3 天前  
51好读  ›  专栏  ›  人工智能学家

学术前沿 | 进步对齐:让AI跟上人类道德的脚步

人工智能学家  · 公众号  · AI  · 2024-09-30 18:21

正文

来源: 北京大学人工智能研究院

供稿:邱天异

排版:梁文凯玥


AI引发的价值锁定与进步对齐的定义

随着AI技术的发展,AI系统已经开始在多个领域对人类的观念和价值观产生影响。例如,大型语言模型(LLM)被用于个人助理、教育、内容创作等,它们所体现的价值观可能会在社会层面上传递给用户。


价值锁定(Value Lock-in)是指由于AI系统的影响,社会的道德价值观长期停滞不前,停留在某个特定的历史阶段。例如,如果AI系统固化了21世纪初的价值观,未来的社会可能无法超越这些价值观,导致不道德实践的延续和新道德概念的缺失。


为防止这种现象,本文提出进步对齐的概念。进步对齐旨在确保AI系统所体现的道德价值观能够持续改进,跟随甚至引领人类道德的演变,就像人类价值观在过去千年中经历的进步一样。


AI引发的价值锁定是关键生存性风险

价值锁定可能导致社会丧失大量的道德潜力,延续当前的苦难和不公正。如果AI系统固化了当代的偏见和道德盲点,未来的人类社会可能会长期停滞在不道德的状态中。这种风险与AI引发的灭绝风险一样,都是关键的生存性风险,需要引起足够的重视和研究。


目前,对价值锁定的研究和关注相对较少,大多数对齐方法,如人类反馈强化学习(RLHF),主要关注的是使AI系统符合当前的人类价值观,而没有考虑价值观的动态演变。这使得进步对齐成为一个被忽视但非常重要的研究方向。


03

进步对齐的形式化定义

为了更好地研究和解决进步对齐问题,引入了部分可观测的马尔可夫决策过程(PA-POMDP)来形式化该问题。PA-POMDP提供了一个框架,能够模拟AI系统与人类价值观的互动和演化过程。



PA-POMDP的定义


PA-POMDP由以下元素组成:

· 状态空间S: 表示人类价值观的可能状态。例如,不同的道德观念、价值取向等。

· 行动空间A: AI代理可以采取的行动集合。这些行动会影响人类的价值观,如提供建议、教育内容、决策支持等。

· 转移函数T: 描述在特定行动下,价值观从一个状态转移到另一个状态的概率。这个函数反映了AI行动对人类价值观的影响机制。

· 观察空间Ω: AI能够观测到的人类价值观体现形式,如反馈、对话内容、行为等。

· 观察函数O: 给定当前状态和行动下,产生特定观察的概率。它表示AI从人类行为中获取价值观信息的过程。

· 效用函数U: 衡量AI在进步对齐目标上取得成功的程度。效用函数可以根据AI对人类道德进步的促进程度来定义。


通过PA-POMDP,研究者可以模拟AI系统的策略,评估其对人类价值观演化的影响,为设计进步对齐的方法提供理论指导。在实践中,ProgressGym基于PA-POMDP的形式化定义构建实验框架,为研究者提供了实验平台,支持对进步对齐算法的开发和测试。


04

研究方法

知识驱动方法


知识驱动方法利用LLM的自然语言理解和推理能力,直接参与和促进道德哲学的研究。这些模型在预训练过程中已经学习了大量的人类知识,包括道德哲学、伦理学等领域的内容。通过进一步的设计和训练,LLM可以模拟人类的道德推理过程,甚至可能在道德哲学研究上取得突破。


LLM用于哲学推理

LLM可以被用于生成、分析和评估道德论证,提出新的道德概念和理论。由于其强大的文本生成和理解能力,LLM可以参与到复杂的哲学讨论中,提供多样化的视角。例如,LLM可以帮助识别当前道德理论中的不足,提出改进建议,或者探索新的道德框架。


人机交互研究

为了确保AI系统在道德进步中发挥积极作用,需要深入研究人类与AI的交互方式。通过人机交互研究,可以了解不同的互动设计如何影响人类价值观的变化。例如,如何设计AI系统的沟通方式,使其能够有效地促进道德思考,而不至于产生反感或抵触情绪。


示例研究:AI系统影响人类价值观 [Jakesch et al., 2023]

一项研究让参与者与持有特定观点的LLM互动,结果显示,参与者的观点发生了显著变化。这说明AI系统在影响人类价值观方面具有强大的能力。因此,设计能够积极促进道德进步的AI系统,需要对人机交互的方式进行深入研究。


数据驱动方法



数据驱动方法通过收集和分析大量的历史和现实时序数据,构建人类价值观演化的预测模型。这个模型可以帮助AI系统理解人类道德价值观的演变规律,预测未来的发展方向,从而指导其行为选择。


价值数据收集

收集大量的价值观数据是数据驱动方法的基础。数据来源包括历史文本、文学作品、法律文献、新闻报道、社交媒体内容等。这些数据反映了不同历史时期、不同文化背景下的人类价值观和道德观念。


价值数据的类型包括以下种类:

· 结构化、无偏数据:如问卷调查结果、偏好注释等。这些数据格式统一,易于分析。

· 非结构化、有偏数据:如互联网文本、历史文献等。这些数据量大,内容丰富,但需要处理偏差和噪声。


价值动态建模

通过统计模型、时间序列分析、社会模拟等方法,构建人类价值观随时间演化的模型。


价值动态建模的潜在方法包括但不限于:

· 统计建模:使用时间序列分析方法,捕捉价值观变化的趋势和周期性。

· 社会模拟:利用代理建模、进化博弈论等方法,模拟个体之间的互动和价值观的传播。

· 机器学习算法:训练预测模型,利用历史数据预测未来的价值观变化。


价值选择

在每个时间步,AI系统需要确定一个目标价值观,以对齐自身的行为。这可以通过规则启发式方法,如外推当前价值观的趋势,或者通过强化学习算法,直接优化效用函数,选择能够最大化道德进步的行动策略。


价值选择的潜在方法包括但不限于:

· 基于规则的启发式方法:简单地跟随当前价值观的变化趋势,适合初步应用。

· 强化学习:定义明确的效用函数,训练AI代理在PA-POMDP框架下选择最佳行动策略。

· 控制论与博弈论:应用控制理论和博弈论的方法,处理AI与人类之间的互动和反馈。


价值实施

将目标价值观嵌入AI系统中是数据驱动方法的最后一步。其可能方法包括:

· 基于微调的方法:在特定价值观导向的数据上微调模型,使其输出符合期望的道德标准。

· 脚手架(Scaffolding):在LLM上构建额外的结构或框架,指导其生成符合目标价值观的内容。

· 发展方法:在模型训练过程中,注入对道德进步的考虑,使模型在预训练阶段就具备对道德演化的敏感性。


案例研究:基于预测建模的方法



作为一个案例,我们来考察基于预测建模的进步对齐方法,即通过历史数据和模型,预测未来的道德进步方向,指导AI系统的行为选择。这种方法可以帮助AI系统更好地适应人类价值观的变化,避免价值锁定的风险。


1. 收集历史文本数据: 从过去几个世纪中收集大量的历史文本数据,包括书籍、报纸、法律文献等。这些文本反映了当时的社会价值观和道德观念。

2.微调语言模型: 将这些历史文本按照时间段划分,对预训练的语言模型进行微调,生成一系列模型,每个模型对应一个历史时期的价值观。

3. 构建机理模型: 利用这些微调后的模型,构建一个能够解释和预测人类价值观演化的机理模型。通过分析模型在不同时间段的输出,研究价值观的变化模式。

4. 模型验证: 将历史文本数据集划分为训练集、验证集和测试集,优化模型参数,提高模型在预测未来价值观变化方面的准确性和可靠性。

但同时,这一类方法也面临一些挑战:

· 严谨性问题: 需要确保模型没有“泄露”现代价值观,防止未来信息影响历史模型的准确性。

· 数据不足与偏差: 历史数据可能不完整或存在偏差,需要处理缺失数据和纠正偏 差。

· 因果推断: 缺乏反事实数据,难以确定价值观变化的因果关系。

· 统计非独立性: 历史数据是时间序列数据,并非独立同分布,这会对模型的训练和验证带来挑战,例如直接进行交叉验证可能并不可行。


统一方法

统一方法旨在为进步对齐提供一个原则性的、端到端的框架,而无需对知识或数据进行显式建模。在这种方法中,AI系统被假设具有无限认知能力,能够理解和推断人类的道德价值观,并根据这些价值观做出决策。


作为一个例子,我们考察进步辅助博弈(Progress-Assistance Game)。这个模型扩展了AI对齐领域中传统的辅助博弈(Assistance Game)框架,引入了人类道德的不确定性,处理人类价值观的动态演变和复杂性。


在进步辅助博弈中,假设人类接收到的奖励信号并不完美,存在噪声或偏差。这模拟了人类道德判断的不确定性和可能的错误。AI代理需要保持对奖励函数的不确定性,并通过与人类的互动,推断和学习人类真实的价值观。


AI代理与人类共同优化一个目标,但由于人类的反馈可能存在偏差,AI需要帮助人类克服这些偏差,推动道德进步。这种设定鼓励AI展望未来,理解道德进步的历史和机制,与人类合作,促进价值观的演化。


至于这一理论框架如何形式化,可以参见辅助博弈的原始论文[Hadfield-Menell et al., 2016]。


在认识到其潜力的同时,统一方法也面临一些挑战:

· 建模人类道德不确定性: 需要建立更加精确的模型,模拟人类在道德判断上的不确定性,以及道德观念的变化过程。

· 可纠正性: 确保AI代理的行为是可被人类理解、监督和纠正的,防止AI过度干预或操纵人类价值观,保持人类对道德演化的主导权。

· 可扩展性: 提升算法的计算效率,使其能够在复杂的、现实的环境中应用,包括处理大量的数据和复杂的互动情境。值得注意的是,近期在辅助博弈的求解效率方面取得了大幅进展,例如在Minecraft游戏求解的场景下[Laidlaw et al., 2024]。


05

ProgressGym实验框架

进步对齐研究需要强大的实验平台来支持算法的开发和评估。为此,作者所在团队构建了ProgressGym,一个专门用于进步对齐研究的实验框架。


ProgressGym的目标

ProgressGym旨在为研究者提供一个综合性的实验环境,支持对进步对齐算法的开发、测试和评估。通过模拟各种进步对齐场景,ProgressGym帮助研究者深入理解不同方法的效果,加速研究进展。


ProgressGym的核心贡献


1. 构建了ProgressGym实验框架: 利用了从1221年至2022年长达9个世纪的历史文本数据(38GB),以及18个历史语言模型(每个世纪对应一个7B和80B参数的模型),搭建了ProgressGym框架。该框架允许从历史中学习道德进步的机制,通过时间自回归进行测试,并应用于现实世界的道德挑战。

2. 提出了具体的挑战和基准测试: ProgressGym将现实世界的进步对齐挑战转化为具体的机器学习基准测试,如跟踪演变的价值观(Follow)、预见性地预测道德进步(Predict)以及调节人类和AI价值观之间的反馈回路(Co-evolve)。这些挑战需要考虑时间维度,传统的对齐方法无法直接应用。

3. 引入了终身和外推算法作为基线方法: 提出了终身(Lifelong)和外推(Extrapolative)对齐算法,作为进步对齐的基线方法,并在ProgressGym上对其性能进行了全面评估。这些算法展示了进步对齐问题的可行性,证明了虽然进步对齐具有复杂性,但可以通过算法解决。

4. 开放了源代码和排行榜: ProgressGym是开源的,并提供了实时的排行榜,邀请机器学习社区参与,提出新的挑战和算法,促进进步对齐领域的发展。


ProgressGym的功能模块


1. 数据集模块:

· 历史数据集: 收集并整理了9个世纪的历史文本数据,覆盖了1221年至2022年的丰富文献。这些数据为研究人类价值观的演化提供了坚实的基础。

· 历史语言模型: 基于每个世纪的文本数据,训练了18个历史语言模型(每个世纪对应一个7B和80B参数的模型),这些模型体现了不同历史时期的价值观和语言特征。


2. 挑战与基准测试模块:

· 跟踪演变的价值观(Follow): 要求算法能够准确地追踪人类价值观的变化,理解价值观随时间的演变。

· 预见性地预测道德进步(Predict): 要求算法能够预先预测未来的道德进步方向,提前调整AI系统的价值观。

· 调节人类和AI价值观之间的反馈回路(Co-evolve): 要求算法能够有效地管理人类和AI之间的价值观相互影响,防止反馈回路导致的价值锁定或偏差。


3 算法实现模块:

· 终身对齐算法(Lifelong Alignment): 在AI系统的整个生命周期中持续学习和调整,使其价值观能够随着人类价值观的变化而演进。

· 外推对齐算法(Extrapolative Alignment): 基于历史数据,外推预测未来的价值观变化,提前对AI系统进行调整。


4. 评估与分析模块:

· 性能评估: 提供了评估算法在上述挑战中的表现的工具,衡量指标包括预测准确性、道德进步促进度等。

· 结果分析: 支持对实验结果进行深入分析,帮助理解算法的优势和不足。


ProgressGym的应用场景

1. 算法开发与测试: 研究者可以使用ProgressGym开发新的进步对齐算法,并在统一的环境下进行测试,快速迭代改进。


2. 模型性能比较: 通过在相同的基准测试下比较不同算法的性能,研究者可以客观地评估各方法的优劣。


3. 价值观演化研究: 利用历史数据集和模型,深入研究人类价值观的演化规律,为进步对齐提供理论支持。


4. 人机互动模拟: 通过模拟人类与AI的互动,研究不同交互方式对价值观变化的影响,为设计更有效的AI系统提供依据。


目前,对价值锁定的研究和关注相对较少,大多数对齐方法,如人类反馈强化学习(RLHF),主要关注的是使AI系统符合当前的人类价值观,而没有考虑价值观的动态演变。这使得进步对齐成为一个被忽视但非常重要的研究方向。


挑战与未来发展

虽然ProgressGym为进步对齐研究提供了强大的支持,但仍有一些挑战需要克服:

· 数据质量与多样性: 确保历史和模拟数据集的质量和多样性,避免数据偏差对实验结果的影响。

· 模型复杂性: 随着模型和算法的复杂化,需要提升计算效率和资源管理能力。

· 现实性与可转移性: 如何将实验室中的结果应用于现实世界的AI系统,仍需进一步研究。


未来,ProgressGym将继续迭代更新,集成更多的功能和资源,支持更广泛的研究需求,推动进步对齐领域的发展。

06

另一条路:实施道德不确定性

除了直接促进道德进步,还有一种方法是实施道德不确定性,在AI系统的决策过程中纳入对道德价值的不确定性考虑。通过保持对道德判断的开放性,AI系统可以避免过早地固化某一特定价值观,防止价值锁定。


实施道德不确定性的方法包括:

· 概率模型: 使用概率分布表示道德价值观的不确定性,在决策中考虑多个可能的道德观点。

· 多目标优化: 在决策过程中同时考虑多个道德目标,平衡不同的价值取向。

· 人类反馈融合: 持续收集人类的反馈和意见,动态更新AI系统的价值观模型。


基于道德不确定性的方法也有一些优势,如:

· 灵活性: AI系统能够适应人类价值观的变化,不断调整自身的行为。

· 防止极端化: 避免AI系统过度坚持某一价值观,导致偏执或极端行为。

支持人类主导: 尊重人类在道德演化中的主导地位,支持人类的决策。

07

相关工作

与进步对齐相关的现有研究

价值对齐(Value Alignment) 是AI安全领域的核心概念,旨在确保AI系统的目标和行为与人类的价值观保持一致。Stuart Russell等人在他们的工作中提出了合作式逆强化学习(Cooperative Inverse Reinforcement Learning,CIRL)[Hadfield-Menell et al., 2016],将人类和AI视为在部分可观测的环境中共同优化的参与者。


辅助博弈(Assistance Games) 也是基于CIRL的一种方法,强调AI需要从人类的行为中学习真实的奖励函数。这与本文提出的进步辅助博弈有一定的联系。


OpenAI在2020年发布的论文《Learning to Summarize from Human Feedback》[Stiennon et al., 2020],探索了 人类反馈强化学习(RLHF) 的方法,通过从人类的偏好中学习,以改进AI系统的输出质量。然而,RLHF主要关注的是当前人类的价值观,没有考虑价值观的动态演化。

此外,一些研究工作将对齐与道德直接联系起来。例如,Bai等人[Bai et al., 2022]在他们的研究中提出了宪法AI (Constitutional AI) ,通过AI反馈实现无害性。Liu等人[Liu et al., 2022]讨论了如何使生成式语言模型与人类价值观对齐。Nahian等人[Nahian et al., 2020; Nahian et al., 2021]探索了从故事中学习规范,以及使用规范先验训练价值对齐的强化学习代理。Peng等人[Peng et al., 2020]研究了减少语言模型中非规范性文本生成的方法。Ganguli等人[Ganguli et al., 2023]探讨了大型语言模型的道德自我修正能力。


在人类背景下的道德进步概念,最早由哲学家和社会科学家提出,并得到了研究关注。Macklin [Macklin, 1977]讨论了道德进步的概念。Singer [Singer, 2011]在《The Expanding Circle》中探讨了伦理学、进化和道德进步。


关于终身RLHF方法,可以与推荐系统的设置进行类比,其中讨论了偏好和反馈回路的时间演变等问题。例如,Mansoury等人[Mansoury et al., 2020]研究了推荐系统中的反馈回路和偏差放大。Kalimeris等人[Kalimeris et al., 2021]探讨了推荐系统中的偏好放大。Adomavicius等人[Adomavicius et al., 2022]讨论了推荐系统、真实偏好和偏好污染。Hazrati和Ricci[Hazrati & Ricci, 2022]研究了推荐系统对用户选择分布演化的影响。Carroll等人[Carroll et al., 2022]估计和惩罚推荐系统中引起的偏好转移。Chalyi和Leshchynskyi[Chalyi & Leshchynskyi, 2020]研究了推荐系统中用户偏好的时间建模。







请到「今天看啥」查看全文