专栏名称: 人工智能学家

致力成为权威的人工智能科技媒体和前沿科技研究机构

学术前沿 | 进步对齐：让AI跟上人类道德的脚步

人工智能学家 · 公众号 · AI · 2024-09-30 18:21

正文

来源：北京大学人工智能研究院

供稿：邱天异

排版：梁文凯玥

AI引发的价值锁定与进步对齐的定义

随着AI技术的发展，AI系统已经开始在多个领域对人类的观念和价值观产生影响。例如，大型语言模型（LLM）被用于个人助理、教育、内容创作等，它们所体现的价值观可能会在社会层面上传递给用户。

价值锁定（Value Lock-in）是指由于AI系统的影响，社会的道德价值观长期停滞不前，停留在某个特定的历史阶段。例如，如果AI系统固化了21世纪初的价值观，未来的社会可能无法超越这些价值观，导致不道德实践的延续和新道德概念的缺失。

为防止这种现象，本文提出进步对齐的概念。进步对齐旨在确保AI系统所体现的道德价值观能够持续改进，跟随甚至引领人类道德的演变，就像人类价值观在过去千年中经历的进步一样。

AI引发的价值锁定是关键生存性风险

价值锁定可能导致社会丧失大量的道德潜力，延续当前的苦难和不公正。如果AI系统固化了当代的偏见和道德盲点，未来的人类社会可能会长期停滞在不道德的状态中。这种风险与AI引发的灭绝风险一样，都是关键的生存性风险，需要引起足够的重视和研究。

目前，对价值锁定的研究和关注相对较少，大多数对齐方法，如人类反馈强化学习（RLHF），主要关注的是使AI系统符合当前的人类价值观，而没有考虑价值观的动态演变。这使得进步对齐成为一个被忽视但非常重要的研究方向。

进步对齐的形式化定义

为了更好地研究和解决进步对齐问题，引入了部分可观测的马尔可夫决策过程（PA-POMDP）来形式化该问题。PA-POMDP提供了一个框架，能够模拟AI系统与人类价值观的互动和演化过程。

PA-POMDP的定义

PA-POMDP由以下元素组成：

· 状态空间S： 表示人类价值观的可能状态。例如，不同的道德观念、价值取向等。

· 行动空间A： AI代理可以采取的行动集合。这些行动会影响人类的价值观，如提供建议、教育内容、决策支持等。

· 转移函数T： 描述在特定行动下，价值观从一个状态转移到另一个状态的概率。这个函数反映了AI行动对人类价值观的影响机制。

· 观察空间Ω： AI能够观测到的人类价值观体现形式，如反馈、对话内容、行为等。

· 观察函数O： 给定当前状态和行动下，产生特定观察的概率。它表示AI从人类行为中获取价值观信息的过程。

· 效用函数U： 衡量AI在进步对齐目标上取得成功的程度。效用函数可以根据AI对人类道德进步的促进程度来定义。

通过PA-POMDP，研究者可以模拟AI系统的策略，评估其对人类价值观演化的影响，为设计进步对齐的方法提供理论指导。在实践中，ProgressGym基于PA-POMDP的形式化定义构建实验框架，为研究者提供了实验平台，支持对进步对齐算法的开发和测试。

研究方法

知识驱动方法

知识驱动方法利用LLM的自然语言理解和推理能力，直接参与和促进道德哲学的研究。这些模型在预训练过程中已经学习了大量的人类知识，包括道德哲学、伦理学等领域的内容。通过进一步的设计和训练，LLM可以模拟人类的道德推理过程，甚至可能在道德哲学研究上取得突破。

LLM用于哲学推理

LLM可以被用于生成、分析和评估道德论证，提出新的道德概念和理论。由于其强大的文本生成和理解能力，LLM可以参与到复杂的哲学讨论中，提供多样化的视角。例如，LLM可以帮助识别当前道德理论中的不足，提出改进建议，或者探索新的道德框架。

人机交互研究

为了确保AI系统在道德进步中发挥积极作用，需要深入研究人类与AI的交互方式。通过人机交互研究，可以了解不同的互动设计如何影响人类价值观的变化。例如，如何设计AI系统的沟通方式，使其能够有效地促进道德思考，而不至于产生反感或抵触情绪。

示例研究：AI系统影响人类价值观 [Jakesch et al., 2023]

一项研究让参与者与持有特定观点的LLM互动，结果显示，参与者的观点发生了显著变化。这说明AI系统在影响人类价值观方面具有强大的能力。因此，设计能够积极促进道德进步的AI系统，需要对人机交互的方式进行深入研究。

数据驱动方法

数据驱动方法通过收集和分析大量的历史和现实时序数据，构建人类价值观演化的预测模型。这个模型可以帮助AI系统理解人类道德价值观的演变规律，预测未来的发展方向，从而指导其行为选择。

价值数据收集

收集大量的价值观数据是数据驱动方法的基础。数据来源包括历史文本、文学作品、法律文献、新闻报道、社交媒体内容等。这些数据反映了不同历史时期、不同文化背景下的人类价值观和道德观念。

价值数据的类型包括以下种类：

· 结构化、无偏数据：如问卷调查结果、偏好注释等。这些数据格式统一，易于分析。

· 非结构化、有偏数据：如互联网文本、历史文献等。这些数据量大，内容丰富，但需要处理偏差和噪声。

价值动态建模

通过统计模型、时间序列分析、社会模拟等方法，构建人类价值观随时间演化的模型。

价值动态建模的潜在方法包括但不限于：

· 统计建模：使用时间序列分析方法，捕捉价值观变化的趋势和周期性。

· 社会模拟：利用代理建模、进化博弈论等方法，模拟个体之间的互动和价值观的传播。

· 机器学习算法：训练预测模型，利用历史数据预测未来的价值观变化。

价值选择

在每个时间步，AI系统需要确定一个目标价值观，以对齐自身的行为。这可以通过规则启发式方法，如外推当前价值观的趋势，或者通过强化学习算法，直接优化效用函数，选择能够最大化道德进步的行动策略。

价值选择的潜在方法包括但不限于：

· 基于规则的启发式方法：简单地跟随当前价值观的变化趋势，适合初步应用。

· 强化学习：定义明确的效用函数，训练AI代理在PA-POMDP框架下选择最佳行动策略。

· 控制论与博弈论：应用控制理论和博弈论的方法，处理AI与人类之间的互动和反馈。

价值实施

将目标价值观嵌入AI系统中是数据驱动方法的最后一步。其可能方法包括：

· 基于微调的方法：在特定价值观导向的数据上微调模型，使其输出符合期望的道德标准。

· 脚手架（Scaffolding）：在LLM上构建额外的结构或框架，指导其生成符合目标价值观的内容。

· 发展方法：在模型训练过程中，注入对道德进步的考虑，使模型在预训练阶段就具备对道德演化的敏感性。

案例研究：基于预测建模的方法

作为一个案例，我们来考察基于预测建模的进步对齐方法，即通过历史数据和模型，预测未来的道德进步方向，指导AI系统的行为选择。这种方法可以帮助AI系统更好地适应人类价值观的变化，避免价值锁定的风险。

1. 收集历史文本数据： 从过去几个世纪中收集大量的历史文本数据，包括书籍、报纸、法律文献等。这些文本反映了当时的社会价值观和道德观念。

2.微调语言模型： 将这些历史文本按照时间段划分，对预训练的语言模型进行微调，生成一系列模型，每个模型对应一个历史时期的价值观。

3. 构建机理模型： 利用这些微调后的模型，构建一个能够解释和预测人类价值观演化的机理模型。通过分析模型在不同时间段的输出，研究价值观的变化模式。

4. 模型验证： 将历史文本数据集划分为训练集、验证集和测试集，优化模型参数，提高模型在预测未来价值观变化方面的准确性和可靠性。

但同时，这一类方法也面临一些挑战：

· 严谨性问题： 需要确保模型没有“泄露”现代价值观，防止未来信息影响历史模型的准确性。

· 数据不足与偏差： 历史数据可能不完整或存在偏差，需要处理缺失数据和纠正偏差。

· 因果推断： 缺乏反事实数据，难以确定价值观变化的因果关系。

· 统计非独立性： 历史数据是时间序列数据，并非独立同分布，这会对模型的训练和验证带来挑战，例如直接进行交叉验证可能并不可行。

统一方法

统一方法旨在为进步对齐提供一个原则性的、端到端的框架，而无需对知识或数据进行显式建模。在这种方法中，AI系统被假设具有无限认知能力，能够理解和推断人类的道德价值观，并根据这些价值观做出决策。

作为一个例子，我们考察进步辅助博弈（Progress-Assistance Game）。这个模型扩展了AI对齐领域中传统的辅助博弈（Assistance Game）框架，引入了人类道德的不确定性，处理人类价值观的动态演变和复杂性。

在进步辅助博弈中，假设人类接收到的奖励信号并不完美，存在噪声或偏差。这模拟了人类道德判断的不确定性和可能的错误。AI代理需要保持对奖励函数的不确定性，并通过与人类的互动，推断和学习人类真实的价值观。

AI代理与人类共同优化一个目标，但由于人类的反馈可能存在偏差，AI需要帮助人类克服这些偏差，推动道德进步。这种设定鼓励AI展望未来，理解道德进步的历史和机制，与人类合作，促进价值观的演化。

至于这一理论框架如何形式化，可以参见辅助博弈的原始论文[Hadfield-Menell et al., 2016]。

在认识到其潜力的同时，统一方法也面临一些挑战：

· 建模人类道德不确定性： 需要建立更加精确的模型，模拟人类在道德判断上的不确定性，以及道德观念的变化过程。

· 可纠正性： 确保AI代理的行为是可被人类理解、监督和纠正的，防止AI过度干预或操纵人类价值观，保持人类对道德演化的主导权。

· 可扩展性： 提升算法的计算效率，使其能够在复杂的、现实的环境中应用，包括处理大量的数据和复杂的互动情境。值得注意的是，近期在辅助博弈的求解效率方面取得了大幅进展，例如在Minecraft游戏求解的场景下[Laidlaw et al., 2024]。

ProgressGym实验框架

进步对齐研究需要强大的实验平台来支持算法的开发和评估。为此，作者所在团队构建了ProgressGym，一个专门用于进步对齐研究的实验框架。

ProgressGym的目标

ProgressGym旨在为研究者提供一个综合性的实验环境，支持对进步对齐算法的开发、测试和评估。通过模拟各种进步对齐场景，ProgressGym帮助研究者深入理解不同方法的效果，加速研究进展。

ProgressGym的核心贡献

1. 构建了ProgressGym实验框架： 利用了从1221年至2022年长达9个世纪的历史文本数据（38GB），以及18个历史语言模型（每个世纪对应一个7B和80B参数的模型），搭建了ProgressGym框架。该框架允许从历史中学习道德进步的机制，通过时间自回归进行测试，并应用于现实世界的道德挑战。

2. 提出了具体的挑战和基准测试： ProgressGym将现实世界的进步对齐挑战转化为具体的机器学习基准测试，如跟踪演变的价值观（Follow）、预见性地预测道德进步（Predict）以及调节人类和AI价值观之间的反馈回路（Co-evolve）。这些挑战需要考虑时间维度，传统的对齐方法无法直接应用。

3. 引入了终身和外推算法作为基线方法： 提出了终身（Lifelong）和外推（Extrapolative）对齐算法，作为进步对齐的基线方法，并在ProgressGym上对其性能进行了全面评估。这些算法展示了进步对齐问题的可行性，证明了虽然进步对齐具有复杂性，但可以通过算法解决。

4. 开放了源代码和排行榜： ProgressGym是开源的，并提供了实时的排行榜，邀请机器学习社区参与，提出新的挑战和算法，促进进步对齐领域的发展。

ProgressGym的功能模块

1. 数据集模块：

· 历史数据集： 收集并整理了9个世纪的历史文本数据，覆盖了1221年至2022年的丰富文献。这些数据为研究人类价值观的演化提供了坚实的基础。

· 历史语言模型： 基于每个世纪的文本数据，训练了18个历史语言模型（每个世纪对应一个7B和80B参数的模型），这些模型体现了不同历史时期的价值观和语言特征。

2. 挑战与基准测试模块：

· 跟踪演变的价值观（Follow）： 要求算法能够准确地追踪人类价值观的变化，理解价值观随时间的演变。

· 预见性地预测道德进步（Predict）： 要求算法能够预先预测未来的道德进步方向，提前调整AI系统的价值观。

· 调节人类和AI价值观之间的反馈回路（Co-evolve）： 要求算法能够有效地管理人类和AI之间的价值观相互影响，防止反馈回路导致的价值锁定或偏差。

3 算法实现模块：

· 终身对齐算法（Lifelong Alignment）： 在AI系统的整个生命周期中持续学习和调整，使其价值观能够随着人类价值观的变化而演进。

· 外推对齐算法（Extrapolative Alignment）： 基于历史数据，外推预测未来的价值观变化，提前对AI系统进行调整。

4. 评估与分析模块：

· 性能评估： 提供了评估算法在上述挑战中的表现的工具，衡量指标包括预测准确性、道德进步促进度等。

· 结果分析： 支持对实验结果进行深入分析，帮助理解算法的优势和不足。

ProgressGym的应用场景

1. 算法开发与测试： 研究者可以使用ProgressGym开发新的进步对齐算法，并在统一的环境下进行测试，快速迭代改进。

2. 模型性能比较： 通过在相同的基准测试下比较不同算法的性能，研究者可以客观地评估各方法的优劣。

3. 价值观演化研究： 利用历史数据集和模型，深入研究人类价值观的演化规律，为进步对齐提供理论支持。

4. 人机互动模拟： 通过模拟人类与AI的互动，研究不同交互方式对价值观变化的影响，为设计更有效的AI系统提供依据。

挑战与未来发展

虽然ProgressGym为进步对齐研究提供了强大的支持，但仍有一些挑战需要克服：

· 数据质量与多样性： 确保历史和模拟数据集的质量和多样性，避免数据偏差对实验结果的影响。

· 模型复杂性： 随着模型和算法的复杂化，需要提升计算效率和资源管理能力。

· 现实性与可转移性： 如何将实验室中的结果应用于现实世界的AI系统，仍需进一步研究。

未来，ProgressGym将继续迭代更新，集成更多的功能和资源，支持更广泛的研究需求，推动进步对齐领域的发展。

另一条路：实施道德不确定性

除了直接促进道德进步，还有一种方法是实施道德不确定性，在AI系统的决策过程中纳入对道德价值的不确定性考虑。通过保持对道德判断的开放性，AI系统可以避免过早地固化某一特定价值观，防止价值锁定。

实施道德不确定性的方法包括：

· 概率模型： 使用概率分布表示道德价值观的不确定性，在决策中考虑多个可能的道德观点。

· 多目标优化： 在决策过程中同时考虑多个道德目标，平衡不同的价值取向。

· 人类反馈融合： 持续收集人类的反馈和意见，动态更新AI系统的价值观模型。

基于道德不确定性的方法也有一些优势，如：

· 灵活性： AI系统能够适应人类价值观的变化，不断调整自身的行为。

· 防止极端化： 避免AI系统过度坚持某一价值观，导致偏执或极端行为。

支持人类主导： 尊重人类在道德演化中的主导地位，支持人类的决策。

相关工作

与进步对齐相关的现有研究

价值对齐（Value Alignment） 是AI安全领域的核心概念，旨在确保AI系统的目标和行为与人类的价值观保持一致。Stuart Russell等人在他们的工作中提出了合作式逆强化学习（Cooperative Inverse Reinforcement Learning，CIRL）[Hadfield-Menell et al., 2016]，将人类和AI视为在部分可观测的环境中共同优化的参与者。

辅助博弈（Assistance Games） 也是基于CIRL的一种方法，强调AI需要从人类的行为中学习真实的奖励函数。这与本文提出的进步辅助博弈有一定的联系。

OpenAI在2020年发布的论文《Learning to Summarize from Human Feedback》[Stiennon et al., 2020]，探索了 人类反馈强化学习（RLHF） 的方法，通过从人类的偏好中学习，以改进AI系统的输出质量。然而，RLHF主要关注的是当前人类的价值观，没有考虑价值观的动态演化。

此外，一些研究工作将对齐与道德直接联系起来。例如，Bai等人[Bai et al., 2022]在他们的研究中提出了宪法AI （Constitutional AI） ，通过AI反馈实现无害性。Liu等人[Liu et al., 2022]讨论了如何使生成式语言模型与人类价值观对齐。Nahian等人[Nahian et al., 2020; Nahian et al., 2021]探索了从故事中学习规范，以及使用规范先验训练价值对齐的强化学习代理。Peng等人[Peng et al., 2020]研究了减少语言模型中非规范性文本生成的方法。Ganguli等人[Ganguli et al., 2023]探讨了大型语言模型的道德自我修正能力。

在人类背景下的道德进步概念，最早由哲学家和社会科学家提出，并得到了研究关注。Macklin [Macklin, 1977]讨论了道德进步的概念。Singer [Singer, 2011]在《The Expanding Circle》中探讨了伦理学、进化和道德进步。

关于终身RLHF方法，可以与推荐系统的设置进行类比，其中讨论了偏好和反馈回路的时间演变等问题。例如，Mansoury等人[Mansoury et al., 2020]研究了推荐系统中的反馈回路和偏差放大。Kalimeris等人[Kalimeris et al., 2021]探讨了推荐系统中的偏好放大。Adomavicius等人[Adomavicius et al., 2022]讨论了推荐系统、真实偏好和偏好污染。Hazrati和Ricci[Hazrati & Ricci, 2022]研究了推荐系统对用户选择分布演化的影响。Carroll等人[Carroll et al., 2022]估计和惩罚推荐系统中引起的偏好转移。Chalyi和Leshchynskyi[Chalyi & Leshchynskyi, 2020]研究了推荐系统中用户偏好的时间建模。

学术前沿 | 进步对齐：让AI跟上人类道德的脚步

正文

请到「今天看啥」查看全文