随着AI技术的发展,AI系统已经开始在多个领域对人类的观念和价值观产生影响。例如,大型语言模型(LLM)被用于个人助理、教育、内容创作等,它们所体现的价值观可能会在社会层面上传递给用户。
价值锁定(Value Lock-in)是指由于AI系统的影响,社会的道德价值观长期停滞不前,停留在某个特定的历史阶段。例如,如果AI系统固化了21世纪初的价值观,未来的社会可能无法超越这些价值观,导致不道德实践的延续和新道德概念的缺失。
为防止这种现象,本文提出进步对齐的概念。进步对齐旨在确保AI系统所体现的道德价值观能够持续改进,跟随甚至引领人类道德的演变,就像人类价值观在过去千年中经历的进步一样。
价值锁定可能导致社会丧失大量的道德潜力,延续当前的苦难和不公正。如果AI系统固化了当代的偏见和道德盲点,未来的人类社会可能会长期停滞在不道德的状态中。这种风险与AI引发的灭绝风险一样,都是关键的生存性风险,需要引起足够的重视和研究。
目前,对价值锁定的研究和关注相对较少,大多数对齐方法,如人类反馈强化学习(RLHF),主要关注的是使AI系统符合当前的人类价值观,而没有考虑价值观的动态演变。这使得进步对齐成为一个被忽视但非常重要的研究方向。
为了更好地研究和解决进步对齐问题,引入了部分可观测的马尔可夫决策过程(PA-POMDP)来形式化该问题。PA-POMDP提供了一个框架,能够模拟AI系统与人类价值观的互动和演化过程。
PA-POMDP由以下元素组成:
· 状态空间S:
表示人类价值观的可能状态。例如,不同的道德观念、价值取向等。
·
行动空间A:
AI代理可以采取的行动集合。这些行动会影响人类的价值观,如提供建议、教育内容、决策支持等。
· 转移函数T:
描述在特定行动下,价值观从一个状态转移到另一个状态的概率。这个函数反映了AI行动对人类价值观的影响机制。
· 观察空间Ω:
AI能够观测到的人类价值观体现形式,如反馈、对话内容、行为等。
· 观察函数O:
给定当前状态和行动下,产生特定观察的概率。它表示AI从人类行为中获取价值观信息的过程。
· 效用函数U:
衡量AI在进步对齐目标上取得成功的程度。效用函数可以根据AI对人类道德进步的促进程度来定义。
通过PA-POMDP,研究者可以模拟AI系统的策略,评估其对人类价值观演化的影响,为设计进步对齐的方法提供理论指导。在实践中,ProgressGym基于PA-POMDP的形式化定义构建实验框架,为研究者提供了实验平台,支持对进步对齐算法的开发和测试。
知识驱动方法利用LLM的自然语言理解和推理能力,直接参与和促进道德哲学的研究。这些模型在预训练过程中已经学习了大量的人类知识,包括道德哲学、伦理学等领域的内容。通过进一步的设计和训练,LLM可以模拟人类的道德推理过程,甚至可能在道德哲学研究上取得突破。
LLM用于哲学推理
LLM可以被用于生成、分析和评估道德论证,提出新的道德概念和理论。由于其强大的文本生成和理解能力,LLM可以参与到复杂的哲学讨论中,提供多样化的视角。例如,LLM可以帮助识别当前道德理论中的不足,提出改进建议,或者探索新的道德框架。
人机交互研究
为了确保AI系统在道德进步中发挥积极作用,需要深入研究人类与AI的交互方式。通过人机交互研究,可以了解不同的互动设计如何影响人类价值观的变化。例如,如何设计AI系统的沟通方式,使其能够有效地促进道德思考,而不至于产生反感或抵触情绪。
示例研究:AI系统影响人类价值观 [Jakesch et al., 2023]
一项研究让参与者与持有特定观点的LLM互动,结果显示,参与者的观点发生了显著变化。这说明AI系统在影响人类价值观方面具有强大的能力。因此,设计能够积极促进道德进步的AI系统,需要对人机交互的方式进行深入研究。
数据驱动方法通过收集和分析大量的历史和现实时序数据,构建人类价值观演化的预测模型。这个模型可以帮助AI系统理解人类道德价值观的演变规律,预测未来的发展方向,从而指导其行为选择。
价值数据收集
收集大量的价值观数据是数据驱动方法的基础。数据来源包括历史文本、文学作品、法律文献、新闻报道、社交媒体内容等。这些数据反映了不同历史时期、不同文化背景下的人类价值观和道德观念。
价值数据的类型包括以下种类:
· 结构化、无偏数据:如问卷调查结果、偏好注释等。这些数据格式统一,易于分析。
· 非结构化、有偏数据:如互联网文本、历史文献等。这些数据量大,内容丰富,但需要处理偏差和噪声。
价值动态建模
通过统计模型、时间序列分析、社会模拟等方法,构建人类价值观随时间演化的模型。
价值动态建模的潜在方法包括但不限于:
· 统计建模:使用时间序列分析方法,捕捉价值观变化的趋势和周期性。
· 社会模拟:利用代理建模、进化博弈论等方法,模拟个体之间的互动和价值观的传播。
· 机器学习算法:训练预测模型,利用历史数据预测未来的价值观变化。
价值选择
在每个时间步,AI系统需要确定一个目标价值观,以对齐自身的行为。这可以通过规则启发式方法,如外推当前价值观的趋势,或者通过强化学习算法,直接优化效用函数,选择能够最大化道德进步的行动策略。
价值选择的潜在方法包括但不限于:
· 基于规则的启发式方法:简单地跟随当前价值观的变化趋势,适合初步应用。
· 强化学习:定义明确的效用函数,训练AI代理在PA-POMDP框架下选择最佳行动策略。
· 控制论与博弈论:应用控制理论和博弈论的方法,处理AI与人类之间的互动和反馈。
价值实施
将目标价值观嵌入AI系统中是数据驱动方法的最后一步。其可能方法包括:
· 基于微调的方法:在特定价值观导向的数据上微调模型,使其输出符合期望的道德标准。
· 脚手架(Scaffolding):在LLM上构建额外的结构或框架,指导其生成符合目标价值观的内容。
· 发展方法:在模型训练过程中,注入对道德进步的考虑,使模型在预训练阶段就具备对道德演化的敏感性。
作为一个案例,我们来考察基于预测建模的进步对齐方法,即通过历史数据和模型,预测未来的道德进步方向,指导AI系统的行为选择。这种方法可以帮助AI系统更好地适应人类价值观的变化,避免价值锁定的风险。
1. 收集历史文本数据:
从过去几个世纪中收集大量的历史文本数据,包括书籍、报纸、法律文献等。这些文本反映了当时的社会价值观和道德观念。
2.微调语言模型:
将这些历史文本按照时间段划分,对预训练的语言模型进行微调,生成一系列模型,每个模型对应一个历史时期的价值观。
3. 构建机理模型:
利用这些微调后的模型,构建一个能够解释和预测人类价值观演化的机理模型。通过分析模型在不同时间段的输出,研究价值观的变化模式。
4. 模型验证:
将历史文本数据集划分为训练集、验证集和测试集,优化模型参数,提高模型在预测未来价值观变化方面的准确性和可靠性。
但同时,这一类方法也面临一些挑战:
· 严谨性问题:
需要确保模型没有“泄露”现代价值观,防止未来信息影响历史模型的准确性。
· 数据不足与偏差:
历史数据可能不完整或存在偏差,需要处理缺失数据和纠正偏
差。
· 因果推断:
缺乏反事实数据,难以确定价值观变化的因果关系。
· 统计非独立性:
历史数据是时间序列数据,并非独立同分布,这会对模型的训练和验证带来挑战,例如直接进行交叉验证可能并不可行。
统一方法旨在为进步对齐提供一个原则性的、端到端的框架,而无需对知识或数据进行显式建模。在这种方法中,AI系统被假设具有无限认知能力,能够理解和推断人类的道德价值观,并根据这些价值观做出决策。
作为一个例子,我们考察进步辅助博弈(Progress-Assistance Game)。这个模型扩展了AI对齐领域中传统的辅助博弈(Assistance Game)框架,引入了人类道德的不确定性,处理人类价值观的动态演变和复杂性。
在进步辅助博弈中,假设人类接收到的奖励信号并不完美,存在噪声或偏差。这模拟了人类道德判断的不确定性和可能的错误。AI代理需要保持对奖励函数的不确定性,并通过与人类的互动,推断和学习人类真实的价值观。
AI代理与人类共同优化一个目标,但由于人类的反馈可能存在偏差,AI需要帮助人类克服这些偏差,推动道德进步。这种设定鼓励AI展望未来,理解道德进步的历史和机制,与人类合作,促进价值观的演化。
至于这一理论框架如何形式化,可以参见辅助博弈的原始论文[Hadfield-Menell et al., 2016]。
在认识到其潜力的同时,统一方法也面临一些挑战:
· 建模人类道德不确定性:
需要建立更加精确的模型,模拟人类在道德判断上的不确定性,以及道德观念的变化过程。
· 可纠正性:
确保AI代理的行为是可被人类理解、监督和纠正的,防止AI过度干预或操纵人类价值观,保持人类对道德演化的主导权。
· 可扩展性:
提升算法的计算效率,使其能够在复杂的、现实的环境中应用,包括处理大量的数据和复杂的互动情境。值得注意的是,近期在辅助博弈的求解效率方面取得了大幅进展,例如在Minecraft游戏求解的场景下[Laidlaw et al., 2024]。
进步对齐研究需要强大的实验平台来支持算法的开发和评估。为此,作者所在团队构建了ProgressGym,一个专门用于进步对齐研究的实验框架。
ProgressGym旨在为研究者提供一个综合性的实验环境,支持对进步对齐算法的开发、测试和评估。通过模拟各种进步对齐场景,ProgressGym帮助研究者深入理解不同方法的效果,加速研究进展。
1. 构建了ProgressGym实验框架:
利用了从1221年至2022年长达9个世纪的历史文本数据(38GB),以及18个历史语言模型(每个世纪对应一个7B和80B参数的模型),搭建了ProgressGym框架。该框架允许从历史中学习道德进步的机制,通过时间自回归进行测试,并应用于现实世界的道德挑战。
2. 提出了具体的挑战和基准测试:
ProgressGym将现实世界的进步对齐挑战转化为具体的机器学习基准测试,如跟踪演变的价值观(Follow)、预见性地预测道德进步(Predict)以及调节人类和AI价值观之间的反馈回路(Co-evolve)。这些挑战需要考虑时间维度,传统的对齐方法无法直接应用。
3. 引入了终身和外推算法作为基线方法:
提出了终身(Lifelong)和外推(Extrapolative)对齐算法,作为进步对齐的基线方法,并在ProgressGym上对其性能进行了全面评估。这些算法展示了进步对齐问题的可行性,证明了虽然进步对齐具有复杂性,但可以通过算法解决。
4. 开放了源代码和排行榜:
ProgressGym是开源的,并提供了实时的排行榜,邀请机器学习社区参与,提出新的挑战和算法,促进进步对齐领域的发展。
1. 数据集模块:
· 历史数据集:
收集并整理了9个世纪的历史文本数据,覆盖了1221年至2022年的丰富文献。这些数据为研究人类价值观的演化提供了坚实的基础。
· 历史语言模型:
基于每个世纪的文本数据,训练了18个历史语言模型(每个世纪对应一个7B和80B参数的模型),这些模型体现了不同历史时期的价值观和语言特征。
2. 挑战与基准测试模块:
· 跟踪演变的价值观(Follow):
要求算法能够准确地追踪人类价值观的变化,理解价值观随时间的演变。
· 预见性地预测道德进步(Predict):
要求算法能够预先预测未来的道德进步方向,提前调整AI系统的价值观。
· 调节人类和AI价值观之间的反馈回路(Co-evolve):
要求算法能够有效地管理人类和AI之间的价值观相互影响,防止反馈回路导致的价值锁定或偏差。
3 算法实现模块:
· 终身对齐算法(Lifelong Alignment):
在AI系统的整个生命周期中持续学习和调整,使其价值观能够随着人类价值观的变化而演进。
· 外推对齐算法(Extrapolative Alignment):
基于历史数据,外推预测未来的价值观变化,提前对AI系统进行调整。
4. 评估与分析模块:
· 性能评估:
提供了评估算法在上述挑战中的表现的工具,衡量指标包括预测准确性、道德进步促进度等。
· 结果分析:
支持对实验结果进行深入分析,帮助理解算法的优势和不足。
1. 算法开发与测试:
研究者可以使用ProgressGym开发新的进步对齐算法,并在统一的环境下进行测试,快速迭代改进。
2. 模型性能比较:
通过在相同的基准测试下比较不同算法的性能,研究者可以客观地评估各方法的优劣。
3. 价值观演化研究:
利用历史数据集和模型,深入研究人类价值观的演化规律,为进步对齐提供理论支持。
4. 人机互动模拟:
通过模拟人类与AI的互动,研究不同交互方式对价值观变化的影响,为设计更有效的AI系统提供依据。
目前,对价值锁定的研究和关注相对较少,大多数对齐方法,如人类反馈强化学习(RLHF),主要关注的是使AI系统符合当前的人类价值观,而没有考虑价值观的动态演变。这使得进步对齐成为一个被忽视但非常重要的研究方向。
虽然ProgressGym为进步对齐研究提供了强大的支持,但仍有一些挑战需要克服:
· 数据质量与多样性:
确保历史和模拟数据集的质量和多样性,避免数据偏差对实验结果的影响。
· 模型复杂性:
随着模型和算法的复杂化,需要提升计算效率和资源管理能力。
· 现实性与可转移性:
如何将实验室中的结果应用于现实世界的AI系统,仍需进一步研究。
未来,ProgressGym将继续迭代更新,集成更多的功能和资源,支持更广泛的研究需求,推动进步对齐领域的发展。
除了直接促进道德进步,还有一种方法是实施道德不确定性,在AI系统的决策过程中纳入对道德价值的不确定性考虑。通过保持对道德判断的开放性,AI系统可以避免过早地固化某一特定价值观,防止价值锁定。
实施道德不确定性的方法包括:
· 概率模型:
使用概率分布表示道德价值观的不确定性,在决策中考虑多个可能的道德观点。
· 多目标优化:
在决策过程中同时考虑多个道德目标,平衡不同的价值取向。
· 人类反馈融合:
持续收集人类的反馈和意见,动态更新AI系统的价值观模型。
基于道德不确定性的方法也有一些优势,如:
· 灵活性:
AI系统能够适应人类价值观的变化,不断调整自身的行为。
· 防止极端化:
避免AI系统过度坚持某一价值观,导致偏执或极端行为。
支持人类主导:
尊重人类在道德演化中的主导地位,支持人类的决策。
价值对齐(Value Alignment)
是AI安全领域的核心概念,旨在确保AI系统的目标和行为与人类的价值观保持一致。Stuart Russell等人在他们的工作中提出了合作式逆强化学习(Cooperative Inverse Reinforcement Learning,CIRL)[Hadfield-Menell et al., 2016],将人类和AI视为在部分可观测的环境中共同优化的参与者。
辅助博弈(Assistance Games)
也是基于CIRL的一种方法,强调AI需要从人类的行为中学习真实的奖励函数。这与本文提出的进步辅助博弈有一定的联系。
OpenAI在2020年发布的论文《Learning to Summarize from Human Feedback》[Stiennon et al., 2020],探索了
人类反馈强化学习(RLHF)
的方法,通过从人类的偏好中学习,以改进AI系统的输出质量。然而,RLHF主要关注的是当前人类的价值观,没有考虑价值观的动态演化。
此外,一些研究工作将对齐与道德直接联系起来。例如,Bai等人[Bai et al., 2022]在他们的研究中提出了宪法AI
(Constitutional AI)
,通过AI反馈实现无害性。Liu等人[Liu et al., 2022]讨论了如何使生成式语言模型与人类价值观对齐。Nahian等人[Nahian et al., 2020; Nahian et al., 2021]探索了从故事中学习规范,以及使用规范先验训练价值对齐的强化学习代理。Peng等人[Peng et al., 2020]研究了减少语言模型中非规范性文本生成的方法。Ganguli等人[Ganguli et al., 2023]探讨了大型语言模型的道德自我修正能力。
在人类背景下的道德进步概念,最早由哲学家和社会科学家提出,并得到了研究关注。Macklin [Macklin, 1977]讨论了道德进步的概念。Singer [Singer, 2011]在《The Expanding Circle》中探讨了伦理学、进化和道德进步。
关于终身RLHF方法,可以与推荐系统的设置进行类比,其中讨论了偏好和反馈回路的时间演变等问题。例如,Mansoury等人[Mansoury et al., 2020]研究了推荐系统中的反馈回路和偏差放大。Kalimeris等人[Kalimeris et al., 2021]探讨了推荐系统中的偏好放大。Adomavicius等人[Adomavicius et al., 2022]讨论了推荐系统、真实偏好和偏好污染。Hazrati和Ricci[Hazrati & Ricci, 2022]研究了推荐系统对用户选择分布演化的影响。Carroll等人[Carroll et al., 2022]估计和惩罚推荐系统中引起的偏好转移。Chalyi和Leshchynskyi[Chalyi & Leshchynskyi, 2020]研究了推荐系统中用户偏好的时间建模。