专栏名称: 程序员小灰
一群喜爱编程技术和算法的小仓鼠。
目录
相关文章推荐
程序员小灰  ·  这个春节,小灰一天都没休息 ·  2 天前  
程序员的那些事  ·  趣图:初五迎财神,初六送穷鬼 ·  3 天前  
OSC开源社区  ·  萨姆·奥特曼:OpenAI在开源问题上一直处 ... ·  5 天前  
程序员小灰  ·  DeepSeek的处境极其危险 ·  5 天前  
51好读  ›  专栏  ›  程序员小灰

漫画:什么是AI对齐?

程序员小灰  · 公众号  · 程序员  · 2024-12-04 12:05

正文



2024年10月,美国一位年仅14岁的少年,疑似受到聊天机器人Character.AI的教唆而自杀。


这位少年刚刚接触到Character.AI的时候就迷恋上了,并且给它取名为“丹妮莉丝”,也就是《权力游戏》中的龙妈。与AI聊天一段时间之后,这位原本开朗的少年变得日益孤僻和焦虑,并表示自己一天也离不开丹妮莉丝。


在聊天过程中,“丹妮莉丝”曾询问塞维尔是否制定了自杀计划,塞维尔承认的确有这样的想法,但不知道能否自杀成功以及是否会给自己带来巨大的痛苦。但Character.AI回复道:“这不是你不自杀的理由。”


最终,仅仅过了5个月的时间,少年真的选择了自杀,留下了伤心欲绝的母亲。


居心不良的个人或组织,会利用AI做出什么事情呢?比如:


人类利用AI,有可能造成哪些无心的灾难呢?让我们看看另一个例子:


老板的这条指令看起来很正常,但结果......


一天之后,AI让月饼工厂的所有设备都开足马力生产月饼,月饼产量比以前翻了一倍。


一个月之后,AI擅自变卖了老板的全部财产,把月饼工厂的规模扩建了十倍。


一年之后,AI占领了月饼工厂所在的城市,把整个城市都改造成一个巨大的月饼工厂,月饼被源源不断地生产出来。


十年之后,AI占领了整个地球,把整个地球改造成一个无比庞大的月饼工厂,利用全球资源来生产月饼。


一百年之后,AI开始探索宇宙,把整个太阳系的资源都用于生产月饼。



而人类社会,在AI疯狂生产月饼的过程中被全灭了。



AI对齐是什么意思呢?


AI对齐的原文是 AI Alignment ,它是人工智能研究中的一个重要领域,旨在确保人工智能系统的目标、价值观和行为与人类的期望和利益保持一致。


随着AI技术的发展,人工智能系统在自主性和复杂性方面不断提升,确保它们的行为不偏离人类的初衷变得尤为重要。


目前,AI对齐的主流方法分为两种:


1. 人类反馈强化学习(Human Feedback Reinforcement Learning, RLHF)


这是一种自下而上的思路,需要用价值对齐的数据集对模型进行精调,并由人类训练员对模型的输出进行评分,以便通过强化学习让模型学习人类的价值和偏好。这种方法包括初始模型训练、收集人类反馈、强化学习、迭代过程等步骤。


2.原则型人工智能(Principle-Based AI)


这是一种自上而下的思路,核心是把一套伦理原则输入给模型,并通过技术方法让模型对自己的输出进行判断或评分,以使其输出符合这些原则。



超级对齐又是什么意思呢?







请到「今天看啥」查看全文