全文摘要:OpenAI的CTO Mira Murati讨论了公司的目标,即构建通用人工智能并确保其对人类有益。她提到了GPT-3和DALL-E-1等模型,这些模型能够处理文本、图像和代码,并在实际应用中取得了进展,例如GitHub Copilot。同时,她强调了这些大型模型在训练数据量、能源消耗和偏见方面面临的挑战。为了解决这些问题,OpenAI正在研究如何将模型与人类意愿对齐,使用人类反馈来提高模型的安全性和可靠性。OpenAI采取了以下方法来将AI模型与人类意愿对齐:
利用人类反馈:通过邀请人类参与模型的训练过程,提供反馈,从而使模型的行为更符合人类的意图。
强化学习:使用人类反馈进行强化学习,以提高模型在执行任务时的安全性和可靠性。
对齐技术:开发特定的对齐技术,如利用人类反馈来调整模型的行为,使其更好地符合人类的价值观和偏好。
预训练和微调:在模型的预训练阶段整合对齐策略,然后在实际应用中通过微调进一步优化模型行为。
审计和评估:在模型部署前进行审计和评估,确保模型遵守使用条款和政策,减少偏见和其他问题。
处理偏见:在数据集中检查和解决偏见,尝试在模型训练的早期阶段就解决这些问题。
迭代过程:将对齐视为一个持续的迭代过程,不断调整和改进模型以更好地适应人类意愿。
多样性和包容性:确保在获取人类反馈和部署产品时考虑到多样性,以服务于更广泛的人类群体。
行业规范:与其他组织合作制定大型语言模型部署的行业标准,关注滥用、减轻无意的伤害,以及技术、产品获取和反馈。
逐步部署:通过逐步部署模型,并根据反馈进行调整,以确保模型的可靠性和安全性。
下面是演讲全文:
OpenAI的目标是构建通用人工智能并确保其造福人类。我和我们的团队致力于实现这一目标,通过开发先进的AI系统,并在实际应用中达到最有效的、稳健的福祉效果。同时,我们在努力让机器以类似于人类的方式理解世界。例如,我们通过文本、视频和图像来感知世界。我们听得见,看得见,我们试图将这些感知方式引入到AI系统中。
在GPT-3开发之后不久,也就是2021年初,我们推出了DALL-E-1系统。DALL-E-1系统是一种模型,用于预测未来图像而非文本中的下一个单词。它与GPT-3非常相似。但这里的区别是,我们不仅处理文本,还处理图像数据。我们改变了数据集,却看到了完全不同的能力。现在,这个模型能够在接收到一行指令后生成图像。任何人给出指令后,它会根据该指令生成图像。
我们还通过DALL-E系统不再只围绕文本和图像,而是也涉及代码。这是我们在DALL-E模型上努力开发科杰克斯(Codex)模型的原因。科杰克斯模型本质上是GPT-3,但第二种不同的是,它不仅理解自然语言,还可以编写代码。当你用英语编写命令后,你实际上可以编写任何类型的代码。于是,这种系统使得编程这座大山变得触手可及,提供一条通往自然语言的命令途径,而科杰克斯模型能够将其编写为计算机程序语言。
柯杰克斯模型的一个最激动人心的应用就是开源代码伴侣(GitHub Copilot),它是由GitHub与OpenAI合作开发的工具。这是一个程序员使用工具,包括那些在OpenAI工作的程序员。它是一种生产力工具。这是第一次看到这些AI系统进入职场。简而言之,Copilot 会查看代码和文件中的注释,并提出下一个代码行或几行的建议,然后程序员可以选择接受或拒绝建议。这样一来,模型会变得更为复杂,它可以学会从反馈中学习。
几个月前,我们还发布了DALL-E-2模型,以展示我们近期取得的进展。
首先让我们快速看一下GPT-3模型,这是我们之前的讨论内容。这是一个基线GPT-3模块,它遵循指令,与改进的GPT-3模型相比,后者我们称之为对齐的GPT-3模型,后者在遵循指令方面做得更好,也很安全。接下来让我们看看DALL-E-2模型。这是我们的最新DALL-E模型,它相比第一个版本有了改进。我们称之为DALL-E-2模型,它生成更加准确和逼真的图像,图像分辨率为原来的四倍。
你可以结合这些概念和特征,它已经学会了图像与描述它们的文字之间的关系。图中是一个指令,要求绘制梵高的星空风格的狐狸画。你看到非常美丽的图像,笔触和色彩都类似于梵高的作品。另一个例子,指令是描绘一只在宇宙星空中做梦的太空浣熊,数字艺术风格的图像。可以看到,DALL-E生成了一个非常有创意和独特性的图像。人们玩儿了一把DALL-E,这里展示的就是一个,带有苹果形状的中世纪玩具椅。你可以看到它遵循了椅子的形状和功能,在应用苹果的特征时也考虑到了。
DALL-E-年轻版的改进在于数据集和处理过程稍有不同。我们采用了扩散过程,这是一种从随机点开始,逐步调整图案,直至图像的变化。我们刚刚开始将DALL-E系统投入研究阶段,我们要了解更多模型的能力,了解其限制,并给一小部分可信用户访问,从而更好地理解限制,建立起应对措施,使这些系统更稳健可靠。
总的来说,对于GPT-3和科杰克斯,我们已经看到了实际应用中的显著进展。例如,GitHub Copilot,这是AI共同编程工具,为开发人员提供代码建议。我们还看到Figma使用科杰克斯将设计转化为高质量代码,Relit平台通过采用科杰克斯让开发者合作更加流畅。GPT-3方面,Sana Labs开发了一个生成问答和内容的系统,增强组织和个人的学习体验,还有其他为合同工简化税务申报流程的工具,使用GPT-3进行教育,比如为不同年级的学生提供虚拟旅游助手,以及广告文案等。
这些大型模型的优点与局限性引发了诸多讨论。
首先是训练数据量巨大,这使得我们很难发现它们吸收的问题。GPT-3案例中,有给出指令让其释放有害信息的例子。也有对原始DALL-E模型输入图像范围的批评。此外,这些大规模模型在训练过程中的能源消耗问题以及环境影响也引起了担忧。
这些系统确实充满了潜在的乐观之处,可以帮我们解决一些过去无法解决的问题。但显而易见,存在缺点和局限性,我们需要克服它们。其中之一是我们提到的问题,即关于滥用、偏见和模型实际使用中的可靠性。
为此,我们想要研究如何将这些模型对齐到人的意愿和偏好。这意味着我们希望这些模型执行我们的明确指令,但我们也希望它们能够执行隐含的指令。同样地,我们也希望它们不做有害的事情,而是变得平等。我们希望它们按我们传达的意图行事。
这对模型来说是模糊的,很难明确定义。因此,我们使用的一种方法是通过人类反馈。邀请人类参与其中,为模型提供反馈,使我们的意图更清晰。我们就是这样使用GPT-3。
当最初开发GPT-3时,我们只是训练它为了下一个单词,而几乎没有考虑过安全方面。因此我们使用了对齐(Aligne)技术,如利用人类反馈进行强化学习,以更好地使GPT-3与人类意愿对齐。我们发现这样做不仅让模型更安全、更可靠,对实际应用也更为有用。这是安全研究首次有了实际应用,实际上是将实用性带入了企业的业务中。
当然,优化对齐还有很多其他问题,这只是我们已经看到的一个方面。我们相信这些对齐技术可以、并且确实可以扩展,当然也可以解决语言模型的可靠性问题,以及解决其他问题。
部署这些大型模型还面临的一大挑战是偏见,模型的性能取决于背后的训练数据,并没有特定的个性,只是基于我们训练它们的数据。对于DALL-E模型特别如此,我们在数据集中检查偏见并试图解决这个问题。
在模型准备部署的早期阶段,我们就开始采取行动,而不仅仅是等到模型准备好再解决。我们将其整合到模型的预训练阶段,但这是一个相当大的挑战。从社会学角度来看,尤其是在考虑数据分布的过程中,挑战颇多,技术层面也面临巨大挑战。例如,对于DALL-E-2,我们希望确保模型遵守我们的使用条款,并审核我们的使用方针,比如对色情和暴力图像的态度。
我们进行了评估,分析了训练数据集,我们将在偏离规则和政策的图像中选取一部分进行筛选,这可能会减少这些领域的偏见。但当我们进行筛选后,审计模型时,我们发现由于移除了某些内容,某些偏见反而被放大了。因此,我们不得不使用其他技术来恢复平衡。这真是一个不断循环的过程。
即使你采取了行动后,也需要审计系统发生了什么,并找出维持平衡的方法。这是一个非常艰难的问题,需要所有人共同努力,以妥善处理偏见等方面的问题。
你们在尝试获取人类反馈的时候,需要注意团队成员的多样性,不要仅仅是少数几个群体的意见。因为否则,有可能你会将反馈集中在少数几个群体偏好的喜好上,这并不一定代表你需要服务于整个人类群体。
确实如此,这是非常重要的问题,不仅在获取人类反馈时如此,还在产品部署时也是如此,确保产品部署给尽可能多样的群体,因为最终我们正在构建的是一种将在全世界广泛使用的强大系统,而世界本身就是非常多样化的。如果我们没有得到各种背景人群的训练,就无法得到有效应用,并且可能在某些群体中强化偏见,而在另一些群体中则无法有效工作。
我实际上提出了这些大型语言模型部署的行业规范,与Cohere和AI21实验室一起。我们正在提出的是一套大型语言模型部署的行业标准,我们正在关注三个不同的领域:滥用、减轻无意的伤害,以及背后的技术、产品获取和反馈。虽然这不是强制性的,但它是开启对话和讨论的第一步,以推动大型语言模型部署向前发展,并使这些系统更加可靠。这是第一步,我将其视为一个活文档,随着我们了解更多,我们将不断更新它。
问答环节:
谢谢你的演讲。我的问题是,我们刚刚从DeepMind那里听说了一些事情。其中一个问题是,你们是如何选择他们研究的问题的?那么,OpenAI又是如何决定是否研究某些特定问题?是研究AGI、其他技术还是?
特别是关于语言,我们知道有大量的自然语言数据,这是一项艰巨的任务,被认为是智力的顶峰——理解语言。而理解语言不仅包括概念,还涉及理解上下文,并且可以进行大量的推理。这一点是值得商榷的,但有些人相信,如果你能够真正掌握语言的各种形式,那么你就拥有了一种智能系统的方法。
我们之所以从语言开始,是因为数据量庞大且提出了这样的问题,这是一个非常具挑战性的任务。当我们着眼于对齐和使系统更可靠、更安全,使用实际的语言提供指令时,这非常容易通过计算机接口来实现。我们希望能真正构建起一个通用智能的系统。我们假设的方法是,如果能让它们像人类一样感知和理解世界,也许我们就能实现这一目标。于是,我们开始引入新的模态,如图像(正如你提到的DALL-E系统),以及代码。
代码是个有趣的案例,因为很多OpenAI项目中的人员都能够快速获得工具的反馈,无论是它是否实用。这是我们确定优先级的一种方式,但指导原则是引入有助于帮模型像人类一样感知世界的数据。
我想知道你在OpenAI的工作是否可以被逆向工程来解释这些AI模型,尤其是对于医疗设备获得批准,从人类语言的角度来看。
为了回答这个问题,我的意思是,你能逆向工程大规模语言模型,目的是帮助某些医疗设备获得批准,比如解释它们的工作原理吗?我不能确定这是否可能,但我认为很有可能的是,你可以与一个比今天更加先进的人工智能系统进行对话,进行辩论,并且这些系统可以解释事情,就像与实习生或分析师对话一样,实际告诉你信息或者解释一些在现实中普通人类可以解释的内容。