专栏名称: 生信菜鸟团
生信菜鸟团荣誉归来,让所有想分析生物信息学数据的小伙伴找到归属,你值得拥有!
目录
相关文章推荐
生信宝典  ·  PBJ | ... ·  14 小时前  
生信宝典  ·  iMeta | ... ·  昨天  
BioArt  ·  Nat Cell Biol | ... ·  2 天前  
生信菜鸟团  ·  ChIP-Seq motif ·  3 天前  
51好读  ›  专栏  ›  生信菜鸟团

'open' AI 实际上是 closed AI

生信菜鸟团  · 公众号  · 生物  · 2025-01-02 09:39

正文

Basic Information

  • 英文标题:Why ‘open’ AI systems are actually closed, and why this matters
  • 中文标题:为什么‘开放’的人工智能系统实际上是封闭的,以及为什么这一点很重要
  • 发表日期:27 November 2024
  • 文章类型:Perspective
  • 所属期刊:Nature
  • 文章作者:David Gray Widder | Sarah Myers West
  • 文章链接:https://www.nature.com/articles/s41586-024-08141-1

Abstract

Para_01
  1. 本文考察了‘开放’的人工智能(AI)。
  2. 关于‘开放’AI的说法往往缺乏精确性,经常忽视对大规模AI开发和部署中的行业集中度的重大审查,并且通常错误地将从自由开源软件中导入的理解应用于AI系统。
  3. 目前,强大的行为体正在试图通过声称‘开放’AI要么有利于创新和民主,要么有害于安全,来塑造政策。
  4. 当政策被制定时,定义很重要。
  5. 为了澄清这场辩论,我们考察了AI开放性的主张基础,并提供了AI是什么以及‘开放’在AI中能提供什么和不能提供什么的实质性分析:检查模型、数据、劳动力、框架和计算能力。
  6. 我们强调了‘开放’AI的三个主要优势,即透明度、可重用性和可扩展性,并观察到最‘开放’的AI允许在现有模型上进行某些形式的监督和实验。
  7. 然而,我们发现单靠开放并不能改变AI中的权力集中。
  8. 正如许多传统的开源软件项目以各种方式被大型科技公司所利用一样,我们展示了围绕‘开放’AI的言论常常以加剧而非减少AI行业中权力集中的方式被使用。

Main

Para_01
  1. 本文探讨了‘开放’的人工智能(AI)。
  2. 我们发现,开源软件的概念正被以不恰当的方式应用于AI系统。
  3. 当行业参与者一方面声称开放AI有利于科学创新和民主,另一方面又认为开放AI对安全有害时,我们试图将关于AI‘开放性’优势的讨论建立在对AI本质以及AI开放性能提供什么和不能提供什么的物质分析基础上。
Para_02
  1. 为此,我们回顾了人工智能系统的核心组成部分,探讨了哪些部分可以开放,哪些不能,并回顾了围绕开放人工智能概念形成的生态系统。
  2. 我们发现,开放的人工智能系统可以提供透明度、可重用性和可扩展性:它们可以在不同程度上被审查、重用和‘在此基础上构建’。
  3. 但我们也发现,关于开放性的主张往往缺乏精确性,通常只关注人工智能系统从开发到部署生命周期中的一个阶段,经常忽视大规模人工智能开发和部署中的显著行业集中,从而扭曲了从自由开源软件中获得的开放性的常识理解。
  4. 将开放性与人工智能的经济激励隔离开来的论述很少涉及背景、权力和使用的问题——这样的系统将如何使用,由谁使用,在谁身上使用——即使这些问题深刻地影响了关于开放性和人工智能的辩论所声称关心的政策结果。
Para_03
  1. 这些问题在我们当前的人工智能领域中尤为重要,该领域主要由企业主导。
  2. 创造条件使独立的技术替代方案能够在行业主导的技术环境中蓬勃发展是一个值得追求的目标。
  3. 然而,正如许多传统的开源项目以各种方式被大型科技公司所利用一样,我们的研究发现表明,开放性的言论经常被用来,非但没有缓解,反而加剧了人工智能领域的权力集中。
Para_04
  1. 目前,开放人工智能的修辞正在引导美国和欧盟等司法管辖区的政治和研究关注,并塑造政策。
  2. '开源AI'的讨论主要由AI公司构建,它们利用开放性的主张来服务于其特定的监管和市场目标。
  3. 根据其商业模式,公司利用开放性的修辞来隐含地支持AI应该要么免于监管,要么受到严格的许可要求或出口管制的论点。
  4. 同时,研究人员最近的工作有助于复杂化这些主张,即使它没有重塑公共辩论,通过评估模型开放性的风险和好处以及创建不同程度开放模型的分类来增加细节和基础,试图提供概念上的清晰度。

Open AI and definitional arbitrage

Para_01
  1. AI本身的定义存在争议且不明确,这进一步混淆了在AI背景下‘开放’意味着什么的问题。
  2. 在其超过70年的历史中,AI一词被应用于各种各样的方法,更多地作为一种营销和抱负的表达,而不是一个技术术语。
  3. 一些AI系统是确定性的,例如基于规则的系统,它们——给定一组输入——遵循一组指令以产生明确定义的输出。
  4. 其他的则是概率性的,通过与大量数据池进行比较,并从数据点之间的联系中得出推论。
  5. 目前,该术语通常描述的是概率性、大型、资源密集型的机器学习系统,所谓的‘生成式’AI在大众讨论中吸引了最多的关注。
  6. 因为大型和生成式AI系统最明显地扰乱了传统的开源定义,并且它们是当前政策和讨论的焦点,我们专注于这些系统。
Para_02
  1. 对定义清晰的需求引发了大量讨论,并最终促成了开放源代码倡议组织的一项提案。
  2. 在关于人工智能的更普及的讨论中,人们借鉴了几十年前为了抵制企业控制而形成的自由软件意识形态,将自由和开源软件的传统理解投射到开放的人工智能系统上,即使这些理解并不适用。
  3. 从开源促进软件开发民主化的承诺,到许多人关注开源代码可以确保其完整性和安全性,再到开源拉平了竞争环境,让创新者能够脱颖而出,开源软件确实做到了这些事情,但程度各不相同。
Para_03
  1. 开放的人工智能与开源软件在关键方面有所不同。
  2. 与开源软件不同,识别人工智能系统中的危害和缺陷需要的不仅仅是开放的权重和可访问的应用程序编程接口(API)或公开许可的人工智能模型(如Meta的LLaMA模型系列),尽管提供训练数据和严格的公开文档对审计人工智能系统的能力有积极影响,这对于问责制至关重要,但预测概率系统的行为了存在固有的局限性。
Para_04
  1. 同样,尽管开放性可以在边缘促进竞争——使其他人能够通过微调高效地在基础AI模型上构建——但这并不会扰乱市场的整体特性。
  2. 微调也不会消除在基础模型开发阶段做出的关键决策的影响。
  3. 导致AI领域竞争不平等的因素包括网络效应、数据集的访问、大规模推理所需的计算的访问和成本、缺乏可行的商业模式以及目前过高的利率。
  4. 这些因素共同极大地限制了AI初创企业在当前商业环境中的竞争力,并促成了一个市场,在这个市场中,盈利路径主要通过大型科技公司——这些公司的基础设施对于AI发展至关重要,且它们对市场的访问对于任何投资回报都是必不可少的。
  5. 开放性可能使修改已经开发的AI模型的能力更强,但这些更大的环境因素影响了此类实验产品的市场路径。
Para_05
  1. 实际上,人工智能开放性的梯度提供了大相径庭的可能性,尽管它们都被令人困惑地归类在同一术语‘开放性’之下。
  2. 一些被描述为开放的系统,如Meta的LLaMA-3,提供的不过是一个API或下载模型的能力,而这些模型受制于明显非开放的使用限制。
  3. 在这种情况下,这是‘开放洗白’系统,这些系统更应该被视为封闭的。
  4. 其他最大化的开放人工智能变体,如EleutherAI的Pythia系列,走得更远,提供对源代码、底层训练数据和完整文档的访问,以及根据与开源计划长期定义的开源条款一致的许可,广泛重用人工智能模型。
Para_06
  1. 鉴于这些混乱的定义,除非逐字引用声明,我们在本文其余部分避免使用开源一词,而是使用开放这一通用术语。

What is (and is not) open about open AI?

Para_01
  1. AI系统需要独特的开发流程,并依赖于集中在少数大型科技公司手中的专门且昂贵的资源。
  2. 鉴于构建大规模AI系统所需的资源,拥有计算能力、数据集和研究团队的商业AI公司在AI研究与开发领域占据越来越主导的地位。
  3. 因此,这些公司不仅决定了构建什么,还决定了AI系统可以构建的条件,包括系统的哪些部分(权重和数据集)可以开放供他人访问和重用。
  4. 尽管新技术使得基于更大的基础模型进行微调,从而更容易构建更精简、更高效的使用案例,但它们并没有改变市场的这些基本特征。
  5. 最终,训练所需的成本和资源,以及大型公司在市场准入方面的关键点控制,意味着开放AI并不简单等同于AI市场竞争条件的转变,尽管在其更为全面的实现中,它提供了三个关键优势:
Para_02
  1. 透明性

  • 许多被标记为“开放”的 AI 系统会发布模型的权重、文档或相关数据。完全开放的 AI 系统提供训练数据和模型权重的访问权限。
  • 透明性有助于某些形式的验证和审计,这对问责制至关重要。
  • 然而,由于 AI 系统的概率性特性,仅了解权重、代码和文档并不能完全预测模型的表现,解释特定结果,或预见所谓的“涌现”属性。
  • 可重用性

    • 开放式 AI 模型和数据通常以开放许可的形式提供,允许第三方重用。
    • 开放许可的模型和数据被认为能够促进市场竞争,但市场准入仍然是一个受限的资源。
    • 即使是像 Mistral AI 这样的资金充足的公司,尽管其以高效计算著称,也选择与微软合作,通过 Azure 云平台向客户许可其 Mixtral 大型 AI 模型版本。
  • 可扩展性

    • 可扩展性使用户可以在现成的模型基础上进行构建,通过微调实现特定目标。
    • 这种特性受到企业用户的青睐,因为对现成模型的扩展相当于为模型的原始开发者免费进行产品开发。
    • 扩展开放式 AI 模型意味着用户无需从零开始,而是基于一个经过昂贵训练的大模型,调整其参数并进一步在专用数据上训练,以适应特定领域或任务。

    The political economy of open AI

    Para_01
    1. 在这里,我们回顾了通常用于创建和使用大型AI系统所涉及的材料——模型、数据、劳动力、框架和计算能力。
    2. 这有助于我们评估这些系统的哪些部分是或可以开放的,哪些不是或不能开放的,以及在哪些方面。

    AI models

    AI模型

    Para_01
    1. 关于开放人工智能的持续讨论大多集中在人工智能模型上,这只是运行中的AI系统的一部分,并且单独来看并不能涵盖AI系统的整个开发到部署的生命周期。
    2. AI模型是指使用大量数据训练和评估的算法系统,用于根据给定输入产生统计上可能的输出,存储为数值权重。
    3. 例如,ChatGPT通过应用生成预训练变换器(GPT)模型工作,这些模型是在大量的文本数据上训练的,其中大部分是从网络抓取的。
    4. 这些GPT模型是ChatGPT面向客户软件套件的一部分,该套件包括网页客户端和iOS及Android应用程序,每个都需要独立的库和专业知识来维护,以及需要熟练的人才在它们存在期间进行维护。
    5. 这些客户端将GPT模型作为用户界面的一部分集成。
    6. 一旦训练完成,AI模型可以像其他软件代码一样发布——在开放许可下供重用或以其他方式在线提供。
    7. 重用已经训练好的AI模型不需要访问底层训练或评估数据,也不需要公开权重或其他系统细节。
    8. 在这种意义上,许多被标记为开放的AI系统实际上是松散地使用了这一术语。
    9. 它们不是提供有意义的文档和访问权限,而是基本上围绕封闭模型的包装,继承未记录的数据,未能提供标注的人类反馈强化学习(RLHF)训练数据和劳动过程信息,很少发表他们的发现,更不用说在独立评审的出版物中记录这些内容。
    Para_02
    1. 现在有几个大规模开放的人工智能模型可供一定程度的公共再利用:这些包括 Meta 的 LLaMA-2 和 LLaMA-3;由阿联酋技术创新研究所开发并在 AWS 上训练的 Falcon 40B;MosaicML 的 MPT 模型和与微软 Azure 关联的 Mistral AI 的 Mixtral 8x22B;以及在法国 Jean Zay 超级计算机上训练的 BigScience 的 BLOOM 模型。
    2. 将所有这些统称为开放是对它们之间的重要区别的不尊重,并加剧了对这一术语的混淆。
    Para_03
    1. 像 Hugging Face 和 Stability AI 这样的公司向客户和公众提供开放的人工智能模型。
    2. 他们的商业模式不依赖于许可专有模型本身,而是通过在开放模型基础上提供额外功能和服务来收费,例如 API 访问、基于自定义数据的模型训练以及作为付费服务的安全和技术支持。
    3. 他们还为客户优化私有模型,针对特定任务或领域调整已训练模型的性能。
    Para_04
    1. 非营利组织 EleutherAI 还提供大规模的开源 AI 模型,以及用于训练它们的文档和代码库。
    2. EleutherAI 仅专注于促进大规模 AI 的研究,根据非常宽松的 Apache 2.0 开源许可授权其模型供 AI 研究人员使用。
    3. 在参与开放 AI 的组织中,EleutherAI 可能提供了最开放的 AI 系统。
    Para_05
    1. 一些学术项目也生产了较小规模的大型开放人工智能模型。
    2. 其中包括斯坦福大学的 Alpaca 模型,该模型以其能够在单个笔记本电脑上运行而闻名——鉴于部署此类模型的计算密集性,这是一个显著的成就。
    3. 然而,即使基于这个极其计算高效的模型的聊天机器人也变得过于昂贵——并且由于模型的‘幻觉’而变得风险过高——继续运行,团队已将其关闭。
    Para_06
    1. 当前的人工智能发展模式,在数据、计算和模型规模方面采取了越大越好的策略。
    2. 模型越大,训练和校准所需的资源就越多,因此在大型科技公司之外生产这些模型就越困难。
    3. 尽管我们知道目前最大的公开可用人工智能模型是 LLaMA-3,并且它是在 15 万亿个标记上训练的,但关于模型的数据集的信息变得越来越不透明,无论是封闭的还是所谓的开放模型都是如此。
    4. OpenAI 没有公布 GPT-4 的规模,Anthropic 的技术报告也没有讨论 Claude 3 的训练数据规模,而 Mistral AI 则以该领域的"高度竞争性"为由,拒绝公布其公开可用模型的训练数据规模。
    5. 此外,虽然针对特定任务或领域的微调模型在每个实例上的计算成本较低(但在总体上对环境的成本更高),但第三方只能在其无法审查或复制的模型基础上进行构建,从而导致‘人工智能的上层阶级’。

    Data

    数据

    Para_01
    1. 为了构建大规模的人工智能系统,需要将数据精确地(且劳动密集型地)加工到特定规格。
    2. 一些研究者甚至声称,在构建大规模人工智能时,获取数据可能比获取计算资源更重要。
    3. 两者都是必不可少的,在当前的‘规模竞赛’模式下,每种资源越多,这些模型的表现就越好。
    Para_02
    1. 数据经常是许多自称开放的人工智能产品中的封闭元素:许多被描述为开放的大规模人工智能模型甚至没有提供关于用于训练系统的底层数据的基本信息,更不用说公开提供这些底层训练数据或记录其来源了。
    2. 缺乏数据透明度对围绕开放人工智能的好处提出的任何主张构成了严重挑战,并阻碍了实现稳健科学所需的验证或可重复性。
    Para_03
    1. 抓取数据以创建用于人工智能开发的数据集引发了关于提取和知识产权的问题,这些问题特别与对人工智能领域集中度的关注有关。
    2. 无论是开放还是封闭的数据集,通常都是通过从网络上获取受版权保护的图像、文本和代码,或是复制和重用来自多数世界语言群体(如 GhanaNLP 和 Lesan AI)编译的数据集来组装的。
    3. 这意味着,尽管有可能在不使用受版权保护内容的情况下训练模型,但那些使用这些数据集来训练和评估人工智能模型的人通常是利用他人的工作和知识产权来这样做,即使这样的主张正在法律上受到挑战,并且无论结果如何,都愿意和能够承受诉讼的成本。
    4. 无论是否合法,这种无差别地从网络数据中抓取信息以创建现在正被用来削弱作家、艺术家和程序员(他们自己的劳动创造了这些‘网络’数据)生计的系统的做法已经引起了警觉和愤怒,代表这些行为者的诉讼现在正在进行中。
    Para_04
    1. 考虑到当前数据劳动实践中存在的殖民回声,这些问题尤为紧迫:AI系统经常依赖来自多数世界的数据和劳动力资源,加纳NLP开源项目的创始人指出,大型科技公司的开源风险可能导致持续的殖民剥削。
    2. 这种剥削也直接与多数世界的数据主权运动背道而驰,例如Te Hiku Media项目就指出,"大多数土著人民和其他原住民可能无法获得使他们能够从开源技术中受益的资源……通过简单地将我们的数据和知识开源,我们在现代世界中进一步允许自己被数字化殖民。"
    Para_05
    1. 这不是支持封闭数据集的理由,这只会加剧这个问题。
    2. 这是一个呼吁,明确开放数据集能够和不能够实现的具体目标。
    3. 当数据集不公开供审查,或者它们大到难以审查时,就很难检查这些数据集是否清洗了他人的知识产权或商业使用了特定许可为非商业用途的数据,或是根据特定主权授权许可的数据。
    4. 例如,微软的 GitHub Copilot 编程助手——一个生成代码的人工智能系统——已经被证明是基于通用公共许可证下的代码训练而成,并随后重复生成这些代码,该许可证是一种开源许可,要求衍生代码必须在同一条件下发布。
    5. 然而,即使是使用许可较为宽松的代码来训练生成性人工智能,也可能违反要求提供归属的规定,而当前的生成性人工智能系统虽然可以但目前并未提供这种归属。
    Para_06
    1. 像Pile和Common Crawl这样的数据集虽然广泛可用,但需要额外的工作才能使这些数据集对构建大型AI模型有用。
    2. 为了创建高性能的AI,需要仔细策划和重新组合数据集:BigScience的BLOOM模型是在498个数据集的组合上训练的,这涉及一个复杂的数据治理过程,以及一个手动的质量过滤过程,以去除代码、垃圾信息和其他噪声。
    3. 尽管可以假设公司使用的较大数据集需要相应水平的工作量,但我们对他们知之甚少,即使是那些声称开放的数据集也是如此。

    Labour

    劳工

    Para_01
    1. 大规模AI系统对策划、标注、精心组织的数据有着无法满足的需求,这意味着大规模构建AI需要大量的人力劳动。
    2. 这种劳动创造了被宣传为计算智能的‘智能’。
    3. 这种劳动大致可以归类为应用于:
    • 模型校准(如通过人类反馈的强化学习以及类似的流程)
    • 内容审核、信任与安全以及其他形式的部署后支持
    • 工程、产品开发与维护
    1. 数据标注与分类
    Para_02
    1. 生成式人工智能系统是在广泛的人类生成文本、语音或图像上进行训练和评估的。
    2. 使模型能够模仿人类输出而不复制冒犯性或危险材料的过程,需要大量的人力参与,以确保模型的输出保持在‘可接受’的范围内——从而使其能够被公司和其他机构营销、销售并在现实世界中应用,这些机构旨在保持客户和声誉。
    3. 这个过程通常被称为基于人类反馈的强化学习,或简称RLHF,这是一个听起来技术性的术语,在实践中,它指的是成千上万小时的人工劳动,在此期间,工人可能会被指示选择由生成式AI系统产生的几个文本片段中哪一个最接近人类生成的文本,并将他们的选择反馈到系统中。
    4. 尽管数据准备和模型校准需要大量的、很少被公开承认的劳动,这些劳动对于赋予塑造AI系统的数据以意义至关重要,但公司通常不会发布有关支持这一数据工作的劳动实践的任何信息,而且不发布此类信息很少受到批评,被视为一种封闭性。
    5. 我们对这些过程的了解主要是通过调查性新闻报道或是工人和研究人员的组织活动获得的。
    Para_03
    1. 整理、准备数据和校准系统所需的劳动力报酬很低,但考虑到所需工人数量和时间,仍然会产生较大的成本。
    2. 这为创建和部署大型AI模型所需资源的民主化和开放访问带来了另一个障碍(尽管我们不能接受‘民主’这一术语,因为这种结构依赖于低薪、工作不稳定且几乎没有任何福利的工人,他们在忍受伤害的同时被排除在这种所谓的民主之外)。

    Development frameworks

    开发框架

    Para_01
    1. 开发框架使得软件开发者能够以更加规范、可预测和迅速的方式构建和部署软件。
    2. 它们是标准开发实践的一部分,并不独特于人工智能领域。
    3. 这些框架通过提供预先编写好的代码片段、模板化的工作流程、评估工具和其他标准化方法来处理常见的开发任务。
    4. 这有助于创建更通用、互操作性和可测试的计算系统,同时最小化‘重新发明轮子’的时间,避免在从零开始实现系统时容易引入的错误。
    5. 与一般的软件开发一样,人工智能开发依赖于少数流行的开源开发框架。
    6. 这些框架包括越来越庞大的数据集库、数据验证工具、评估工具、模型构建工具、模型训练和导出工具、预训练库等,这些共同塑造了人工智能的制作和部署方式。
    Para_02
    1. 两个主要的人工智能开发框架是 PyTorch 和 TensorFlow。






    请到「今天看啥」查看全文