专栏名称: 生信菜鸟团
生信菜鸟团荣誉归来,让所有想分析生物信息学数据的小伙伴找到归属,你值得拥有!
目录
相关文章推荐
BioArt  ·  ​Nat Commun | ... ·  2 天前  
BioArt  ·  Cell | ... ·  2 天前  
生信菜鸟团  ·  'open' AI 实际上是 closed AI ·  1 周前  
生信菜鸟团  ·  R tips:ggplot2进行多维原位图绘制 ·  5 天前  
51好读  ›  专栏  ›  生信菜鸟团

'open' AI 实际上是 closed AI

生信菜鸟团  · 公众号  · 生物  · 2025-01-02 09:39

正文

Basic Information

  • 英文标题:Why ‘open’ AI systems are actually closed, and why this matters
  • 中文标题:为什么‘开放’的人工智能系统实际上是封闭的,以及为什么这一点很重要
  • 发表日期:27 November 2024
  • 文章类型:Perspective
  • 所属期刊:Nature
  • 文章作者:David Gray Widder | Sarah Myers West
  • 文章链接:https://www.nature.com/articles/s41586-024-08141-1

Abstract

Para_01
  1. 本文考察了‘开放’的人工智能(AI)。
  2. 关于‘开放’AI的说法往往缺乏精确性,经常忽视对大规模AI开发和部署中的行业集中度的重大审查,并且通常错误地将从自由开源软件中导入的理解应用于AI系统。
  3. 目前,强大的行为体正在试图通过声称‘开放’AI要么有利于创新和民主,要么有害于安全,来塑造政策。
  4. 当政策被制定时,定义很重要。
  5. 为了澄清这场辩论,我们考察了AI开放性的主张基础,并提供了AI是什么以及‘开放’在AI中能提供什么和不能提供什么的实质性分析:检查模型、数据、劳动力、框架和计算能力。
  6. 我们强调了‘开放’AI的三个主要优势,即透明度、可重用性和可扩展性,并观察到最‘开放’的AI允许在现有模型上进行某些形式的监督和实验。
  7. 然而,我们发现单靠开放并不能改变AI中的权力集中。
  8. 正如许多传统的开源软件项目以各种方式被大型科技公司所利用一样,我们展示了围绕‘开放’AI的言论常常以加剧而非减少AI行业中权力集中的方式被使用。

Main

Para_01
  1. 本文探讨了‘开放’的人工智能(AI)。
  2. 我们发现,开源软件的概念正被以不恰当的方式应用于AI系统。
  3. 当行业参与者一方面声称开放AI有利于科学创新和民主,另一方面又认为开放AI对安全有害时,我们试图将关于AI‘开放性’优势的讨论建立在对AI本质以及AI开放性能提供什么和不能提供什么的物质分析基础上。
Para_02
  1. 为此,我们回顾了人工智能系统的核心组成部分,探讨了哪些部分可以开放,哪些不能,并回顾了围绕开放人工智能概念形成的生态系统。
  2. 我们发现,开放的人工智能系统可以提供透明度、可重用性和可扩展性:它们可以在不同程度上被审查、重用和‘在此基础上构建’。
  3. 但我们也发现,关于开放性的主张往往缺乏精确性,通常只关注人工智能系统从开发到部署生命周期中的一个阶段,经常忽视大规模人工智能开发和部署中的显著行业集中,从而扭曲了从自由开源软件中获得的开放性的常识理解。
  4. 将开放性与人工智能的经济激励隔离开来的论述很少涉及背景、权力和使用的问题——这样的系统将如何使用,由谁使用,在谁身上使用——即使这些问题深刻地影响了关于开放性和人工智能的辩论所声称关心的政策结果。
Para_03
  1. 这些问题在我们当前的人工智能领域中尤为重要,该领域主要由企业主导。
  2. 创造条件使独立的技术替代方案能够在行业主导的技术环境中蓬勃发展是一个值得追求的目标。
  3. 然而,正如许多传统的开源项目以各种方式被大型科技公司所利用一样,我们的研究发现表明,开放性的言论经常被用来,非但没有缓解,反而加剧了人工智能领域的权力集中。
Para_04
  1. 目前,开放人工智能的修辞正在引导美国和欧盟等司法管辖区的政治和研究关注,并塑造政策。
  2. '开源AI'的讨论主要由AI公司构建,它们利用开放性的主张来服务于其特定的监管和市场目标。
  3. 根据其商业模式,公司利用开放性的修辞来隐含地支持AI应该要么免于监管,要么受到严格的许可要求或出口管制的论点。
  4. 同时,研究人员最近的工作有助于复杂化这些主张,即使它没有重塑公共辩论,通过评估模型开放性的风险和好处以及创建不同程度开放模型的分类来增加细节和基础,试图提供概念上的清晰度。

Open AI and definitional arbitrage

Para_01
  1. AI本身的定义存在争议且不明确,这进一步混淆了在AI背景下‘开放’意味着什么的问题。
  2. 在其超过70年的历史中,AI一词被应用于各种各样的方法,更多地作为一种营销和抱负的表达,而不是一个技术术语。
  3. 一些AI系统是确定性的,例如基于规则的系统,它们——给定一组输入——遵循一组指令以产生明确定义的输出。
  4. 其他的则是概率性的,通过与大量数据池进行比较,并从数据点之间的联系中得出推论。
  5. 目前,该术语通常描述的是概率性、大型、资源密集型的机器学习系统,所谓的‘生成式’AI在大众讨论中吸引了最多的关注。
  6. 因为大型和生成式AI系统最明显地扰乱了传统的开源定义,并且它们是当前政策和讨论的焦点,我们专注于这些系统。
Para_02
  1. 对定义清晰的需求引发了大量讨论,并最终促成了开放源代码倡议组织的一项提案。
  2. 在关于人工智能的更普及的讨论中,人们借鉴了几十年前为了抵制企业控制而形成的自由软件意识形态,将自由和开源软件的传统理解投射到开放的人工智能系统上,即使这些理解并不适用。
  3. 从开源促进软件开发民主化的承诺,到许多人关注开源代码可以确保其完整性和安全性,再到开源拉平了竞争环境,让创新者能够脱颖而出,开源软件确实做到了这些事情,但程度各不相同。
Para_03
  1. 开放的人工智能与开源软件在关键方面有所不同。
  2. 与开源软件不同,识别人工智能系统中的危害和缺陷需要的不仅仅是开放的权重和可访问的应用程序编程接口(API)或公开许可的人工智能模型(如Meta的LLaMA模型系列),尽管提供训练数据和严格的公开文档对审计人工智能系统的能力有积极影响,这对于问责制至关重要,但预测概率系统的行为了存在固有的局限性。
Para_04
  1. 同样,尽管开放性可以在边缘促进竞争——使其他人能够通过微调高效地在基础AI模型上构建——但这并不会扰乱市场的整体特性。
  2. 微调也不会消除在基础模型开发阶段做出的关键决策的影响。
  3. 导致AI领域竞争不平等的因素包括网络效应、数据集的访问、大规模推理所需的计算的访问和成本、缺乏可行的商业模式以及目前过高的利率。
  4. 这些因素共同极大地限制了AI初创企业在当前商业环境中的竞争力,并促成了一个市场,在这个市场中,盈利路径主要通过大型科技公司——这些公司的基础设施对于AI发展至关重要,且它们对市场的访问对于任何投资回报都是必不可少的。
  5. 开放性可能使修改已经开发的AI模型的能力更强,但这些更大的环境因素影响了此类实验产品的市场路径。
Para_05
  1. 实际上,人工智能开放性的梯度提供了大相径庭的可能性,尽管它们都被令人困惑地归类在同一术语‘开放性’之下。
  2. 一些被描述为开放的系统,如Meta的LLaMA-3,提供的不过是一个API或下载模型的能力,而这些模型受制于明显非开放的使用限制。
  3. 在这种情况下,这是‘开放洗白’系统,这些系统更应该被视为封闭的。
  4. 其他最大化的开放人工智能变体,如EleutherAI的Pythia系列,走得更远,提供对源代码、底层训练数据和完整文档的访问,以及根据与开源计划长期定义的开源条款一致的许可,广泛重用人工智能模型。
Para_06
  1. 鉴于这些混乱的定义,除非逐字引用声明,我们在本文其余部分避免使用开源一词,而是使用开放这一通用术语。

What is (and is not) open about open AI?

Para_01
  1. AI系统需要独特的开发流程,并依赖于集中在少数大型科技公司手中的专门且昂贵的资源。
  2. 鉴于构建大规模AI系统所需的资源,拥有计算能力、数据集和研究团队的商业AI公司在AI研究与开发领域占据越来越主导的地位。
  3. 因此,这些公司不仅决定了构建什么,还决定了AI系统可以构建的条件,包括系统的哪些部分(权重和数据集)可以开放供他人访问和重用。
  4. 尽管新技术使得基于更大的基础模型进行微调,从而更容易构建更精简、更高效的使用案例,但它们并没有改变市场的这些基本特征。
  5. 最终,训练所需的成本和资源,以及大型公司在市场准入方面的关键点控制,意味着开放AI并不简单等同于AI市场竞争条件的转变,尽管在其更为全面的实现中,它提供了三个关键优势:
Para_02
  1. 透明性

  • 许多被标记为“开放”的 AI 系统会发布模型的权重、文档或相关数据。完全开放的 AI 系统提供训练数据和模型权重的访问权限。
  • 透明性有助于某些形式的验证和审计,这对问责制至关重要。
  • 然而,由于 AI 系统的概率性特性,仅了解权重、代码和文档并不能完全预测模型的表现,解释特定结果,或预见所谓的“涌现”属性。
  • 可重用性

    • 开放式 AI 模型和数据通常以开放许可的形式提供,允许第三方重用。
    • 开放许可的模型和数据被认为能够促进市场竞争,但市场准入仍然是一个受限的资源。
    • 即使是像 Mistral AI 这样的资金充足的公司,尽管其以高效计算著称,也选择与微软合作,通过 Azure 云平台向客户许可其 Mixtral 大型 AI 模型版本。
  • 可扩展性

    • 可扩展性使用户可以在现成的模型基础上进行构建,通过微调实现特定目标。
    • 这种特性受到企业用户的青睐,因为对现成模型的扩展相当于为模型的原始开发者免费进行产品开发。
    • 扩展开放式 AI 模型意味着用户无需从零开始,而是基于一个经过昂贵训练的大模型,调整其参数并进一步在专用数据上训练,以适应特定领域或任务。

    The political economy of open AI

    Para_01
    1. 在这里,我们回顾了通常用于创建和使用大型AI系统所涉及的材料——模型、数据、劳动力、框架和计算能力。
    2. 这有助于我们评估这些系统的哪些部分是或可以开放的,哪些不是或不能开放的,以及在哪些方面。

    AI models

    AI模型

    Para_01
    1. 关于开放人工智能的持续讨论大多集中在人工智能模型上,这只是运行中的AI系统的一部分,并且单独来看并不能涵盖AI系统的整个开发到部署的生命周期。
    2. AI模型是指使用大量数据训练和评估的算法系统,用于根据给定输入产生统计上可能的输出,存储为数值权重。
    3. 例如,ChatGPT通过应用生成预训练变换器(GPT)模型工作,这些模型是在大量的文本数据上训练的,其中大部分是从网络抓取的。
    4. 这些GPT模型是ChatGPT面向客户软件套件的一部分,该套件包括网页客户端和iOS及Android应用程序,每个都需要独立的库和专业知识来维护,以及需要熟练的人才在它们存在期间进行维护。
    5. 这些客户端将GPT模型作为用户界面的一部分集成。
    6. 一旦训练完成,AI模型可以像其他软件代码一样发布——在开放许可下供重用或以其他方式在线提供。
    7. 重用已经训练好的AI模型不需要访问底层训练或评估数据,也不需要公开权重或其他系统细节。
    8. 在这种意义上,许多被标记为开放的AI系统实际上是松散地使用了这一术语。
    9. 它们不是提供有意义的文档和访问权限,而是基本上围绕封闭模型的包装,继承未记录的数据,未能提供标注的人类反馈强化学习(RLHF)训练数据和劳动过程信息,很少发表他们的发现,更不用说在独立评审的出版物中记录这些内容。
    Para_02
    1. 现在有几个大规模开放的人工智能模型可供一定程度的公共再利用:这些包括 Meta 的 LLaMA-2 和 LLaMA-3;由阿联酋技术创新研究所开发并在 AWS 上训练的 Falcon 40B;MosaicML 的 MPT 模型和与微软 Azure 关联的 Mistral AI 的 Mixtral 8x22B;以及在法国 Jean Zay 超级计算机上训练的 BigScience 的 BLOOM 模型。
    2. 将所有这些统称为开放是对它们之间的重要区别的不尊重,并加剧了对这一术语的混淆。
    Para_03
    1. 像 Hugging Face 和 Stability AI 这样的公司向客户和公众提供开放的人工智能模型。
    2. 他们的商业模式不依赖于许可专有模型本身,而是通过在开放模型基础上提供额外功能和服务来收费,例如 API 访问、基于自定义数据的模型训练以及作为付费服务的安全和技术支持。
    3. 他们还为客户优化私有模型,针对特定任务或领域调整已训练模型的性能。
    Para_04
    1. 非营利组织 EleutherAI 还提供大规模的开源 AI 模型,以及用于训练它们的文档和代码库。
    2. EleutherAI 仅专注于促进大规模 AI 的研究,根据非常宽松的 Apache 2.0 开源许可授权其模型供 AI 研究人员使用。
    3. 在参与开放 AI 的组织中,EleutherAI 可能提供了最开放的 AI 系统。
    Para_05
    1. 一些学术项目也生产了较小规模的大型开放人工智能模型。
    2. 其中包括斯坦福大学的 Alpaca 模型,该模型以其能够在单个笔记本电脑上运行而闻名——鉴于部署此类模型的计算密集性,这是一个显著的成就。
    3. 然而,即使基于这个极其计算高效的模型的聊天机器人也变得过于昂贵——并且由于模型的‘幻觉’而变得风险过高——继续运行,团队已将其关闭。
    Para_06
    1. 当前的人工智能发展模式,在数据、计算和模型规模方面采取了越大越好的策略。
    2. 模型越大,训练和校准所需的资源就越多,因此在大型科技公司之外生产这些模型就越困难。
    3. 尽管我们知道目前最大的公开可用人工智能模型是 LLaMA-3,并且它是在 15 万亿个标记上训练的,但关于模型的数据集的信息变得越来越不透明,无论是封闭的还是所谓的开放模型都是如此。
    4. OpenAI 没有公布 GPT-4 的规模,Anthropic 的技术报告也没有讨论 Claude 3 的训练数据规模,而 Mistral AI 则以该领域的"高度竞争性"为由,拒绝公布其公开可用模型的训练数据规模。
    5. 此外,虽然针对特定任务或领域的微调模型在每个实例上的计算成本较低(但在总体上对环境的成本更高),但第三方只能在其无法审查或复制的模型基础上进行构建,从而导致‘人工智能的上层阶级’。

    Data

    数据

    Para_01
    1. 为了构建大规模的人工智能系统,需要将数据精确地(且劳动密集型地)加工到特定规格。
    2. 一些研究者甚至声称,在构建大规模人工智能时,获取数据可能比获取计算资源更重要。
    3. 两者都是必不可少的,在当前的‘规模竞赛’模式下,每种资源越多,这些模型的表现就越好。
    Para_02
    1. 数据经常是许多自称开放的人工智能产品中的封闭元素:许多被描述为开放的大规模人工智能模型甚至没有提供关于用于训练系统的底层数据的基本信息,更不用说公开提供这些底层训练数据或记录其来源了。
    2. 缺乏数据透明度对围绕开放人工智能的好处提出的任何主张构成了严重挑战,并阻碍了实现稳健科学所需的验证或可重复性。
    Para_03
    1. 抓取数据以创建用于人工智能开发的数据集引发了关于提取和知识产权的问题,这些问题特别与对人工智能领域集中度的关注有关。
    2. 无论是开放还是封闭的数据集,通常都是通过从网络上获取受版权保护的图像、文本和代码,或是复制和重用来自多数世界语言群体(如 GhanaNLP 和 Lesan AI)编译的数据集来组装的。
    3. 这意味着,尽管有可能在不使用受版权保护内容的情况下训练模型,但那些使用这些数据集来训练和评估人工智能模型的人通常是利用他人的工作和知识产权来这样做,即使这样的主张正在法律上受到挑战,并且无论结果如何,都愿意和能够承受诉讼的成本。
    4. 无论是否合法,这种无差别地从网络数据中抓取信息以创建现在正被用来削弱作家、艺术家和程序员(他们自己的劳动创造了这些‘网络’数据)生计的系统的做法已经引起了警觉和愤怒,代表这些行为者的诉讼现在正在进行中。
    Para_04
    1. 考虑到当前数据劳动实践中存在的殖民回声,这些问题尤为紧迫:AI系统经常依赖来自多数世界的数据和劳动力资源,加纳NLP开源项目的创始人指出,大型科技公司的开源风险可能导致持续的殖民剥削。
    2. 这种剥削也直接与多数世界的数据主权运动背道而驰,例如Te Hiku Media项目就指出,"大多数土著人民和其他原住民可能无法获得使他们能够从开源技术中受益的资源……通过简单地将我们的数据和知识开源,我们在现代世界中进一步允许自己被数字化殖民。"
    Para_05
    1. 这不是支持封闭数据集的理由,这只会加剧这个问题。
    2. 这是一个呼吁,明确开放数据集能够和不能够实现的具体目标。
    3. 当数据集不公开供审查,或者它们大到难以审查时,就很难检查这些数据集是否清洗了他人的知识产权或商业使用了特定许可为非商业用途的数据,或是根据特定主权授权许可的数据。
    4. 例如,微软的 GitHub Copilot 编程助手——一个生成代码的人工智能系统——已经被证明是基于通用公共许可证下的代码训练而成,并随后重复生成这些代码,该许可证是一种开源许可,要求衍生代码必须在同一条件下发布。
    5. 然而,即使是使用许可较为宽松的代码来训练生成性人工智能,也可能违反要求提供归属的规定,而当前的生成性人工智能系统虽然可以但目前并未提供这种归属。
    Para_06
    1. 像Pile和Common Crawl这样的数据集虽然广泛可用,但需要额外的工作才能使这些数据集对构建大型AI模型有用。
    2. 为了创建高性能的AI,需要仔细策划和重新组合数据集:BigScience的BLOOM模型是在498个数据集的组合上训练的,这涉及一个复杂的数据治理过程,以及一个手动的质量过滤过程,以去除代码、垃圾信息和其他噪声。
    3. 尽管可以假设公司使用的较大数据集需要相应水平的工作量,但我们对他们知之甚少,即使是那些声称开放的数据集也是如此。

    Labour

    劳工

    Para_01
    1. 大规模AI系统对策划、标注、精心组织的数据有着无法满足的需求,这意味着大规模构建AI需要大量的人力劳动。
    2. 这种劳动创造了被宣传为计算智能的‘智能’。
    3. 这种劳动大致可以归类为应用于:
    • 模型校准(如通过人类反馈的强化学习以及类似的流程)
    • 内容审核、信任与安全以及其他形式的部署后支持
    • 工程、产品开发与维护
    1. 数据标注与分类
    Para_02
    1. 生成式人工智能系统是在广泛的人类生成文本、语音或图像上进行训练和评估的。
    2. 使模型能够模仿人类输出而不复制冒犯性或危险材料的过程,需要大量的人力参与,以确保模型的输出保持在‘可接受’的范围内——从而使其能够被公司和其他机构营销、销售并在现实世界中应用,这些机构旨在保持客户和声誉。
    3. 这个过程通常被称为基于人类反馈的强化学习,或简称RLHF,这是一个听起来技术性的术语,在实践中,它指的是成千上万小时的人工劳动,在此期间,工人可能会被指示选择由生成式AI系统产生的几个文本片段中哪一个最接近人类生成的文本,并将他们的选择反馈到系统中。
    4. 尽管数据准备和模型校准需要大量的、很少被公开承认的劳动,这些劳动对于赋予塑造AI系统的数据以意义至关重要,但公司通常不会发布有关支持这一数据工作的劳动实践的任何信息,而且不发布此类信息很少受到批评,被视为一种封闭性。
    5. 我们对这些过程的了解主要是通过调查性新闻报道或是工人和研究人员的组织活动获得的。
    Para_03
    1. 整理、准备数据和校准系统所需的劳动力报酬很低,但考虑到所需工人数量和时间,仍然会产生较大的成本。
    2. 这为创建和部署大型AI模型所需资源的民主化和开放访问带来了另一个障碍(尽管我们不能接受‘民主’这一术语,因为这种结构依赖于低薪、工作不稳定且几乎没有任何福利的工人,他们在忍受伤害的同时被排除在这种所谓的民主之外)。

    Development frameworks

    开发框架

    Para_01
    1. 开发框架使得软件开发者能够以更加规范、可预测和迅速的方式构建和部署软件。
    2. 它们是标准开发实践的一部分,并不独特于人工智能领域。
    3. 这些框架通过提供预先编写好的代码片段、模板化的工作流程、评估工具和其他标准化方法来处理常见的开发任务。
    4. 这有助于创建更通用、互操作性和可测试的计算系统,同时最小化‘重新发明轮子’的时间,避免在从零开始实现系统时容易引入的错误。
    5. 与一般的软件开发一样,人工智能开发依赖于少数流行的开源开发框架。
    6. 这些框架包括越来越庞大的数据集库、数据验证工具、评估工具、模型构建工具、模型训练和导出工具、预训练库等,这些共同塑造了人工智能的制作和部署方式。
    Para_02
    1. 两个主要的人工智能开发框架是 PyTorch 和 TensorFlow。
    2. 这两个框架分别由大型商业科技公司 Meta 和 Google 创建,并继续为其提供资源和维护。
    3. 与 TensorFlow 相比,有更多预先训练好的人工智能模型仅在 PyTorch 框架内工作。
    4. PyTorch 也是学术界人工智能研究中最受欢迎的框架,大多数学术论文都使用它。
    Para_03
    1. PyTorch 最初是由 Meta 开发供内部使用,但于 2017 年公开发布。
    2. 尽管 PyTorch 在 Linux 基金会的保护下作为研究基础运作,但它继续受到 Meta 的财政支持,并且其主要维护者(负责治理和决策)都是 Meta 的员工。
    3. TensorFlow 最初由 Google Brain 开发并于 2015 年发布,至今仍由 Google 指导并提供财政支持,Google 还雇佣了它的许多核心贡献者。
    Para_04
    1. 开源开发框架提供了工具,使人工智能的开发和部署过程更快、更可预测、更稳健。
    2. 它们对开发这些框架的公司也有重要的好处。
    3. 最值得注意的是,它们允许Meta、Google以及那些指导框架开发的人标准化AI构建,使得结果与其自身公司的平台兼容——确保他们的框架引导开发者创建可以像乐高积木一样与自身公司系统无缝对接的AI系统。
    4. 对于Meta而言,这使他们能够更容易地整合和商业化使用PyTorch开发、调优或部署的系统。
    5. 扎克伯格在2023年的收益电话会议上明确阐述了这些对Meta的好处,他说:‘[PyTorch]已经成为行业标准……对我们来说通常非常有价值……因为它与我们的技术栈集成,当有机会将产品进行整合时,确保开发者和其他人员与我们系统工作方式所需的内容兼容变得更加容易。’
    6. 他在2024年的收益电话会议中重申了这一点。
    7. 这一点对Google和TensorFlow同样适用。
    8. 对于Google而言,TensorFlow被设计为能轻松直观地与Google的张量处理单元(TPU)硬件操作,这是Google云计算业务的核心强大的专有计算基础设施。
    9. 这使得Google能够优化其商业云服务,使其成为AI开发的引擎。
    10. 通过这种方式,开放的开发框架可以巩固和增强企业的AI主导地位。
    Para_05
    1. 开放的人工智能开发框架还可以让资助和指导其开发的人员创建通往盈利计算和其他服务提供的途径。
    2. 类似于企业代表推动互联网标准治理排除他人的方式,人工智能公司塑造研究人员和开发者的作业实践,使得新的AI模型可以轻松集成和商业化。
    3. 这赋予了提供框架的公司在生态系统中巨大的间接权力:培训开发者、研究人员和与这些工具互动的学生,使他们熟悉公司偏好的框架规范,从而帮助定义——并在某种程度上控制——人工智能领域。

    Computational power

    计算能力

    Para_01
    1. 开发大型人工智能模型需要庞大的数据集,这需要巨大的计算能力来处理。
    2. 当代人工智能的发展特点是规模竞赛,旧的估计显示,用于训练模型的计算量在6年内增加了约30万倍,大约每年增加8倍,而最近的数据使用估计显示,数据集大小每年增加约2.4倍。
    3. 获得计算能力仍然是许多开放的人工智能系统实际可重用性的一个显著障碍,因为无论是训练还是运行推理(在一个案例中,训练、微调和推理的能量成本分别为51,686千瓦时、7,571千瓦时和1 × 10^-4千瓦时)都需要高昂的成本,特别是在大规模使用大型人工智能模型时(即,在产品或API中实现它们以供公众广泛使用)。
    4. 此外,从专用硬件中榨取最大计算能力需要专门的软件系统,并且在某些情况下,还需要专有的软件系统。
    Para_02
    1. 很难夸大英伟达在这方面的主导地位:该公司在最先进的人工智能芯片市场占有70-90%的份额。
    2. 此外,超过四百万开发者依赖于CUDA,这是一个‘事实上的行业标准’部分专有的框架,由英伟达开发,仅支持在其专有的图形处理单元(GPU)上进行训练(专门的计算机处理器,最初是为游戏开发,现在主要用于人工智能训练,因为它们允许快速并行地执行许多计算)。
    3. CUDA开发生态系统是英伟达强大市场主导地位的关键要素(该公司的GPU市场份额为88%),并且自2006年以来一直得到培养和扩展,这给了它很大的先发优势。
    4. 像苹果的开发者生态系统——为那些希望为其专有操作系统构建应用程序和服务的人提供高质量的构建模块一样——CUDA为人工智能研究人员和开发者提供了广泛且规范的资源。
    Para_03
    1. 简而言之,在私营企业环境之外和个体尝试之外,构建新的AI模型和大规模使用现有模型所需的计算资源是稀缺、极其昂贵且仅集中在少数几家公司手中(英伟达处于领先地位),这些公司受益于规模经济、优化计算的软件控制能力和出售昂贵的计算资源访问权限的能力。
    2. 一些人认为,计算资源供应与模型访问之间的无缝集成推动了对云基础设施提供商的需求,进一步表明,在AI领域,决定竞争力的是生态系统的拥有权,而不是成功生产模型或产品的能力。

    Conclusion

    Para_01
    1. 通过剖析构成现代人工智能系统的所有部分,并检查这些部分哪些可以开放,哪些不能开放,我们揭示了一张开放人工智能的地图,显示即使在其最广泛的开放形式下,开放人工智能也高度依赖少数大型企业资源,这些企业实际上控制着人工智能行业和更广泛的研究生态系统。
    Para_02
    1. 因此,即使是最开放的人工智能的追求也不会单独导致一个更加多样化、负责或民主化的生态系统,尽管它可能有其他好处。
    2. 我们还看到,像过去一样,争夺人工智能优势的大科技公司正在利用开放的人工智能来巩固市场优势,同时使用开放性的修辞手段来转移对人工智能垄断和相关监管的指责。
    3. 现实是,无论多么开放,当人工智能系统在敏感领域大规模部署时,它们可以产生广泛而深远的影响,这些影响不应该由目前控制创建和部署这些系统所需资源的一小部分营利性公司来决定,这些系统将直接影响数百万客户,尤其是在这些影响不能仅仅通过检查系统代码、模型权重和文档来预见的情况下。
    4. 有意义地替代当前人工智能模型的创造不会仅通过追求开放的人工智能开发来实现,尽管如数据透明度和文档记录等元素对于问责制是有价值的,最大限度开放的人工智能项目有助于说明什么是可能的极限。
    5. 将政策干预的重点放在人工智能是否会开放或封闭上,这会分散人们对大多数企业人工智能系统(无论是开放还是封闭)的压倒性不透明性质的注意力,从而将宝贵的精力和主动性从关于人工智能实际影响的问题上转移开。
    Para_03
    1. 除非与其他强有力的措施一起推进,以解决人工智能领域的权力集中问题,包括反垄断执法和数据隐私保护,否则单方面追求开放性将不太可能带来多少好处。
    2. 这是因为透明度的条款以及再利用和扩展所需的基础设施将继续由这些强大的公司设定,而这些公司不太可能同意与他们的利润和增长激励相冲突的实质性制约措施。
    Para_04
    1. 我们需要更广泛的AI发展范围和更多样化的方法,以及支持那些更有意义地关注公众需求的技术,而不是商业利益。
    2. 我们还需要空间来探讨在许多紧迫的社会和生态挑战背景下‘为什么需要AI’。
    3. 创造使这些替代方案成为可能的条件是一个可以与监管共存,甚至得到监管支持的项目。
    4. 但仅仅寄希望于‘开放’AI并不会引领我们走向那个世界,并且——在很多方面——可能会使事情变得更糟,因为政策制定者和公众将他们的希望和动力寄托在开放AI上,假设它将在集中企业权力的背景下提供无法提供的益处。

    Data availability

    Para_01
    1. 我们不分析也不提供数据集,因为我们的工作不依赖于计算技术。