专栏名称: 国浩律师事务所
传播法治理念、解读政策法规、研讨律师实务、分析典型案例、评析法律热点、透视财经信息、发布国浩动态。
目录
相关文章推荐
51好读  ›  专栏  ›  国浩律师事务所

当我们谈论“开源AI”时,我们在谈论什么?

国浩律师事务所  · 公众号  ·  · 2025-02-26 18:16

正文

请到「今天看啥」查看全文


目 录

一、引言

二、人工智能模型的开源缺乏社区共识

三、开源软件与开源AI的协作模式存在重大区别

四、Linux基金会的模型开放框架

五、“开源AI”到底开源了什么

六、讨论“开源AI”的法律意义

01

引 言

开源软件是现代信息社会的基石,而当前工人的关于何为“开源软件”的这一问题的解答则来自于Open Source Initiative(以下简称OSI)于1998年发布并一直迭代更新的定义。其对社区共识的精准表达,给后续的开发者提供了明确的指引,使得开源模式成为全球软件创新的核心引擎。然而,当技术范式转向生成式人工智能时,传统的开源逻辑遭遇了结构性挑战。

尽管人工智能领域的规模化协作协作实践也已经在Huggingface和Modelscope等平台的催化下初具规模。但关于"开源AI"的实质内涵始终缺乏明确定义。OSI历经两年 [注1] 跨国磋商,吸纳了多国专家意见后,于2024年10月正式发布了《开源人工智能定义》(Open Source AI Definition, OSAID)1.0版。提出了开源AI系统保障用户使用、研究、修改和分享自由的基本要求。 [注2]

颇具悖论意味的是,标准发布后引发的"开源打假"浪潮,反而凸显了标准化定义与技术实践的断裂。大量媒体开始拿着OSI的定义批判主流厂商如Meta的Llama系列等"开源模型"不符合OSAID标准,是假开源。但事实上,这些厂商的开源策略也并未因此标准的发布而有所调整。Meta的发言人甚至公开反对这一标准。 [注3] 这不禁让人思考:当我们谈论“开源AI”时,我们究竟在谈论什么?


02

人工智能模型的开源缺乏社区共识

作为对比,让我们回顾一下“开源软件”这一定义诞生的历史。开源软件定义的诞生本质是技术共同体自发秩序的制度化过程,第一版的开源软件定义由OSI于1998年第一次发布。而彼时,自由软件基金会关于自由软件的定义早已于1990年发布, GPLv2许可证(1991年发布)也已诞生7年 [注4] ,MIT许可证(1988年发布)已诞生10年 [注5] ,Apache 1.0许可证(1995年发布)已诞生3年,最早的一版BSD许可证(1988年发布)也已诞生近十年。 [注6] 基于开源软件的协作与共享已经较为发达且已经产生了诸如GNU/Linux这样的知名项目。

而OSI与其说是给“开源软件”下了个定义,不如说是对当时已经成型的社区共识进行抽象、归纳和表达。 [注7] 并通过其许可证认证机制,藉由全球开发者的背书逐渐成为了公认标准。可以说,OSI的开源定义之所以权威,是源于其对社区共识的精准表达和突破性凝练,而非其本身是某种“权威机构”。

但对于AI,什么是开源、什么不是开源,在社区中暂时没有形成共识。OSI在此刻抛出的开源AI定义,颇有投石问路之意,当前AI开源争议的本质,是传统软件协作范式与AI技术特征的制度性冲突。OSI所作的努力,也并非单纯的定义之争,而是试图在数据权属、模型透明度、商业利益间探寻新平衡点。这种创新既需要技术社区的认同,也面临法律合规(如训练数据版权)与商业逻辑(如算力问题)的双重挑战。


03

开源软件与开源AI的协作模式存在重大区别

在考虑什么是开源软件时,一个重要的因素就是考虑这个软件的许可模式是否便于协作。根据哈佛大学法学院Yochai Benkler教授的观点,适合使用开源模式进行协作项目需要具备两个特征,即细颗粒度和高模块化。 [注8] 细颗粒度是指,一个任务可以被细分为足够细的子任务,而模块化是指,细分为多个子任务都不同的人完成后,可以较为方便地重新组合和集成。而开源软件恰恰同时具备这两个特点,在软件开源后,世界上任何一个角落的开发者都可以从这个软件中找到足够细的一部分进行贡献,小到拼写错误的检查,大到整个项目级别的贡献,对于一个开源软件来说都是可以接受的贡献规模。同时,基于代码的软件也可以很容易地合入来自世界各地的贡献,满足签署模块化的要求。

AI大模型却与此不同,在大模型领域中,虽然存在着包括监督微调、模型蒸馏或LoRA等相较于预训练更为轻量的“改进”手段,且社区也确实在提示词工程,评估基准等方面做出了一定贡献。但上述贡献,绝大多数都不直接涉及基座模型本体。基座模型本体的迭代仍更多地依赖于发布者的自行升级。一个直观的例子便是DeepSeek R1是由深度求索公司在DeepSeek V3的基础上经过强化训练而来,但DeepSeek V3却是其从头训练的一个模型,而非DeepSeek V2的结合了社区贡献后得到的某个“更新版本”。

对DeepSeek V2模型的提交记录进行检查可以看出,DeepSeek V2上线后,仅有19次commit(即对开源仓库中的内容进行更新的动作),其中18次均为对说明文档、许可协议、代码等的更新,仅有一次对模型本身的更新,提交人也是DeepSeek员工 [注9] 。而作为对比,开源软件的代码提交频率就要高出好几个数量级,如著名人工智能开发框架PyTorch截止目前共有来自3684名贡献者的84682次提交记录,仅2025年2月16日至2月22日一周之内,就有203次提交记录 [注10]

当前开源AI的协作机制尚未形成有效范式,在技术特征、制度供给与厂商实践三重维度存在结构性冲突的背景下,过早以传统开源标准对AI模型进行“真伪开源”的二元划分,可能忽视技术演进与制度创新的动态平衡需求。


04

Linux基金会的模型开放框架

与OSI不同,Linux基金会在“开源”定义上并未直接给出明确的标准,而是更加关注解决AI模型使用的实际问题。基于这一需求,Linux基金会发布了“模型开放框架”(Model Openness Framework)。该框架并未尝试给出一个正式的“开源”定义,而是从便于社区选择和使用模型的角度出发,为每个模型打上标签,使社区成员能够直观地了解他们可以做什么、不能做什么。

Linux基金会将开源AI分为三个层级,开放程度由高到低分别为:Class I-Open Science、Class II-Open Tooling和Class III-Open Model。 [注11]

与此同时,Linux基金会也对当前主流的开放模型进行了评估。截至2025年2月24日,仅有来自北京智源人工智能研究院(Beijing Academy of Artificial Intelligence)的Aquila-VL-2B模型获得了最高级别的Open Science评级。此外,包括DeepSeek R1在内的39个模型获得了第三等级的Open Model评级。 [注12]

与OSI的定义方式相比,Linux基金会的思路更加务实——它没有试图定义开源AI应达到的具体标准,而是为社区提供了一种灵活的选择工具,使开发者能够在无需阅读复杂许可文本并逐个分析开源仓库的情况下,快速理解每个模型的开放程度。


05

“开源AI”到底开源了什么

以DeepSeek R1为例,其开源仓库中主要包含以下文件:LICENSE、README.md、model-00XXX-of-000163.safetensor(共163个文件)model.safetensors.index.json、modeling_deepseek.py、tokenizer.json、tokenizer_config.json、config.json、configuration_deepseek.py、generation_config.json。

以上文件中,.json文件以及configuration_deepseek.py为配置文件。比如其中的config.json配置了与模型相关的大量超参数,包括专家数量、隐层数量、隐层规模等等。其他配置文件涉及较多技术细节,本文不再赘述。

modeling_deepseek.py为模型代码,包含了模型结构信息及各组件的运行逻辑。通过运行该文件,用户可以实现模型的推理。

163个model-00XXX-of-000163.safetensor文件是最核心的模型文件,它们包含了结构化的模型参数。这些文件以二进制形式表示,即便这些文件公开,它们本身也不具备人类可读性,无法通过人工方式进行有意义的修改。要使这些文件发挥作用,需要结合模型代码一起运行。

README.md为说明文档和模型卡片(Model Card),LICENSE文件则是该模型的许可证,采用的是MIT许可证。MIT许可证是一种非常宽松的开源许可证,它几乎赋予了用户复制、使用、修改、分发该材料所需的一切权利。

在模型仓库之外,随着DeepSeek R1一并开放的,还有一篇公开发表的论文DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning [注13] ,该论文详细记载了DeepSeek R1的训练过程。

DeepSeek R1的开源仓库是典型的大型模型开源仓库,包含了用户运行和微调模型所需的核心文件及附属的说明文档,正是基于此,催生了下游极其繁荣的应用生态,大量应用开发企业积极介部署了DeepSeek R1并开发各个垂直领域内的应用,在DeepSeek R1发布后短短一个月内,国内基于DeepSeek R1的垂直领域应用已经呈现百花齐放的态势。而DeepSeek R1对开源生态的另一个重要贡献是,公开了质量极高的能够复现该模型训练过程的论文,这也势必催生现有基座模型的新的一轮的迭代。

前述所有已开放的材料,除论文外均以MIT许可证开源,用户可以自由使用这些材料。至于论文中公开的训练方法,因其并不在开源许可证的覆盖范围内,用户需自行进行或委托专业机构进行FTO后使用以避免专利风险。


06

讨论“开源AI”的法律意义

虽然如前所述,在当前这一时间点上,对于“什么是社区共识的开源AI”的争论可能为时过早,但开源AI及其相关定义已经出现在多个国家的监管法规中,这应当引起足够的重视。

2025年1月15日,美国商务部工业和安全局(BIS)发布了 《人工智能扩散框架》,该框架引入了新的管控物项ECCN 4E091,为人工智能模型参数设定了严格的出口管制措施。但同时,CCL在4E091的注释1中,明确排除了已公开(published)参数的模型,根据EAR§ 734.7(a)的定义,公开包含五种情形,满足其中一种即属于这里的“公开”,对于人工智能模型来说,最常见的为其第一或第四种情形:(1) 任何希望获取或购买已发布信息的个人均可无限制地获取的(Subscriptions available without restriction to any individual who desires to obtain or purchase the published information);(4) 以任何形式(例如,不一定是出版形式)进行公开传播(即不受限制地分发),包括在互联网上发布在对公众开放的网站上的。[Public dissemination (i.e., unlimited distribution) in any form (e.g., not necessarily in published form), including posting on the Internet on sites available to the public]。因此,一个AI模型的开放程度,能否满足前述CCL的规定,直接影响到某一个模型是否可能构成EAR的管制物项。

同时,欧盟发布的AI法案的第12条对满足一定条件的基于自由和开源许可证提供的AI系统(AI systems released under free and open-source licences)给予了很大程度的义务豁免。该法案中虽然未直接对基于自由或开源许可证提供的AI系统给出定义。但其在recital 102中对自由和开源许可进行了描述,即指“允许它们(指AI系统,下同)被公开分享,并且用户可以自由地访问、使用、修改和再分发它们或其修改版本”(allows them to be openly shared and where users can freely access, use, modify and redistribute them or modified versions thereof)。虽然recital在欧盟立法中更多的承担着立法目的解释功能,而非作为正式的定义条款使用。但在2025年1月欧盟发布的《禁止性AI实践官方指南(草案)》中却将前述内容作为“自由和开源许可证”的脚注引用,其作为实质性的定义条款的意味明显。因此,某个模型能否通过欧盟关于自由和开源的检验,也将直接影响到其在欧盟市场上将要承担什么样的义务。

综上所述,开源AI在社区中的定义尚未达成共识。对于法律服务提供者而言,相较于关注“真开源”与“假开源”的争议,更应当关注的是模型的开源许可证实际提供的使用权利和限制,以及在后续使用过程中是否能够享受到开源或公开模型的优惠政策和豁免等更具法律意义的问题。


注释及参考文献

上下滑动查看全部

[1] 参见https://opensource.org/ai/timeline。

[2] 参见https://opensource.org/ai/open-source-ai-definition。

[3] 参见https://mp.weixin.qq.com/s?__biz=MzIyMzU2MjQzOA==&mid=2247492596&idx=1&sn=d3df268ad9d812121918920494990ef4&chksm=e9790d4ea67f7c66d74cf3a484641bea9269d479fc500e2b7d1740484c7e39cf5b52ea05316f#rd。

[4] 参见https://www.gnu.org/licenses/old-licenses/gpl-2.0.html。

[5] 参见https://zh.wikipedia.org/zh-cn/MIT%E8%A8%B1%E5%8F%AF%E8%AD%89。

[6] 参见https://en.wikipedia.org/wiki/BSD_licenses。

[7] 参见https://opensource.org/osd。

[8] Benkler Y. Coase's Penguin, or, Linux and" The Nature of the Firm"[J]. Yale law journal, 2002: 369-446.

[9] 参见https://huggingface.co/deepseek-ai/DeepSeek-V2/commits/main。

[10] 参见https://github.com/pytorch/pytorch/graphs/commit-activity。

[11] arXiv:2403.13784, https://arxiv.org/abs/2403.13784。

[12] 参见https://mot.isitopen.ai/models?sort=desc&order=Classification。

[13] 参见https://huggingface.co/papers/2501.12948。

作者简介

陶冶

国浩南京合伙人

业务领域:软件和互联网、人工智能

邮箱:[email protected]

相关阅读

【 特别声明:本篇文章所阐述和说明的观点仅代表作者本人意见,仅供参考和交流,不代表本所或其律师出具的任何形式之法律意见或建议。】








请到「今天看啥」查看全文