专栏名称: 底线思维
深度资讯体验,独家解读分析,政治经济学者每日提供深度文章。
目录
相关文章推荐
瞭望智库  ·  “首发”?火了! ·  昨天  
半月谈  ·  王勇被提起公诉 ·  2 天前  
瞭望智库  ·  这个趋势“让欧洲再次伟大”? ·  2 天前  
51好读  ›  专栏  ›  底线思维

“主权AI”对大多数南方国家遥不可及,DeepSeek改变了这一切

底线思维  · 公众号  · 政治  · 2025-02-17 13:09

正文


熊节


华东师范大学国际传播研究院全球南方研究中心主任



DeepSeek-R1模型的开源发布,引发了全世界对大语言模型(LLM)人工智能的又一轮关注热潮。DeepSeek以远低于OpenAI的成本,训练出了效果接近甚至部分优于OpenAI-o1的模型,并且用“蒸馏”(distillation)技术提供了一系列参数规模相对很小、效果劣化程度不太严重、有一定实用价值的衍生模型,例如国家超算互联网平台SCNet部署并免费向公众开放的Qwen-7B和Qwen-32B等。
根据笔者的实验和估算,部署运行DeepSeek-R1 671B模型(即大家经常口头说的“满血模型”)用于内部研究实验,大致需要每小时300元以上或每月十几万元的成本;如果采用有监督微调(SFT)方法对其进行训练,成本还要再增加好几倍。这个成本仍然超出大部分个人和小微企业的承受能力,但对于大型企业和国家来说已经完全可以接受。
华为超算中心 网络
这就意味着大语言模型被DeepSeek高度“民主化”了:任何国家都能训练并部署一个很大程度上自主可控、基本体现本国价值观、能结合本国实际情况的,接近或达到世界最先进水平的大模型AI——仅仅几个月之前,这件事基本上只有美国和中国能做到。
一些国家的政府已经意识到了这一转变的重要性。印度政府将投入“计算基础设施、数据和资本支持,以在农业和气候变化等领域构建与人工智能(AI)相关的应用”,据说印度的大模型将在DeepSeek-R1的基础上构建。韩国宣布加快国家级人工智能(AI)计算基础设施的建设,目标是成为“全球第三大AI强国”。韩国政府于2023年提出的这一目标定义,明显是意识到各国都有可能在短期内建成自己的“主权AI”,而DeepSeek的开源大大加速了这一进程。
巴西UFABC大学教授、前巴西总统府国家信息技术研究所(ITI)所长Sergio Amadeu指出,DeepSeek的开源“使那些在技术上依赖美国发展的国家能够制定有利于自身发展的战略……使[大模型]这项技术实现了民主化,为全球南方国家在这一领域开辟了新的可能性”,但同时“开源并不能解决建设对地方和国家发展至关重要的主权基础设施的问题”。Amadeu的这一洞察指出数字主权领域的一个重大问题:数字主权是系统工程,仅靠一两项立法或“杀手应用”的突破仅靠一两项立法或‘杀手应用’的突破,无法实现数字主权水平的全面提升。
受欧盟GDPR的影响,目前各国在讨论数字主权问题时经常聚焦于数据所有权问题,即国家有权使用和管理本国生成的数据、并防止本国生成的数据被别国滥用。与之对应的方案是以立法形式对数据的本地存储和跨境传输加以约束,例如在本国产生的数据应当存储在本国、数据跨境传输需要受本国法律管辖等。
另一些研究者则从传播学角度关注美国互联网大公司对信息的垄断以及进而对政治和国家安全的影响。与之对应的方案是倡导独立于美国大公司的替代性互联网平台,开源、去中心化等概念也经常在这类方案中被提及。
但事实证明,数据所有权只是数字主权的一个部分,而且它很大程度上只是国家掌握数字主权进程中相对靠后的部分、是数字主权的成果而非原因。欧盟在实施GDPR几年后发现,尽管GDPR对数据所有权做了相当严格的规定,但毕竟芯片、服务器、操作系统、云平台等数字基础设施都掌握在美国大公司手里。
于是欧盟只能一次次地调查、处罚美国大公司的垄断行为,却改变不了数据源源不断地单向流入美国、并被CIA和NSA全面监控的现实。正是因为意识到这一点,欧盟已经开始发展与AWS竞争的云计算平台Gaia-X。当然这个项目是否能达成预期,又是另一回事。
笔者提出的数字主权指数(Digital Sovereignty Index,DSI)框架认为,数据所有权的独立自主是国家整体数字主权的集中体现。如果国家没有对数字基础设施(即支撑数字空间运行的硬件和软件)的独立自主,那么对数据所有权的限制实际上无法落地(欧盟和巴西的例子都体现了这一现象);如果国家没有数字治理的独立自主,那么数字空间的规则必然被美国科技巨头企业主导。
数字基础设施和数字治理的独立自主,都依赖于从事数字化产业的科研机构、企业和人才的能力。数据所有权的独立自主、数字基础设施的独立自主、数字治理的独立自主、数字化能力的独立自主,这四个维度共同构成了数字主权的整个体系。
正因为数字主权是如此庞大的一个体系,想单纯通过立法约束数据所有权,或者建设一两个“杀手应用”就从美国的数字霸权手中夺回数字主权,是镜花水月的幻想。同时,这一现实也对数字主权研究领域相当流行的“多利益相关方”理论提出了重大挑战——这一理论认为,除了国家以外,企业、社群乃至个人都是数字主权的“利益相关方”,他们各方的利益与国家的利益未必一致,在数字主权的讨论中都需要受到同等重视。
看看数字主权指数的四个维度就不难明白:数字基础设施、数字治理和数字化能力的建设,超出了任何个人或社群的能力范围,只有主权国家或超级大企业有可能进行这些基础工作。在几家与美国政府紧密合作的美国大企业垄断(除中国之外的)绝大部分数字空间的现实情况下,在全球南方强调主权国家之外的“多利益相关方”实际上的效果就是削弱甚至批评对国家数字主权的关注,从而间接地维护了美国数字霸权现状。
具体到大语言模型AI这个领域,DeepSeek的开源已经让众多全球南方国家开始想象此前他们无法想象的数字主权问题:主权AI。随着大众越来越多地依赖大语言模型来获取和生成信息,对大语言模型的掌控相当程度上就意味着对意识形态、对价值观的掌控。
如果全球南方国家不自主训练并运营自己的主权AI,就意味着其国民自动地依赖OpenAI或其他美国大公司提供的AI产品,也就意味着这个国家需要不断地向美国大公司付费、数据不断流向美国大公司,并且对美国大公司的AI产品中内嵌的意识形态偏见毫无办法。
但正如Amadeu所指出的,一旦全球南方国家(包括其中经济和科技能力较为领先的国家,例如巴西)开始尝试建设自己的主权AI,数字主权其他方面的挑战将接踵而至。举例来说,现在绝大多数全球南方国家如果想基于DeepSeek的开源模型训练和部署自己的主权AI,他们大概率只能选择AWS或Azure的云服务。一旦美国决定禁止美国企业提供DeepSeek相关服务,这些全球南方国家的主权AI计划就将受阻。这就是数字基础设施不能自主带来的约束。
对于大部分全球南方国家而言,在目前的科研、产业和教育基础上构建相对独立自主的数字基础设施和数字化能力体系已经相当困难。即便是其中的大国巴西,其数字基础设施仍然高度依赖美国。自20世纪90年代以来的政策转向破坏了数字化产业持续发展的根基,这是该国目前数字主权水平较低的主要肇因。其他大部分全球南方国家的情况比巴西更糟糕。






请到「今天看啥」查看全文