专栏名称: 脑极体
你的困惑,来自于无路贴近未知。我们在技术、思想、传播的异界,贩来极限脑量下的TMT。
目录
相关文章推荐
新闻广角  ·  雷军:小米SU7 Ultra可提前小定,将优先排产 ·  2 天前  
新闻广角  ·  17人中毒,一知名酒店突发! ·  2 天前  
鲁中晨报  ·  20℃!淄博火箭式升温,但很快要反转 ·  3 天前  
鲁中晨报  ·  颜宁(山东人),拟获中国女性至高荣誉 ·  4 天前  
51好读  ›  专栏  ›  脑极体

OpenAI刺破了中国AI的幻想

脑极体  · 公众号  ·  · 2024-06-28 12:03

正文


OpenAI在6月25日凌晨宣布,将从7月9日起,将阻止来自不支持其服务的国家和地区的API流量,而中国也在禁用名单之列。



消息一出,国产大模型们应声而动,立刻推出了相应的“搬家”或“迁移”方案。有的还提出了与OpenAl 使用规模对等的 Token 赠送计划(不设上限),坊间戏称,“这下中国做AI的可以实现token自由了”。


我们知道,海外对于中国AI的限制一直存在。但此前针对AI的禁令,主要是限制英伟达和AMD的高性能AI算力卡,而OpenAI此次强势禁用,则让AI软件算法层面的“另一只靴子落地”。


从硬件到软件,越来越扩大的禁用范围,以及越来越严格的限制,无时无刻不在提醒着我们,在AI这一关键科技领域,全方位阻隔中国的进步,已经是一张明牌了。


面对这个不可逆的AI封锁大趋势,中国企业受的影响到底有多大?AI全面国产化,中国做好准备了吗?



放弃幻想

OpenAI禁用到底影响了谁?


自ChatGPT发布以来,OpenAI的API已向近190个国家和地区开放,其中并不包括中国。不过,一直以来,一些国内企业和用户,可以通过技术手段来继续使用OpenAI的服务。


对于这些来自中国的流量,OpenAI并非检测不出,只是以前可能“枪口抬高了一寸”。


而就在6月22日,美国财政部发布了一份规则草案,进一步限制美国个人和企业投资中国的半导体、量子计算和人工智能业务。新规则草案推出,面对越来越明确的AI封锁态势,OpenAI也主动明哲保身,选择了加强区域限制,采取额外措施阻止来自不受支持地区的API流量。



到底是什么人和公司“明知不可为而为之”,在使用OpenAI的API呢?主要有三类:


一是部分自研模厂。 一部分模厂会在研发阶段,调用OpenAI的API,使用其GPT产品进行模型训练、数据对比迭代等。实际上,谷歌Gemini-Pro大模型的训练也曾用到了百度文心生成的数据。此前就有国内某互联网公司,被爆出经常达到OpenAI API的最大访问上限,不过对方也表示,仅在年初的初期探索阶段使用了OpenAI的API,而在今年4月已经停止了这种做法。


二是套壳AI公司。 一些初创公司为了快速推出AI产品或服务,可以通过技术手段,对OpenAI的API进行封装,“改头换面”作为自己的产品推向市场。实际上用户的每次交互,都会通过API调用OpenAI的模型来完成。


三是面向海外市场的应用开发者。 在OpenAI所支持的国家和地区,为了跟海外开发者“站在同一起跑线”,而选择OpenAI API。


目前来看,上述群体受OpenAI禁令的影响程度都不高。


随着国内模厂的模型基本完善,不用再通过调用API的方式收集数据。海外应用的开发,应用往往需要对本地市场的深入了解,因此国内开发者数量规模也较小。相比之下,“套壳API”的初创公司可能受到的打击是最大的,不过通过“搬家”切换到国产大模型,快速找到能力接近的替代方案,也能一定程度上规避风险。



所以总体来说,OpenAI更严格的API限制,并不会给中国AI带来很大的动荡。


但这并不意味着,中国AI可以高枕无忧了。从“英伟达禁令”到“OpenAI禁令”,发出了一个鲜明的信号: “潘多拉魔盒”一旦开启,就不会关上,针对中国AI的封锁,也不可能在短时间内被撤回。


是时候摒弃“枪口抬高一寸”的侥幸心理和幻想了,事实证明,枪口随时可以朝下扣动扳机。



认清现实:不可逆的AI封锁

还有哪些牌可出?


在封锁烈度上,美国官方和AI企业的行动在不断加强;在封锁广度上,从高性能AI芯片的底层算力,到大模型的底层算法,“釜底抽薪式”的封锁正逐渐延伸到AI基础设施的各个关键部分。


那么,在算力禁运、算法禁用之后,海外想要阻隔中国AI的发展,还有哪些牌可以打?梳理一下AI软件基础设施:


1. 框架。深度学习框架,是支持AI算法模型开发和部署的软件平台,对AI应用的开发效率和性能有重要影响。 目前国内深度学习框架市场主要由飞桨(由百度开发)、TensorFlow(由Google开发)、PyTorch(由Meta开发)三家主导,共同占据了超过80%的市场份额。这三家均为开源框架,允许开发者自由地查看、修改和使用其源代码,不过TensorFlow、PyTorch作为开源平台也需要遵守所在国法律法规,并可以通过开源许可证等方式,限制开发者的访问。



2.算子库。包含各种数学和逻辑运算函数的库,在深度学习框架中扮演着至关重要的角色,为各种算法提供了基础的计算单元。 如果算子库是闭源的,又归属于海外公司,那么可以直接限制使用。开源的算子库也要遵循一定的开源协议,协议中往往会规定代码的使用、修改和分发规则,如果开发者没有获得适当的许可或权限,也无法使用。目前,国内飞桨、昇思等AI开发平台都发布了算子库。


3.数据集。AI界有句名言“garbage in,garbage out(垃圾进,垃圾出)”,高质量的数据集,对于AI算法模型的性能至关重要,在大模型时代也不例外。 各个领域和应用场景都有专有数据集,比如计算机视觉领域的MNIST、CIFAR、ImageNet等。NLP领域的SQuAD、GLUE等,再比如AI蛋白质结构预测任务所需要的数据集,如CASP、AlphaFold DB、PDB等,这些数据集为AI研究提供了丰富的数据资源,大多由海外研究机构建立。


近年来,中国AI领域的高质量数据集也在快马加鞭地建设,数据治理体系也在不断完善,数据作为核心生产要素的战略地位不断提升。但现阶段,与海外一流水平还有差距。而AI算法的特别之处在于,不像传统软件能一次开发完成,模型需要不断学习、迭代和进化,依赖于持续更新的数据集进行训练。一旦数据集被阻止访问,就如同剥夺了模型成长的土壤,甚至可能变得停滞不前。


此外还有编译器、IDE等,这些软件工具可以大大提高开发者的编程效率。如果被禁用,开发者将需要手动完成这些工作,从而导致开发效率降低,团队协作困难,甚至影响项目的进度和质量。



“英伟达禁令”执行以后,一位国內某计算厂商向脑极体表示,“虽然我们还可以用特供版的AI芯片,但确实支持不了英伟达最新的平台了”。


所以说,硬件、软件基础设施共同构成了AI产业的支撑体系。面对阻隔中国AI的封锁禁令,一定要有“底线思维”,软件并不比硬件更安全,开源软件并不比闭源软件更安全。



准备应对

中国AI,必须两条腿走路


提到国产化替代,总有人担忧这是在闭门造车、与世界脱节。AI作为高度全球化的高新技术产业,这种担忧确实不无道理。


但也必须看到,“没有一次AI断链是我们先动的手”。


实际上,中国AI产学界始终保持着开放心态,积极吸收国际先进技术,与世界接轨。斯坦福大学发布的《2024 年人工智能指数报告》显示,自2011年以来,GitHub上的开源人工智能项目,中国参与度不断增长,直到2019年在科技领域遭受不合理打压之后,才开始走低。








请到「今天看啥」查看全文