专栏名称: 脑极体

你的困惑，来自于无路贴近未知。我们在技术、思想、传播的异界，贩来极限脑量下的TMT。

中国AI长卷（二）：框架立基

脑极体 · 公众号 · · 2024-07-23 19:10

正文

2021年正值科技摩擦之际，我采访到一位工业机械公司的技术负责人，向他问到：“制造领域有没有一些“卡脖子”的情况？”

他提到，“工业智能制造的核心要素，可以归纳为“三软三硬”。三软主要是指大数据、人工智能和工业软件，三硬主要是指核心装备、制造工具和材料。卡脖子这个问题，在各行各业各个领域都普遍存在”。

“反倒是深度学习框架，现在的情况还好，没有卡脖子。TensorFlow是开源框架，虽然也是国外的，但目前还没有封闭，不过也不排除它后期还会封闭。这也是为什么我们公司选择国产深度学习框架，一是使用门槛更低，二是防患于未然。客观地说，国产框架离TensorFlow还有一定的差距，但这个差距在肉眼可见地缩小。”

从传统的深度学习模型时代，到方兴未艾的大模型时代，都离不开AI框架的平台化支撑，其重要性不亚于芯片。 但和芯片不同的是，与大模型发展相适配的国产AI框架，基本实现了自保。

这是基础技术领域一个非常大的进步，也是中国为什么没有错过这一轮大模型AI热潮的原因之一。

2021-2024的短短数年，从机器学习到大模型，新旧技术“沧海桑田”，科技行业风云变幻，但AI框架之于产业的重要性，却从未改变。

如果说，从信息化、数字化到智能化的漫长进程，就像鱼类走向陆地的进化变迁，那么AI框架，就处于算力层与应用层的中间地带，犹如海洋与陆地之间的那道“海岸”，支撑着各行各业与智能浪潮的交融。

那么，究竟什么是大模型所需要的AI框架？AI框架是如何满足产业链需求的？国产AI框架与海外框架的差距或差异又在哪里？

本文就让我们深入AI产业链的中枢地带，沿着AI框架的“海岸”一探究竟。

鱼要经由海岸，进化成两栖动物，适应陆地，才能具备在新环境的生存能力，拓宽种群的边界。同理，AI模型从训练到推理的全流程落地，开发者也需要一种基础设施作为助力，这就是AI框架。

一个底层AI框架，至少具备几个特质：

1.通用性。 AI框架作为基础设施，广泛覆盖各类模型，同时简化了AI开发过程，对多种算法进行模块化封装，让开发者不需要“重复造轮子”，可以快速搭建AI模型。比如对多元异构计算硬件的适配兼容，支持大分发多类型任务调度的分布式能力，核心算子库等，是开发各类算法模型都需要的，都要在框架层去解决。

2.全流程。 AI框架集成了模型开发所需要的工具，为开发人员提供全流程的开发环境。具体来说，训练、调优、测试和部署的一整个标准化流程中，所需要的相应组件，都能够在一个平台获得，进行全流程的项目提升，高效满足各类场景的定制化建构需求。

3.生态化。 从产业链全局来看，AI框架下接芯片，上承应用，是芯片厂商、应用开发者、软件服务商等多个行业主体都汇聚的中枢地带，形成了非常关键的AI生态系统。拥有一个集聚产业链的自研AI框架，就如同拥有了一条生态丰富、自主可靠的海岸线，是一企乃至一国守住AI疆域的关键。

因此，当ChatGPT代表的大模型爆火之后，焦虑无处不在，“我们没有大语言模型怎么办？”“高端算力卡被禁了怎么办？”“基础软件卡脖子怎么办？”但同样至关重要的底层AI框架，却没有出现“什么时候才能有自己的框架”的焦虑。

试想一下，如果国计民生重点行业的大模型，建立在海外企业的框架上，开源许可证的断供风险、数据安全风险可想而知。幸好，国产AI框架，早就做好了准备。

目前，国际有两大主流AI框架TensorFlow（谷歌）、PyTorch（Meta），而中国自研的AI框架，按照其厂商可以分为三类：

一是以百度为代表的AI头部科技企业推出的，如飞桨paddlepaddle，基于先进模型和产业生态积累，布局AI框架，建立智能业务的体系化优势。

中国软件产业40年功勋人物、“国家卓越工程师”称号、百度CTO的王海峰，曾回忆文心一言的开发过程：2023年要在算力需求爆发、供应紧缺的条件下，快速跟上ChatGPT的趋势，正是基于百度的深度学习框架飞桨paddlepaddle，下游跟主流的芯片厂商做了适配，任何好的算力，我们都能用得起来，很快完成了大模型训练。

二是以华为云为代表的AI云服务厂商推出的，如昇思mindspore，通过AI框架，在云基础设施和行业云用户之间搭建起桥梁，提供完整的云端大模型服务。

去年大模型的百花齐放，就是很多ToB企业和软件公司，利用华为云上的AI框架昇思mindspore，以及盘古大模型、昇腾AI云服务等，支持国内各类开发者、服务商等结合行业应用场景，做出原创模型，支撑了国内多个领域训练并首发大模型，加速了大模型走向产业化的进程。

三是垂类AI服务商、研究者推出的深度学习框架，具备某些独特的技术特性或应用场景 ，比如旷视科技（Megvii）在计算机视觉领域的专长，使其MegEngine框架在图像处理任务上表现突出；清华大学计算机系推出的Jittor，特别适合于研究和教育领域，便于快速实验和算法原型开发；腾讯优图的NCNN框架专为移动端和嵌入式设备优化，适合资源受限的环境或边缘计算；一流科技的Oneflow，也是业内完整的深度学习框架类产品。

不同于英伟达基于芯片构建的软件生态体系，国产AI芯片厂商受限于产品规模，自研软件配套的应用范围比较有限，有待发育，就不详述了。

综上，面对大模型掀起的这一轮AI浪潮，海外框架平台生态蓬勃，起到了一个“海阔凭鱼跃”的作用。国产AI框架也没有缺席，为各行各业探索大模型，奠定了基础，汇聚了力量。

AI框架之所以没有缺席，是中国产学界人士“板凳甘坐十年冷”，一点一滴地构筑而成的。这个过程，遵循了技术领域的“双漏斗”规律，是一个从扩散到收敛，从收敛到扩散的过程，其间经由开发者不断选择和淘汰，最终演化成了今日格局。

第一阶段：早期时期的扩散漏斗（Diversity Phase）。

新技术出现的初期，由于技术尚未成熟，新的想法和产品层出不穷，市场和用户对于哪种技术会最终胜出存在很大的不确定性，因此会出现多样化的技术流派。

PC操作系统、移动互联网OS都经历过百花齐放、多家争鸣的阶段，AI框架也不例外。深度学习大行其道的时候，数据、算法和算力激增，工程复杂度提高，开发者非常需要减少“重复造轮子”，直接调用某些模型或工具，这时候各大厂商都开始将自研算法和工具封装为软件框架，供开发者使用，涌现出了Theano、Caffe（伯克利大学）、Torch、DistBelief（谷歌，TensorFlow前身）等多款框架。

同一时期，国内还没有互联网企业或科技公司做框架，部分高校在学术科研角度做了一些零散的工作。构建完整的深度学习框架，是2013年百度开始。因为很早就关注到深度学习技术，百度更早遇到了深度学习应用上的一些挑战，比如所有的算法从头写，开发效率低，经常出错；每个深度学习开发团队写的程序差异很大，模块无法复用，兼容性也不高，急需一个统一框架。于是2013年，百度开始在框架上投入。据了解，当时百度内部也是框架百花齐放，开发了多个深度学习框架，解决不同业务的不同问题。

值得注意的是，早在此时起，国内外的框架就已经显露出差异化的特质。以Caffe、Torch为代表的海外框架，更偏向于学术、工程师使用；以百度为代表的国內框架，从产业土壤上生长出来，一开始就很注重实用性、功能性、分布式训练、硬件优化等产业特性。

第二阶段：竞争时期的收敛漏斗（Consolidation Phase）。

随着时间的推移，更主要是AI巨头如谷歌、Facebook、百度的优势框架相继开源，其他框架逐渐被淘汰、合并，多样化的框架格局开始向几家主导“收敛”。

2015年开始，谷歌大脑宣布TensorFlow开源，2016年百度飞桨宣布开源，2017年Meta人工智能研究院（FAIR）宣布PyTorch开源。开发者逐渐集中到几个主导者生态中。

曾经的热点框架如Theano、CNTK（微软）、Keras、Caffe2都相继停止维护，或被主流框架收编，百度内部也开始将多款框架收敛为paddlepaddle，并正式对外开源。

这一阶段，海内外并不“同此凉热”。

一方面，PyTorch凭借极强的学术灵活性、易用性，迅速崛起，已经发布很快成为爆款 ，成为围剿谷歌“框架霸权”（TensorFlow不兼容其他开发框架）的生力军。

另一方面，当时国内很多企业的AI意识还没有觉醒，以计算机视觉为代表的深度学习技术，很难满足产业落地的精度需求。 因此，当海外AI巨头围绕框架“火星四溅”的时候，中国的深度学习框架依然是“冷板凳”，企业中只有百度一家在坚持做。

如果说，当时海外框架是因竞争而主动收敛，那国内框架就是因为遇冷而被动孤守。

第三阶段：摩擦时期的再生漏斗（Renewal Phase）。

当主导框架不再适应时代需求，就会出现新的创新浪潮，导致技术的多样性再次增加。“TensorFlow、PyTorch两分天下”的局面被改变，国产AI框架的创新再生大爆发，是在2019-2020左右，中美科技摩擦逐渐增多，需求侧和供给侧都发生了诸多变化。

从供给侧来看，海外框架爆出安全漏洞，而AI又涉及国计民生核心领域，供应链风险不得不重点考虑，自主可靠的国产框架成为必需，供给增多。 这一阶段，国产AI框架进入加速发展期，除了飞桨PaddlePaddle，华为、阿里巴巴、腾讯、旷视科技等产业界，以及清华萨血等学术界，也都相继推出了自研框架，丰富了国产框架的活力。

从需求侧来看，随着AI渗透率提升，中国各行各业的开发者需要中文框架，更贴合中国市场的工具与数据集，更符合中国开发者需求的社区生态，更能满足中国产业需求的AI平台。

有开发者曾提到过，偏底层的TensorFlow，没有为开发者考虑到大量细碎问题；习惯了邮件沟通的海外平台社区，无法满足中文开发者实时交流、社群互动的本土化开发需求；需求分散、场景多样的国内中小企业，很少有技术人员，TensorFlow、PyTorch纯开源框架不能提供成熟低门槛的解决方案，这种模式无法支撑AI广泛落地。

当前阶段：大模型时期的再收敛漏斗。

AI框架从深度学习到大模型阶段，从扩散到收敛再到扩散，技术革新与格局嬗变的背后，一条主线从未改变，那就是从学术到产业化，变得越来越易用、实用。对开发者和产业更友好，更具应用优势的框架，生态的吸引力更强，框架的生命力也就更长，最终从群雄逐鹿的赛场中厮杀出来，成为主导。

目前，源于中国产业实践的国产AI框架，也逐步收敛到更懂产业应用场景、更具技术先进性和生态规模优势的飞桨与昇思。

具体表现在， 飞桨和文心一言，昇思与盘古大模型 ，与产业结合的广度和深度，已经超越了其他国产框架的生态规模。

同时，形成了全链路、低门槛的大模型服务能力，提供从算力、模型到应用、商业层的多元多层支持，凝聚更加广泛的开发者。

产业链角色的多样性与开放性也格外显著，与模厂、硬件厂商、应用开发者、软件企业、ISV服务商等行业伙伴，都建立起了较好的相互赋能关系，构建起智能服务的产品结构体系。

进入大模型时代的新阶段，AI基础设施的重要性，也被拔高到了前所未有的高度。

正如基础通用模型不可能人人都做，如果企业和科研机构无差别入场做基础模型，会造成算力人力的极大浪费，也会让使用者的精力分散在各种模型的试错上，无法快速凝聚到技术更强的模型上，框架也是类似的逻辑。

一个底层框架的技术优势、工具完整度、生态规模，需要长期积累、聚沙成塔，而基础软件又格外需要生态的发展和汇集。 逐步收敛到飞桨、昇思等更具潜力和繁荣的产业化框架上，构筑AI战略底座，将是大势所趋。

如前所说，AI框架是技术浪潮与产业大陆的连接地带，只有在一次次潮起潮落后，仍然坚守下来的平台，才能成为中国AI产业链的坚定守护者。

经由时间和市场的洗练，国产框架与海外框架的特性差异，也变得越来越清晰。而这，可以作为一个侧影，让我们看到中国AI的差异化亮点。

还记得ChatGPT横空出世之后，大家总能听到这样的言论，“中美AI差距有十年”“OpenAI一心底层创新，中国AI还没长大就得出去赚钱”“百模大战是同质化的浪费资源”……

从AI框架可以看到，更强的产业化能力，本就是中国AI的底色，也是亮色。

基础能力上，以飞桨、昇思为代表的AI框架，在产业AI方面的实践更多、积累最早，理解也最为深刻 ，因此可以很好地支持AI模型开发与部署，让产业迅速、更大规模应用这些新技术。

中国AI长卷（二）：框架立基

正文

请到「今天看啥」查看全文