专栏名称: 数智前线
关注数字化和智能化,汇聚最专业的人,提供有料有趣有价值的内容。
目录
相关文章推荐
51好读  ›  专栏  ›  数智前线

详解开源闭源之争,十家大模型厂商的商战策略

数智前线  · 公众号  ·  · 2024-06-25 19:21

正文


在大模型开闭源之争背后,有着几大核心问题。


文|赵艳秋 ‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍ ‍‍‍‍
编|牛慧



大模型市场已形成了“开源派”和“闭源派”。而当下,在大模型竞争进入市场争夺的白热化阶段后,企业在开闭源上的交锋也更为激烈。


实际上, 大模型开源和传统软件开源不是一回事 。在开源的定义、治理、社区性质、贡献路径和企业的开源策略上,都在发生巨大变化。



01

大模型企业开闭源策略各异


今年大模型的开闭源更为热闹,在闭源的企业,有开源的呼声;在开源的企业,有闭源的动作。


百度内部对大模型开源、闭源的讨论非常热烈 。大家都在思考,什么样的方式能取得更多的竞争优势。


在BATH几家大厂中,百度、华为选择闭源路线,阿里、腾讯则推出了开源大模型。


百度对于开闭源大模型的争论,部分也来自阿里云等企业今年在开源上的声势和市场动作。


到目前为止,虽然百度文心一言仍坚持闭源路线,但 百度智能云部门,在其平台上提供了大量性能很强的第三方开源大模型 。百度通过闭源文心一言,也通过开源大模型使用的算力、工具和服务,来实现商业上的收益。


在开源上,今年阿里云的动作极为密集。5月在北京举办的AI峰会上,阿里云CTO周靖人表态, 开源是阿里云的战略,阿里云形成的是一个开源和闭源的整体体系 。阿里云已开源了参数从5亿到千亿的数款模型,打法也更为专业。


业界认为,阿里云大力推广开源,一方面是为了加快市场份额的争夺;另一方面作为云计算企业,它可以采用“ 羊毛出在猪身上 ”的商业模式,在算力、工具和服务上获得收益。周靖人在策略会上尤其强调“百炼”平台的服务。而开源还能为其引流,有些客户可能升级为闭源用户。


与其他大模型企业相比,腾讯开源大模型较晚,今年5月对外开源了 混元文生图大模型。 混元相关人士告诉数智前线,由于市场上已有很多开源的大语言模型,因此腾讯这次选择开源文生图,应该是 第一个中文原生的开源DiT模型 ,未来还会尝试参数量更大的模型。由于刚开源几周,商业化影响仍待观察。


华为云2023年在推出盘古大模型3.0时, 就表态采用闭源路线 。过去一年,它的重心是在 各行业进行联创,落地大模型, 并将技术回馈盘古,不断迭代,未参与业界开闭源讨论。华为云在上周也刚刚官宣盘古5.0多模态大模型,发布期间也未涉及开源问题。同时,华为云于去年上线“百模千态”专区,提供第三方开源大模型。


最近在项目订单上活跃的 智谱,是国内最早开源大模型的企业 。因为智谱由清华技术成果转化而来,2022年,它就将开发的双语 千亿模型GLM-130B开源 ,“当时全国懂大模型的研究员加起来也不过百来人”。智谱CEO张鹏称,开源让大家知道智谱在做什么,同时可以让更多人参与推动大模型。此后在2023年3月,智谱将GLM6b开源,该模型在Hugging Face上的下载量超过1600万。


虽然张鹏认为开源的初心并不是要去赢得市场或追求商业利益,但ChatGPT爆火后,智谱的GLM开源大模型获得大量关注,也让这家2019年才成立的公司, 在融资和商业化上受益颇多 。张鹏也称,开源和商业化是整个生态版图里很重要的两块,这两块是有连接的,可以说 开源充当着商业化的桥梁。


王小川的百川公司,去年作为创业的明星公司,发布了Baichuan-7B、13B开源可商用大模型,在业界引发关注。当时有应用开发商告诉数智前线,测试后,他们从Meta的Llmma转向百川,因为中文效果更好。


百川开源时,国内大模型开源的还很少。此后,越来越多的大模型公司,包括大厂,开始开源。百川联合创始人谢剑告诉数智前线, 未来还会开源,但不会开源特别大参数的模型,因为很多人用不起来


最近快手的 文生视频大模型“可灵” 很火爆,不少应用企业“祈盼”可灵开源。但快手相关人士表示, 暂不考虑开源,而会逐步开放一些东西在业界讨论


而昆仑万维最近开源了一个 稀疏大型语言模型 Skywork-MoE,为应对大规模密集型大语言模型带来的挑战。昆仑万维兼天工智能首席科学家颜水成告诉数智前线,开源大模型帮助学界进行探索性工作,而公司也推出音乐、游戏等垂类模型,将采用闭源商业模式。


李开复的创业公司零一万物,是这波大模型独角兽中最后一家开源的企业。公司开源负责人林旅强非常坦率,认为开源和闭源是商业设计问题。 零一万物也采取了开源、闭源并进的模式。开源在一定程度上扮演了商业拓展角色 。同时,今年零一万物发布千亿参数模型Yi-Large,一些使用了开源模型的客户有望转化到该闭源模型上。



02

开源大模型与开源软件有三大区别


虽然大模型开源如火如荼,但业界一直在诟病它的透明度,质疑为什么好多信息,企业不公开。实际上, 大模型开源和传统软件开源不是一回事


红帽中国首席架构师张家驹告诉数智前线, 软件开源是指源代码开源,拿到源代码,我们就“知其然也知其所以然” ,也可以在源代码基础上,去修改或增加新功能。


但大模型是一个黑盒子,里面有很多至今无法解释的现象,所以对大模型的开源,业界提出了更多维度,有的说需要四部分—— 权重、数据集、代码和训练过程;也有的说需要五部分,还包括了框架 。即使是这些定义,业界也有不同意见: 为什么会有这样的定义?这更像是从传统开源软件的思路来考虑的。


有趣的是,只有极少数公司或机构的大模型,同时开源了上述四部分或五部分,比如 IBM刚刚开源出来的Granite大语言模型 ;也有像 智源研究院、马斯克旗下大模型公司xAI ,开源了权重和数据集 。比如,根据智源人工智能研究院副院长兼总工程师林咏华的介绍,今年6月,智源最新开源数据集分为两类,一类是通用开源指令微调数据集,一类是行业垂类数据集,涵盖18个行业。


“现在业界的共识是,至少将权重再加上一些推理代码开源。” 零一万物林旅强说, 只有这两部分开源,其他人才可以将开源大模型使用起来 。由此,开源大模型现在的定义, 有点像微软提过的“免费软件” 。所以,谷歌等公司在其官网上称是开源权重(open weight),而不是开源大模型。


为什么在开源大模型中, 权重如此重要? 有业界人士将权重打比方为“一大堆数字”,一个13B的模型,就有130亿个数。这些数字与模型如何处理输入的数据、如何做出预测和生成文本等相关, 代表了一个大模型的智慧。


而在大模型中, 代码分为预训练代码、微调代码和推理代码。预训练代码是大模型公司的核心 ;对于微调代码,市场上已有很多公开方法,而大模型要被用起来,需要推理代码。 至于训练过程和数据集,往往也是大模型厂商的核心所在


与传统软件不同,在大模型开源上,企业的态度有了微妙的变化 。现在大模型的成本太过高昂,训练一个千亿级参数模型,要几千万甚至上亿,因此,很多公司在开源问题上变得保守。这是一个现实问题, 每家公司的开源,必然服务于自己的商业战略 。而且,即便将这些核心都开源出来,大多数工程师和企业也没有那么多资源去复现。


业内人士认为,开源大模型和开源软件 有三个核心区别


一是透明度完全不一样。 开源软件的代码能说明一切,从而可以形成一套治理体系;大模型当下还是一个黑盒子,内部机理还是未知的。


二是大模型社区的性质发生了变化 。之前开源社区讲求全球工程师来贡献;但因为算力等资源限制,在大模型社区里, 或许90%以上的工程师,无法直接为大模型贡献 ,因此很多社区变成了单向模式,大家只是使用大模型。 在HuggingFace上,Meta的Llmma开源大模型,已经有几千个变种,但彼此 之间没有太多交互,也很难将创新合并。


其三是大模型企业开源策略发生变化 。中国信通院知识产权与创新发展中心产业发展研究部主任张俊霞说,因为大模型的训练投入特别大,这导致企业在开源策略的选择上, 特别是在一些许可或信息披露上, 都有很大不 同。“这个问题现在 管是国内还是国际社区,都在非常激烈地讨论 。”



不过,近期,一些动态正在发生。 比如,红帽在社区贡献上有了尝试动作。 一方面IBM开源了Granite模型; 另一方面,“训练过程”在另外一个开源项目InstructLab中。 由IBM出资建设了一个平台。每过一段时间,就把大家“集”来的数据放在上面“训”,形成模型的迭代 同时,用户也可以选择保留自己的数据,训练分叉的模型。 “客户不用‘躺平’,可以用他们的场景、经验参与到调试当中,不断在变化之中调优。 ”红帽大中华区资深市场总监赵文斌告诉数智前线。

而张俊霞认为,大模型时代, 对开源的定义以及未来的治理,不管是从项目层面、企业层面还是从国家层面,也都会发生一些翻天覆地的变化



03

“开源的目的不是一定要超越闭源”


除了如何定义开源大模型,开源派和闭源派,在开闭源大模型孰强孰弱和安全性上,有着交锋。


如果在当下这个时间点,OpenAI等的闭源模型比较强。“但不意味着闭源会持续遥遥领先。”零一万物林旅强说,未来当算力平民化,再加上互联网协作精神, 可能5年、10年,开源大模型就会变得更强


不过,智源研究院智能评测组负责人杨熙从评测角度看, 单纯把开源模型和闭源模型放在一起来比较,可能有失公允 。因为闭源大模型可能是一套体系,比如包含了检索增强等技术,而开源模型是一个单体模型,拿“多对一”,肯定不合理。


而红帽张家驹认为, 开源的目标不是说一定要超过闭源 。“即便之前全球工程师合力做Linux,目标也不是要超过闭源。”开源的价值是 更加公开透明,技术上更加平权,不会让其成为少数人牟利的手段 。“更为关键的是,对于人工智能来说,如果未来走向AGI, 开源让AI的发展走向,更符合全人类的利益 ,这一点的价值要远高于在某一方面去超越闭源。”


而开源和闭源大模型谁更安全,业界也有着争议。开源派认为,在闭源环境当中,大家不知道有没有人监督它。开源的好处是一旦出现一些安全问题,整个社区会来共同检查。


但也有人士认为“ 开源也会带来各种意想不到的问题 ”。 比如,开源可能将大模型交到了“恐怖分子”手里 。“举个例子,开源大模型的数据集,如果别人加了一些数据,训练出大模型去干了违法的事。”一家大模型企业开源负责人对数智前线说,虽然他们也有开源大模型。另外,现在各国都强调数据主权,数据开源后怎么追踪也是问题。“所以国家鼓励开源,但不是无限制的开源。”


对于这些观点交锋,智源研究院杨熙称, 开源、闭源其实都存在透明性、合规性、安全性的问题,也涉及治理问题。


信通院张俊霞提出,关于治理,其实大模型是一个技术性非常强的领域, 所以“技术的问题,一定要依赖技术” 。她看到,谷歌发布了一款开源工具Model Explorer,帮助人们理解大模型技术的内部工作机制; IBM、微软 也发布了关于开源大模型或人工智能的伦理和解决手段,非常值得学习参考;今年1月, 腾讯 发布了安全治理框架,涉及一个模型整个生命周期里每个阶段的安全技术、问题和管理等。


杨熙则强调,开源其实对模型内在机理的刻画和理解,非常有帮助。“在我看来, 开源和闭源是一个硬币的两面。”智谱杨熙称 ,开源可能促进我们更多的探索性和基础性工作;闭源更多促进产品化和商业化,推动大模型走进每个人的生活。这两件事其实不应该是之争,而是和谐共存。


“现在,什么样的框架最适合从行业监管角度,既不太过于增加企业的负担,又能够实现行业事前、事中、事后的一个 完整的监管,其实全球还没有一个统一的答案 ,仍然在探索过程中。”张俊霞说。



04

开源闭源,商业化应用如何选择


在开闭源的选择上,智谱张鹏认为,如果只是想做一些实验和尝试,可以选择开源模型,但 如果想要在上面做商业化应用,大部分人还是会选择商业化版本 ,因为有保障,能够提供更好的服务。


这代表了业界、尤其是ToB行业很多人士的观点。


红帽张家驹则认为, 无论是开源、闭源,需要优先考虑客户是否需要本地部署大模型 。无论国内外,不少客户都有自主可控的需求。如果采用公有云上的模型,比如OpenAI,客户要考虑 数据暴露信息 的问题。“这是个很重要的问题。”


值得注意的是, 闭源大模型是否能部署到本地,需要获得允许。开源大模型同样需要依据一些协议以及合规性 。从技术角度来讲,很多开源部署到本地是可行的。而开源可以方便地进行微调,打造行业大模型,这是其优势。


除了本地化部署之外,也有企业需要调用公有云上的大模型。“ 大模型的需求一定是开放混合的 。”张家驹说。


大模型应用开发商北京可为是最早在市场监督管理领域,打造、落地行政执法垂直大模型的企业。公司联合创始人曾明告诉数智前线,他们在开闭源大模型中,最终选择了开源大模型。一方面,行政执法是比较知识化的应用,去年他们在测试验证中就发现,当时的开源模型 在解决主要场景上,已经符合要求 ;另一 方面,成本是重要的因素之一 。同时,这类垂直大模型属于政务应用,客户对数据安全要求极高,不能触碰红线,需要 私有化部署 ,而开源模型在这方面更为灵活方便。







请到「今天看啥」查看全文