若将大模型训练过程比作炼丹,那么以GPU为核心的算力,便是炼丹炉下的柴火。谁储备得多,谁就占据主动。为训练GPT-3.5模型,OpenAI使用了约1万颗英伟达GPU。
但单有芯片储备还不够,将千卡(训练消耗的算力卡数量)乃至万卡并联同样关键,否则大模型的训练推理仍无从谈起。事实上,2019年左右,商汤大装置便已具备了千卡并联能力。而当时,还没有ChatGPT。
这并非幸运垂青,而是前瞻认知与实力使然。
商汤科技以计算机视觉获得学术界和产业界广泛认可,对神经网络和深度学习始终有着最深积淀。而视觉信息本身比语音、文本来得复杂得多,其训练计算量巨大。“当年,我们在市场上始终找不到如此大规模互联、可用于AI的算力集群,甚至有云厂商说我们的需求太‘小众’。因此我们不得不自建大装置,以支撑公司更高维度的研发和业务需要。”商汤科技董秘办董事总经理盛世伟说。
2018年起,商汤每年以数十亿元投入SenseCore大装置,并于2020年夏建设临港AIDC。这些举措起初并不为外界看懂及看好。谁能想到,当生成式AI大潮汹涌而来,尤其是海外高性能GPU芯片出口受限情况下,商汤曾经的“小众”需求,竟已演变为行业最主流最急迫的痛点。
可见商汤大装置的问世与成长,也是其自用算力逐渐走向算力商业化的过程。这关乎一种担当,但更核心在于能力。
“尽管5年前我们就实现了千卡并联,但要从千卡迈上万卡,绝非云淡风轻。”商汤科技大装置事业群智算中心总经理林海印象深刻,团队在组第一个3000卡集群时,整个团队没日没夜地加班了一个月。
这种工程化的能力,没有作业可抄。从1000卡到3000卡、从3000卡到5000卡,每上一个台阶,都是对集群稳定性的巨大挑战。如何选择线缆、光模块以降低故障率,怎样从算力层面进行优化,怎样将散落在天南地北若干个机房的约3000petaFLOPS算力运载回上海主基地并搭建成群、实现测试和上线……面对这些难啃问题,在大装置首席科学家林华达的带领下,团队沉浸式攻关,坚信厚积才能薄发,集群稳定性及效率指标被一遍遍刷新。
在加速国产算力布局及实现软硬件协同上,大装置团队同样付出不懈努力。国内大厂此前对英伟达芯片有较大依赖,不仅在于英伟达领先的GPU性能,也在于英伟达的可使GPU性能大幅提升的统一计算架构CUDA。近年来,商汤心心念念于加大国产芯片兼容适配,与上海人工智能实验室一同研发了DeepLink并行计算体系。这一国内并行计算平台的佼佼者,可确保国产芯片适配主流的大模型训练框架和算法库,如PyTorch、DeepSpeed等常见的开源训练框架,以及商汤的OpenMMLab、OpenDILab等开源算法库。目前,CUDA所能支持的AI大模型计算需求,DeepLink的覆盖率已在99.5%以上。
目前,包括华为、寒武纪、壁仞、沐曦等国产芯片在内,商汤大装置已可深度适配20余款国产芯片,已落地多个千卡级别国产算力集群,国产算力商业化进程俨然加速。
随着大模型时代到来,算力即服务,模型即服务。去年,商汤作出重大变轨,其业务板块由过去以AI 1.0为主,切换到AI 2.0。商汤最新财报显示,2023年,商汤生成式AI业务从无到有,收入已达12亿元。这是商汤自2014年成立以来最快破10亿元收入体量的新业务。
据介绍,去年以来,已有上千个参数量数十亿至上千亿的大模型,在SenseCore商汤大装置上完成训练,其中不乏京东、小米、阅文、金山办公等灯塔客户,以及澜舟科技、Tiamat等AI初创公司。一些头部金融机构及医院,正调用商汤模型,或依靠商汤大装置能力,训练其自身垂类模型。包括蛋白质折叠等多领域的重大基础科学研究,也获得了商汤的算力助力。