我搞大模型训练这一年多来,最大的感触是:「美国制裁了一个寂寞」。其实GPU的紧俏也就是从2023年10月17日到2023年12月,等到了年底,一大批炒家囤了GPU卡,急于回笼资金,开始出售。等到今年年初,大量的H100系列GPU就通过深圳的华强北进入大陆的各个机房,财大气粗的云服务商也采购了大量的GPU服务器,而且公然在线下论坛里直言自己提供的就是H100。
在这种内卷情况下,8卡H100服务器的月租单价就已经从最高点的12万/月降低到了7.5万/月,降了将近40%。所以国内的大模型企业也都卡多气粗,开始搞起了万卡集群。《万卡集群,进入AI核心圈的入场券 | 雷峰网[1]」》
随着H100、H800、A100、A800等80GB以上显存的GPU充满了云服务商的机房,低端显卡成了鸡肋,耗电量高,成本不低,偏偏需求还在萎缩。原来搞3D电影用的渲染农场,随着GPU一代一代推陈出新,市场需求也变窄了。
如何让A10、T4这样的鸡肋低端显卡创造价值,不仅仅是我们这些IT垃圾佬在思考,云服务商也在思考。
有一批云服务商开始用低端显卡做7B规模大模型的推理,并且免费提供给海量C端用户使用,阿里、字节、百度都在这么做;一方面是可以维持大模型应用的日活,另一方面也可以积累真实的用户反馈,不断完善自家的大模型。
但是事实上,7B以及以下的大模型,应该叫做端侧大模型,做一点简单的意图识别、客服对话任务还可以,这种规模的LLM是完全不够智能的。
这条变废为宝的路是走不通的。如何能把食之无味,弃之可惜的鸡肋变成对用户有价值的东西呢?
我们垃圾佬找到了两条路。一个叫卡多力量大,一个叫内存帮帮忙。这两条路,全都能让低端显卡重新焕发活力,让他们除了做深度学习、科学计算之外,还能完成72B参数量级的大模型推理,这个参数规模的大模型已经足够聪明了。
卡多力量大
其实这个思路就是我们说的多卡并行计算。假如我手上有4块3090的显卡,但是我想使用阿里Qwen2 72B的模型,光靠一张3090卡的话,是没法做72B模型推理的,但是我们可以让四张卡一起推理啊。
我是在魔搭社区看见了一个文章,《社区供稿 | 2张卡部署72B大模型 - 百亿大模型部署系列》,他是用两张3090(共48G显存),加上64G内存,勉勉强强跑了一个Int4量化的Qwen-72B。
在双卡的试验中,主要需要解决device_map 导致的内存分配不均问题,GPU0 用了22G,GPU1 用了16G,还有8G没用上,结果大模型没加载出来。
后来经过千问官方人员的协助,重新切分了device_map,自己控制每一层分配到哪个GPU,然后一个72B大模型成功的在2块3090上跑了起来。
4块3090跑起72B 千问2来就更加方便了,只是需要改一下device_map,各张卡的负载都不算高,但是推理速度非常慢,只有1token/秒,显然不可接受对不对?
只要安装好auto-gptq这个包,特别是装好包里面的Exllamav2之后,推理的速度就变成了10token/秒,跟A100的推理速度差不多了。
本地多卡(3090)部署通义千问Qwen-72B大模型提速实践:从龟速到够用_千问72b部署-CSDN博客[2]
但是本垃圾佬试了一下这个方案,调来调去整整浪费了三个晚上,安装、卸载各种各样的驱动、安装CUDA、一次次修改配置、Debug等等,实在是苦不堪言。
但是最气人的是,等我一切搞定了,发现阿里云搞出来一个多卡并行计算的解决方案DeepGPU(神行工具包),很好用,还免费。里面还包含了快速部署工具、GPU资源拆分工具、AI训练和推理计算优化工具以及针对热门AI模型的专门加速工具等……
《什么是DeepGPU_GPU云服务器(EGS)-阿里云帮助中心[3]》
这货直接就支持多GPU并行,默认支持llama、ChatGLM、Baichuan、Qwen等头部大模型,可以用10张卡完成llama 65B的推理,实现多卡之间的通信优化,支持int8\int4低精度推理,还支持流式输出和直接对话,等于把我花了两周时间摸索的经验一把干废了……
比如我花3天时间跑通的应用,阿里云的DeepNCCL(AI通信加速库)直接针对大模型多卡推理场景进行优化,效果显著;安装部署简单,无代码侵入;免费使用。
毁灭你,与你无关。差不多就是这个意思。
现在阿里云上的ecs.gn7i-4x.8xlarge实例,目前也有新客专享活动,限购1个实例,购买时长一年以内可以打5折,购买时长在1~2年可以打4折。
当然,对于垃圾佬来说,怎么可能接受这种事呢?现在的3090一张卡只要8000块,自己组一台四卡服务器的成本可以控制在5万以内,同样是96G的显存,还不伤筋动骨的。
所以,我会默默地选择抢占式模式,或者按量付费,在最便宜的时间,跑我的私有化AI应用,只需要13.4元/小时,就可以得到一个四卡A10 云GPU主机了。
当然,如果是企业服务,那从我的血泪教训来说,如果GPU服务器用量不是足够大,没有大到愿意承担自建IDC的额外成本的地步,比如100台以上,用云服务商的才是最优选择。
比如我自己搭了一台10卡4090,在一个月的时间里,出现了4次掉卡故障,还不算刚刚拉来安装的时候,还有掉驱动的故障,其实是不足以用于企业生产环境的。
我还有8台8卡H800服务器,本地化部署的,刚刚上线的两个月,单节点故障频繁发生,而且一到周五晚上就死机,我的训练任务就停掉了,而且因为服务器在生产环境,外网无法访问,所以我的服务器就平白闲置了一个周末,浪费得心痛。
所以对于企业的小规模应用来说,买云主机是很合算的一件事。对于ecs.gn7i-c32g1.8xlarge 规格(A10-24G):新客专享,限新购,限1个实例,购买时长100小时内 1.9折,非常值。
内存帮帮忙
我们现在正在尝试Ktransformer的方案,这个方案是用显卡+内存一起推理的,我用24G显卡+64G内存,就完成了深度求索大模型57B的推理——这内存可比显卡便宜多了。
比如阿里云上的ecs.gn7i-c16g1.4xlarge实例,16核CPU,60G内存,一个24G显存的A10,用按量付费模式,一小时只要10块钱,如果再加上一个GPU首购优惠,可以用2块钱一小时的价格白嫖100个小时!
而这个配置在Ktransformer的框架下,已经可以推理57B-72B规模的大模型了,推理速度在13 tokens/秒,一天24小时理论上可以处理112万tokens。这个处理速度已经足够了。
DeepGPU很有用
DeepGPU是阿里云针对生成式AI场景提供的性能优化工具,主要是希望提高使用云GPU训练和推理的效率。
所以DeepGPU不仅仅可以用于大模型加速推理,还对文生图的效率做了显著提升,优化了性能,最大化地利用底层硬件的性能,而且开箱即用。
在用Stable Diffusion跑图的时候,使用A10的GPU和DeepGPU工具包,相比xformer,综合的速度大约可以提升15-40%。
因为DeepGPU支持LORA无损加速,全模式controlnet加速,并且可以通过缓存降低存储读取延时,实现不同的模型无感切换。
除了跑图之外,在大模型微调上,据说DeepGPU也有优化方案,但是我自己有足够多的卡,所以没有实测。但是根据阿里云的经验,可以通过软硬结合的定制化优化方法,提升微调环节大概10%-80%的性能。《阿里云李鹏:进一步压榨云上GPU资源,将大模型训推效率最大化丨GenAICon 2024[4]》
所以,用DeepGPU尝尝鲜还挺有意思的。如果买阿里云的GPU主机,可以直接选择预装了DeepGPU的镜像,直接在云市场镜像中搜索DeepGPU即可,非常方便
很有趣的一点是,在家当IT垃圾佬的我,跟在公司管IT的我是完全不一样的心态。
在家的时候,我会兴致勃勃的折腾各种IT配件,主打一个物尽其用,垃圾复活;所以在多卡并行和内存推理的协助下,我已经满血复活了。
在公司的时候,我是能不折腾就不折腾,能多放点安全冗余就多放一点,毕竟公司不是靠省一点IT费用赚钱的,企业IT最重要的就是稳定,买大型云厂商的服务,减少自己折腾,是重中之重。就怕万一有什么麻烦,更多的成本和时间都搭进去了。
如果一个小型企业对数据安全有要求,不敢用大模型厂商的API,那真的可以租用几台云GPU主机,在上面跑私有化的大模型,既不用担心业务数据泄露的风险,也不用担心算力服务器运维的麻烦,其实就很值了。
现在阿里云又对我这种垃圾佬提供大酬宾了,对于从未在阿里云上购买过GPU的用户,可以选择按量付费的方式,购买一台单卡T4或者V100、P100的GPU主机,折扣达到了1折!大家看看多少钱?!!
大家通过我的「阅读原文」链接进入,留下个人需求,包括公司名称、主要用途之后,就有工作人员跟您联系,提供更多优惠。毕竟对于垃圾佬来说,这点钱买不了吃亏买不了上当,就当是帮阿里云消化GPU库存啦~
[1]万卡集群,进入AI核心圈的入场券 | 雷峰网: https://www.leiphone.com/category/chips/rYbEPCoWj6wycbiz.html
[2]本地多卡(3090)部署通义千问Qwen-72B大模型提速实践:从龟速到够用_千问72b部署-CSDN博客: https://blog.csdn.net/weixin_44652758/article/details/140245282
[3]什么是DeepGPU_GPU云服务器(EGS)-阿里云帮助中心: https://help.aliyun.com/zh/egs/what-is-deepgpu/
[4]阿里云李鹏:进一步压榨云上GPU资源,将大模型训推效率最大化丨GenAICon 2024: https://m.thepaper.cn/newsDetail_forward_27255608