专栏名称: 任易
任易,著有《菜鸟销售宝典》、《资职通鉴》,头条内容均为本人原创。履历:南开本科,清华硕士;3年IBM销售;2年甲方项目工程师;3年央企项目经理;2年解决方案总监。主要将《论语》、《毛选》、《资治通鉴》和销售、管理、创业相联系,古为今用。
51好读  ›  专栏  ›  任易

IT垃圾佬又满血复活了

任易  · 公众号  · 自媒体  · 2024-09-10 20:04

正文

我搞大模型训练这一年多来,最大的感触是:「美国制裁了一个寂寞」。其实GPU的紧俏也就是从2023年10月17日到2023年12月,等到了年底,一大批炒家囤了GPU卡,急于回笼资金,开始出售。

等到今年年初,大量的H100系列GPU就通过深圳的华强北进入大陆的各个机房,财大气粗的云服务商也采购了大量的GPU服务器,而且公然在线下论坛里直言自己提供的就是H100。

在这种内卷情况下,8卡H100服务器的月租单价就已经从最高点的12万/月降低到了7.5万/月,降了将近40%。所以国内的大模型企业也都卡多气粗,开始搞起了万卡集群。《万卡集群,进入AI核心圈的入场券 | 雷峰网[1]」》

随着H100、H800、A100、A800等80GB以上显存的GPU充满了云服务商的机房,低端显卡成了鸡肋,耗电量高,成本不低,偏偏需求还在萎缩。原来搞3D电影用的渲染农场,随着GPU一代一代推陈出新,市场需求也变窄了。

如何让A10、T4这样的鸡肋低端显卡创造价值,不仅仅是我们这些IT垃圾佬在思考,云服务商也在思考。

有一批云服务商开始用低端显卡做7B规模大模型的推理,并且免费提供给海量C端用户使用,阿里、字节、百度都在这么做;一方面是可以维持大模型应用的日活,另一方面也可以积累真实的用户反馈,不断完善自家的大模型。

但是事实上,7B以及以下的大模型,应该叫做端侧大模型,做一点简单的意图识别、客服对话任务还可以,这种规模的LLM是完全不够智能的。

这条变废为宝的路是走不通的。如何能把食之无味,弃之可惜的鸡肋变成对用户有价值的东西呢?

image-20240906202813464

我们垃圾佬找到了两条路。一个叫卡多力量大,一个叫内存帮帮忙。这两条路,全都能让低端显卡重新焕发活力,让他们除了做深度学习、科学计算之外,还能完成72B参数量级的大模型推理,这个参数规模的大模型已经足够聪明了。

卡多力量大

其实这个思路就是我们说的多卡并行计算。假如我手上有4块3090的显卡,但是我想使用阿里Qwen2 72B的模型,光靠一张3090卡的话,是没法做72B模型推理的,但是我们可以让四张卡一起推理啊。

我是在魔搭社区看见了一个文章,《社区供稿 | 2张卡部署72B大模型 - 百亿大模型部署系列》,他是用两张3090(共48G显存),加上64G内存,勉勉强强跑了一个Int4量化的Qwen-72B。

image-20240906204045778

在双卡的试验中,主要需要解决device_map 导致的内存分配不均问题,GPU0 用了22G,GPU1 用了16G,还有8G没用上,结果大模型没加载出来。

后来经过千问官方人员的协助,重新切分了device_map,自己控制每一层分配到哪个GPU,然后一个72B大模型成功的在2块3090上跑了起来。

image-20240906204431698

4块3090跑起72B 千问2来就更加方便了,只是需要改一下device_map,各张卡的负载都不算高,但是推理速度非常慢,只有1token/秒,显然不可接受对不对?

img

只要安装好auto-gptq这个包,特别是装好包里面的Exllamav2之后,推理的速度就变成了10token/秒,跟A100的推理速度差不多了。

本地多卡(3090)部署通义千问Qwen-72B大模型提速实践:从龟速到够用_千问72b部署-CSDN博客[2]

但是本垃圾佬试了一下这个方案,调来调去整整浪费了三个晚上,安装、卸载各种各样的驱动、安装CUDA、一次次修改配置、Debug等等,实在是苦不堪言。

但是最气人的是,等我一切搞定了,发现阿里云搞出来一个多卡并行计算的解决方案DeepGPU(神行工具包),很好用,还免费。里面还包含了快速部署工具、GPU资源拆分工具、AI训练和推理计算优化工具以及针对热门AI模型的专门加速工具等……

什么是DeepGPU_GPU云服务器(EGS)-阿里云帮助中心[3]

这货直接就支持多GPU并行,默认支持llama、ChatGLM、Baichuan、Qwen等头部大模型,可以用10张卡完成llama 65B的推理,实现多卡之间的通信优化,支持int8\int4低精度推理,还支持流式输出和直接对话,等于把我花了两周时间摸索的经验一把干废了……

比如我花3天时间跑通的应用,阿里云的DeepNCCL(AI通信加速库)直接针对大模型多卡推理场景进行优化,效果显著;安装部署简单,无代码侵入;免费使用

毁灭你,与你无关。差不多就是这个意思。

现在阿里云上的ecs.gn7i-4x.8xlarge实例,目前也有新客专享活动,限购1个实例,购买时长一年以内可以打5折,购买时长在1~2年可以打4折。

image-20240906210804732

当然,对于垃圾佬来说,怎么可能接受这种事呢?现在的3090一张卡只要8000块,自己组一台四卡服务器的成本可以控制在5万以内,同样是96G的显存,还不伤筋动骨的。

所以,我会默默地选择抢占式模式,或者按量付费,在最便宜的时间,跑我的私有化AI应用,只需要13.4元/小时,就可以得到一个四卡A10 云GPU主机了。

image-20240906211006010

当然,如果是企业服务,那从我的血泪教训来说,如果GPU服务器用量不是足够大,没有大到愿意承担自建IDC的额外成本的地步,比如100台以上,用云服务商的才是最优选择。

比如我自己搭了一台10卡4090,在一个月的时间里,出现了4次掉卡故障,还不算刚刚拉来安装的时候,还有掉驱动的故障,其实是不足以用于企业生产环境的。

我还有8台8卡H800服务器,本地化部署的,刚刚上线的两个月,单节点故障频繁发生,而且一到周五晚上就死机,我的训练任务就停掉了,而且因为服务器在生产环境,外网无法访问,所以我的服务器就平白闲置了一个周末,浪费得心痛。

所以对于企业的小规模应用来说,买云主机是很合算的一件事。对于ecs.gn7i-c32g1.8xlarge 规格(A10-24G):新客专享,限新购,限1个实例,购买时长100小时内 1.9折,非常值。

image-20240906211949971

内存帮帮忙

我们现在正在尝试Ktransformer的方案,这个方案是用显卡+内存一起推理的,我用24G显卡+64G内存,就完成了深度求索大模型57B的推理——这内存可比显卡便宜多了。

比如阿里云上的ecs.gn7i-c16g1.4xlarge实例,16核CPU,60G内存,一个24G显存的A10,用按量付费模式,一小时只要10块钱,如果再加上一个GPU首购优惠,可以用2块钱一小时的价格白嫖100个小时!

image-20240906212658408

而这个配置在Ktransformer的框架下,已经可以推理57B-72B规模的大模型了,推理速度在13 tokens/秒,一天24小时理论上可以处理112万tokens。这个处理速度已经足够了。

DeepGPU很有用

DeepGPU是阿里云针对生成式AI场景提供的性能优化工具,主要是希望提高使用云GPU训练和推理的效率。

所以DeepGPU不仅仅可以用于大模型加速推理,还对文生图的效率做了显著提升,优化了性能,最大化地利用底层硬件的性能,而且开箱即用。

img

在用Stable Diffusion跑图的时候,使用A10的GPU和DeepGPU工具包,相比xformer,综合的速度大约可以提升15-40%。

image-20240909210643858

因为DeepGPU支持LORA无损加速,全模式controlnet加速,并且可以通过缓存降低存储读取延时,实现不同的模型无感切换。

除了跑图之外,在大模型微调上,据说DeepGPU也有优化方案,但是我自己有足够多的卡,所以没有实测。但是根据阿里云的经验,可以通过软硬结合的定制化优化方法,提升微调环节大概10%-80%的性能。《阿里云李鹏:进一步压榨云上GPU资源,将大模型训推效率最大化丨GenAICon 2024[4]

所以,用DeepGPU尝尝鲜还挺有意思的。如果买阿里云的GPU主机,可以直接选择预装了DeepGPU的镜像,直接在云市场镜像中搜索DeepGPU即可,非常方便

image-20240909211652558

很有趣的一点是,在家当IT垃圾佬的我,跟在公司管IT的我是完全不一样的心态。

在家的时候,我会兴致勃勃的折腾各种IT配件,主打一个物尽其用,垃圾复活;所以在多卡并行和内存推理的协助下,我已经满血复活了。

在公司的时候,我是能不折腾就不折腾,能多放点安全冗余就多放一点,毕竟公司不是靠省一点IT费用赚钱的,企业IT最重要的就是稳定,买大型云厂商的服务,减少自己折腾,是重中之重。就怕万一有什么麻烦,更多的成本和时间都搭进去了。

如果一个小型企业对数据安全有要求,不敢用大模型厂商的API,那真的可以租用几台云GPU主机,在上面跑私有化的大模型,既不用担心业务数据泄露的风险,也不用担心算力服务器运维的麻烦,其实就很值了。

现在阿里云又对我这种垃圾佬提供大酬宾了,对于从未在阿里云上购买过GPU的用户,可以选择按量付费的方式,购买一台单卡T4或者V100、P100的GPU主机,折扣达到了1折!大家看看多少钱?!!

image-20240909212533956

大家通过我的「阅读原文」链接进入,留下个人需求,包括公司名称、主要用途之后,就有工作人员跟您联系,提供更多优惠。毕竟对于垃圾佬来说,这点钱买不了吃亏买不了上当,就当是帮阿里云消化GPU库存啦~

参考资料
[1]

万卡集群,进入AI核心圈的入场券 | 雷峰网: https://www.leiphone.com/category/chips/rYbEPCoWj6wycbiz.html

[2]

本地多卡(3090)部署通义千问Qwen-72B大模型提速实践:从龟速到够用_千问72b部署-CSDN博客: https://blog.csdn.net/weixin_44652758/article/details/140245282

[3]

什么是DeepGPU_GPU云服务器(EGS)-阿里云帮助中心: https://help.aliyun.com/zh/egs/what-is-deepgpu/

[4]

阿里云李鹏:进一步压榨云上GPU资源,将大模型训推效率最大化丨GenAICon 2024: https://m.thepaper.cn/newsDetail_forward_27255608