专栏名称: 任易

任易，著有《菜鸟销售宝典》、《资职通鉴》，头条内容均为本人原创。履历：南开本科，清华硕士；3年IBM销售；2年甲方项目工程师；3年央企项目经理；2年解决方案总监。主要将《论语》、《毛选》、《资治通鉴》和销售、管理、创业相联系，古为今用。

IT垃圾佬又满血复活了

任易 · 公众号 · 自媒体 · 2024-09-10 20:04

正文

我搞大模型训练这一年多来，最大的感触是：「美国制裁了一个寂寞」。其实GPU的紧俏也就是从2023年10月17日到2023年12月，等到了年底，一大批炒家囤了GPU卡，急于回笼资金，开始出售。

等到今年年初，大量的H100系列GPU就通过深圳的华强北进入大陆的各个机房，财大气粗的云服务商也采购了大量的GPU服务器，而且公然在线下论坛里直言自己提供的就是H100。

在这种内卷情况下，8卡H100服务器的月租单价就已经从最高点的12万/月降低到了7.5万/月，降了将近40%。所以国内的大模型企业也都卡多气粗，开始搞起了万卡集群。《万卡集群，进入AI核心圈的入场券 | 雷峰网^[1]」》

随着H100、H800、A100、A800等80GB以上显存的GPU充满了云服务商的机房，低端显卡成了鸡肋，耗电量高，成本不低，偏偏需求还在萎缩。原来搞3D电影用的渲染农场，随着GPU一代一代推陈出新，市场需求也变窄了。

如何让A10、T4这样的鸡肋低端显卡创造价值，不仅仅是我们这些IT垃圾佬在思考，云服务商也在思考。

有一批云服务商开始用低端显卡做7B规模大模型的推理，并且免费提供给海量C端用户使用，阿里、字节、百度都在这么做；一方面是可以维持大模型应用的日活，另一方面也可以积累真实的用户反馈，不断完善自家的大模型。

但是事实上，7B以及以下的大模型，应该叫做端侧大模型，做一点简单的意图识别、客服对话任务还可以，这种规模的LLM是完全不够智能的。

这条变废为宝的路是走不通的。如何能把食之无味，弃之可惜的鸡肋变成对用户有价值的东西呢？

我们垃圾佬找到了两条路。一个叫卡多力量大，一个叫内存帮帮忙。这两条路，全都能让低端显卡重新焕发活力，让他们除了做深度学习、科学计算之外，还能完成72B参数量级的大模型推理，这个参数规模的大模型已经足够聪明了。

卡多力量大

其实这个思路就是我们说的多卡并行计算。假如我手上有4块3090的显卡，但是我想使用阿里Qwen2 72B的模型，光靠一张3090卡的话，是没法做72B模型推理的，但是我们可以让四张卡一起推理啊。

我是在魔搭社区看见了一个文章，《社区供稿 | 2张卡部署72B大模型 - 百亿大模型部署系列》，他是用两张3090（共48G显存），加上64G内存，勉勉强强跑了一个Int4量化的Qwen-72B。

在双卡的试验中，主要需要解决device_map 导致的内存分配不均问题，GPU0 用了22G，GPU1 用了16G，还有8G没用上，结果大模型没加载出来。

后来经过千问官方人员的协助，重新切分了device_map，自己控制每一层分配到哪个GPU，然后一个72B大模型成功的在2块3090上跑了起来。

4块3090跑起72B 千问2来就更加方便了，只是需要改一下device_map，各张卡的负载都不算高，但是推理速度非常慢，只有1token/秒，显然不可接受对不对？

只要安装好auto-gptq这个包，特别是装好包里面的Exllamav2之后，推理的速度就变成了10token/秒，跟A100的推理速度差不多了。

本地多卡(3090)部署通义千问Qwen-72B大模型提速实践：从龟速到够用_千问72b部署-CSDN博客^[2]

但是本垃圾佬试了一下这个方案，调来调去整整浪费了三个晚上，安装、卸载各种各样的驱动、安装CUDA、一次次修改配置、Debug等等，实在是苦不堪言。

但是最气人的是，等我一切搞定了，发现阿里云搞出来一个多卡并行计算的解决方案DeepGPU（神行工具包），很好用，还免费。里面还包含了快速部署工具、GPU资源拆分工具、AI训练和推理计算优化工具以及针对热门AI模型的专门加速工具等……

《什么是DeepGPU_GPU云服务器(EGS)-阿里云帮助中心^[3]》

这货直接就支持多GPU并行，默认支持llama、ChatGLM、Baichuan、Qwen等头部大模型，可以用10张卡完成llama 65B的推理，实现多卡之间的通信优化，支持int8\int4低精度推理，还支持流式输出和直接对话，等于把我花了两周时间摸索的经验一把干废了……

比如我花3天时间跑通的应用，阿里云的DeepNCCL（AI通信加速库）直接针对大模型多卡推理场景进行优化，效果显著；安装部署简单，无代码侵入；免费使用。

毁灭你，与你无关。差不多就是这个意思。

现在阿里云上的ecs.gn7i-4x.8xlarge实例，目前也有新客专享活动，限购1个实例，购买时长一年以内可以打5折，购买时长在1~2年可以打4折。

当然，对于垃圾佬来说，怎么可能接受这种事呢？现在的3090一张卡只要8000块，自己组一台四卡服务器的成本可以控制在5万以内，同样是96G的显存，还不伤筋动骨的。

所以，我会默默地选择抢占式模式，或者按量付费，在最便宜的时间，跑我的私有化AI应用，只需要13.4元/小时，就可以得到一个四卡A10 云GPU主机了。

当然，如果是企业服务，那从我的血泪教训来说，如果GPU服务器用量不是足够大，没有大到愿意承担自建IDC的额外成本的地步，比如100台以上，用云服务商的才是最优选择。

比如我自己搭了一台10卡4090，在一个月的时间里，出现了4次掉卡故障，还不算刚刚拉来安装的时候，还有掉驱动的故障，其实是不足以用于企业生产环境的。

我还有8台8卡H800服务器，本地化部署的，刚刚上线的两个月，单节点故障频繁发生，而且一到周五晚上就死机，我的训练任务就停掉了，而且因为服务器在生产环境，外网无法访问，所以我的服务器就平白闲置了一个周末，浪费得心痛。

所以对于企业的小规模应用来说，买云主机是很合算的一件事。对于ecs.gn7i-c32g1.8xlarge 规格（A10-24G）：新客专享，限新购，限1个实例，购买时长100小时内 1.9折，非常值。

内存帮帮忙

我们现在正在尝试Ktransformer的方案，这个方案是用显卡+内存一起推理的，我用24G显卡+64G内存，就完成了深度求索大模型57B的推理——这内存可比显卡便宜多了。

比如阿里云上的ecs.gn7i-c16g1.4xlarge实例，16核CPU，60G内存，一个24G显存的A10，用按量付费模式，一小时只要10块钱，如果再加上一个GPU首购优惠，可以用2块钱一小时的价格白嫖100个小时！

而这个配置在Ktransformer的框架下，已经可以推理57B-72B规模的大模型了，推理速度在13 tokens/秒，一天24小时理论上可以处理112万tokens。这个处理速度已经足够了。

DeepGPU很有用

DeepGPU是阿里云针对生成式AI场景提供的性能优化工具，主要是希望提高使用云GPU训练和推理的效率。

所以DeepGPU不仅仅可以用于大模型加速推理，还对文生图的效率做了显著提升，优化了性能，最大化地利用底层硬件的性能，而且开箱即用。

在用Stable Diffusion跑图的时候，使用A10的GPU和DeepGPU工具包，相比xformer，综合的速度大约可以提升15-40%。

因为DeepGPU支持LORA无损加速，全模式controlnet加速，并且可以通过缓存降低存储读取延时，实现不同的模型无感切换。

除了跑图之外，在大模型微调上，据说DeepGPU也有优化方案，但是我自己有足够多的卡，所以没有实测。但是根据阿里云的经验，可以通过软硬结合的定制化优化方法，提升微调环节大概10%-80%的性能。《阿里云李鹏：进一步压榨云上GPU资源，将大模型训推效率最大化丨GenAICon 2024^[4]》

所以，用DeepGPU尝尝鲜还挺有意思的。如果买阿里云的GPU主机，可以直接选择预装了DeepGPU的镜像，直接在云市场镜像中搜索DeepGPU即可，非常方便

很有趣的一点是，在家当IT垃圾佬的我，跟在公司管IT的我是完全不一样的心态。

在家的时候，我会兴致勃勃的折腾各种IT配件，主打一个物尽其用，垃圾复活；所以在多卡并行和内存推理的协助下，我已经满血复活了。

在公司的时候，我是能不折腾就不折腾，能多放点安全冗余就多放一点，毕竟公司不是靠省一点IT费用赚钱的，企业IT最重要的就是稳定，买大型云厂商的服务，减少自己折腾，是重中之重。就怕万一有什么麻烦，更多的成本和时间都搭进去了。

如果一个小型企业对数据安全有要求，不敢用大模型厂商的API，那真的可以租用几台云GPU主机，在上面跑私有化的大模型，既不用担心业务数据泄露的风险，也不用担心算力服务器运维的麻烦，其实就很值了。

现在阿里云又对我这种垃圾佬提供大酬宾了，对于从未在阿里云上购买过GPU的用户，可以选择按量付费的方式，购买一台单卡T4或者V100、P100的GPU主机，折扣达到了1折！大家看看多少钱？！！

大家通过我的「阅读原文」链接进入，留下个人需求，包括公司名称、主要用途之后，就有工作人员跟您联系，提供更多优惠。毕竟对于垃圾佬来说，这点钱买不了吃亏买不了上当，就当是帮阿里云消化GPU库存啦~

参考资料

[1]

万卡集群，进入AI核心圈的入场券 | 雷峰网: https://www.leiphone.com/category/chips/rYbEPCoWj6wycbiz.html

[2]

本地多卡(3090)部署通义千问Qwen-72B大模型提速实践：从龟速到够用_千问72b部署-CSDN博客: https://blog.csdn.net/weixin_44652758/article/details/140245282

[3]

什么是DeepGPU_GPU云服务器(EGS)-阿里云帮助中心: https://help.aliyun.com/zh/egs/what-is-deepgpu/

[4]

阿里云李鹏：进一步压榨云上GPU资源，将大模型训推效率最大化丨GenAICon 2024: https://m.thepaper.cn/newsDetail_forward_27255608