专栏名称: AI前线
InfoQ十年沉淀,为千万技术人打造的专属AI公众号。追踪技术新趋势,跟踪头部科技企业发展和传统产业技术升级落地案例。囊括网站和近万人的机器学习知识交流社群。
目录
相关文章推荐
爱可可-爱生活  ·  【[212星]neosr:开源的超分辨率模型 ... ·  11 小时前  
爱可可-爱生活  ·  【[96星]HOVER:为机器人运动控制提供 ... ·  16 小时前  
爱可可-爱生活  ·  [LG]《Minions: ... ·  昨天  
爱可可-爱生活  ·  【[3.5k星]Bananas ... ·  2 天前  
平安芜湖  ·  警惕AI换脸拐骗! ·  2 天前  
平安芜湖  ·  警惕AI换脸拐骗! ·  2 天前  
51好读  ›  专栏  ›  AI前线

民间大神魔改4090 48G秒杀5090!老黄显卡炒作被打脸,“最失败50系显卡”也支棱不起来了?

AI前线  · 公众号  · AI  · 2025-02-26 18:32

正文

整理 | 褚杏娟

近期,淘宝和闲鱼上很多厂家在出售至少 2.2 万的 4090 48G 显卡,这是一款“全新”、非官方规格的显卡。淘宝厂家甚至给出了基础款和升级款两种选择,其中基础款用的是拆机进口颗粒(19000 频率)和非定制全新 PCB 板,耐久度略低,升级版则用的是全新进口颗粒(21000 频率)和全新定制 PCB 板,耐久度高。不过厂家保证这两款都在前期性能稳定,并质保三年。

B 站上也早就有 UP 主对魔改版 4090 48G 显卡进行了初步测评,称这款显卡重量较大,显卡满载功率可达 450 瓦,原本运行 20 多分钟的工作流在该款显卡上仅需一分半。“在赛博绘图视频制作领域堪称顶级选择。满血的顶级算力搭配专业卡级别的显存,是非常不错的组合。如果后续改装水冷,将更具优势。”根据其他网友使用,4090 48G 显卡还可以支持 FP8,在游戏方面则与常规卡没有差别。

这款显卡也已经出走海外。来自加拿大的小哥在平台上晒出了自己在 eBay 上买的 RTX 4090 48G,让网友给出测试建议。eBay 官网显示,4090 48G 的售价要 3 万人民币起步。

image

现在,市面上还传出了 4090 96GB 版本已经被搓出来的消息,有人贴出了闲鱼上的预购消息和配置图,据说价格在 3700 美元左右(2.6 万人民币)。

image

不过,Slamtec 创始人兼 CTO  Tony Huang 对此在推特上表示,“这应该不可能,4090 的上限就是 384bit/16bit*16Gbit GDDR6 = 48G”。

如何做到的?

要得到 4090 48G 显卡需要几步?网传有三个步骤:一、找一块 3090 的板子,挖掉核心;二、找一块 4090 的板子,挖掉核心,然后把这个核心焊到 3090 的板子上;三、再焊接更多对应显存到板子上,实现 48G。

上面是很诙谐的说法,但在闲鱼上确实能找到很多 4090 无核心、无显存的显卡板,被戏称为“4090 显卡手办”,价格在 100 元上下不等。

实际上,4090 魔改 48G 过程中还有一个关键的步骤,即显卡 bios。bios 是存储在显卡 ROM 芯片中的固件程序,可以初始化显卡硬件参数,协调 GPU/ 显存 / 供电模块协同工作。

知乎答主“宅叔”表示,“其实就是传言流出来那版 vbios,没有那版 vbios,就没有后续的 48G。vbios 有数字签名会和芯片内的安全芯片作相互校验,因此绕不过去,而在 2023 年流出来了一个工具,可以把不同品牌的 vbios(有数字签名版) 互刷,所以拿到 48G 的 vbios 就等于有了 48G 的 4090,无非是如何搬板,甚至有能力可以重新设计一张 PCB 来扩张。换句话说,如果未来有更大显存容量的 bios 流出,原则上也可以做更大显存的卡。”

有网友分析,3090 芯片发售时,显存颗粒最大 1GB,24GB 显存需要 24 颗,PCB 板正反面都有。4090 芯片发售时,显存颗粒达到 2GB,24GB 显存只需要 12 颗,PCB 板只有一面有焊盘。突然某一天,从英伟达总部流出 4090 48GB 改版显卡 bios,正好发现 4090 针脚定义和 3090 一样,可以焊在 3090 PCB 上。这样,4090 芯片 +3090 PCB+24 颗 2GB 显存 + 流出魔改显卡 bios=4090 48GB 显卡。据悉,大概一张卡的工本费要 5500 元左右。

有网友对比 A100 80G 的生成速度实际就比 4090 48G 快 20%,但是价格却贵了 6 倍多。目前已经有公司推出主打性价比的 4090 48G 推理 GPU 方案,帮助进行 DeepSeek 部署。另一方面,这也推动了 4090 显卡价格居高不下。

image

个人用户使用 4090 48G 跑 DeepSeek 的配置截图

4090 48G 不是最近才出现的,目前还没有用户曝出大问题。不过对于魔改卡,部分人还是比较谨慎,“魔改卡的工艺还是赶不上原厂卡。一般焊锡不是无铅高温的,常出现脱焊、爆锡等问题。第二,保修也是个问题,后期还管不管保修都不知道。个人玩家还是算了。”

模型苦“显存”久矣

看起来只是单纯扩大了显卡显存,但对于实际应用来说可能意义很大。

根据 AI 开发人员 Piyush Kashya 的计算,FP16 精度的 7B 参数模型至少需要 16.8GB 的 GPU 内存。类似地,haotian-liu 在 GitHub 上回答开发者提问时表示,通常 7B 参数的模型可以使用内存小于 24GB 的 GPU 运行,而 13B 参数模型大约需要 32 GB 内存。

显存大小限制了人们使用更大参数的模型,因此很多人用小模型或量化版本。但对于多模态模型,如 Flux 等的运行上,显存制约让很多人感到使用不便。

深度学习的训练过程中,GPU 显存溢出也是经常出现的问题。为此,人们通常使用减少训练批次大小、数据并行等方式来减少 GPU 内存的使用。GPU 内存优化也一直是厂商在做的事情。

另一方面,英伟达当前在企业级卡和消费级卡之间设置了明显的技术鸿沟。

比如,在计算能力方面,RTX 4090 属于 Ada Lovelace 架构,16384 个 CUDA 核心,由 128 个 SM 组成。H100 则为 Hopper 架构,16896 个 CUDA 核心和 528 个 4.0Tensor 核心,阉割了对图像渲染至关重要的光追核心(RT Core),多了 FP64 的处理单元。

而在多卡互联方面,4090 不支持 GPU 间直接通信,必须通过 CPU 中转,而 H100 可以借助 Nvlink 等进行卡间高速通信,支持 RDMA、GDS(GPU 存储直接访问)。值得注意是的,RTX 30 系列中只有 RTX 3090 支持 NVLink。

image

鉴于 DeepSeek 的热度,NVIDIA 发布了 DeepSeek R1 的量化版本 DeepSeek R1 FP4。借助对 Blackwell 架构的 TensorRT DeepSeek 优化(包括具备最先进生产精度的 FP4 性能),该模型实现了推理速度提升 25 倍、每 token 成本降低 20 倍的效果。

image

详情可查看:https://huggingface.co/nvidia/DeepSeek-R1-FP4

50 系显卡翻车?

大家对 4090 48G 的热情,也源于对英伟达“挤牙膏”发布的 50 系显卡的失望情绪。有 UP 主测评对比后表示,“4090 48G 秒杀 5090”。

“50 系是十年来最失败的一代显卡,这点是板上钉钉的,因为其存在重大缺陷,并且是前代已有的缺陷,并没有修复;而由于暴力拉规模导致故障风险扩大,大部分 5090 将在三年左右坏掉,故障为烧供电击穿核心。”有网友评价称。

与前代 4090 相比,5090 定价几乎翻了一番,而整个 RTX 50 系列产品的价格也都居高不下,此后还被炒出天价。消费者普遍认为这样的价格难以接受,尤其是考虑到性能的提升并不足以支撑售价翻倍。在质疑声中,黄仁勋直言不讳地表示,RTX 5090 的目标用户群体是那些追求顶级性能体验的发烧友,对他们而言,价格并不是首要考虑的因素。这一发言也引起了更大的不满。

而自发货以来,50 系被曝出的问题可太多了。截至目前,RTX 5090 已知问题包括:12 针电源接口熔化、黑屏、丢失 ROP(光栅单元)、电容烧毁、可靠性差等,还有用户遇到了错版问题。

其中,比较严重的就是 ROP 丢失问题。外媒 TechpowerUP 报道称,他们在 RTX 5090 评测样品上发现了 ROP 缺失问题,这源于 ZOTAC RTX 5090 样品测试中的运行速度要比其他样品慢。事实证明,该卡的 ROPS 仅为 168,而 ROPS 的官方规格数量为 176,后来发现几乎所有 AIB 都有这个问题。

5090 上缺少 ROP 单元导致游戏性能损失 4-5%。根据目前尚无法完全确认该问题是制造缺陷还是 bios 问题,但前者似乎更有可能,还有人猜测是老黄的管理出现了问题。而根据网友“MEGAsizeGPU”的说法,问题不在 bios 上,而在核心的 GB202 芯片上。

image

后来,英伟达公关总监 Ben Berraondo 紧急发声:这属于极个别芯片体质问题,对 AI 运算毫无影响,游戏性能平均损失仅 4%。但外媒表示,所谓缺少 1 个 ROP 为文字游戏,实际缺失量高达 8 个,英伟达将每个 ROP 单元的像素处理能力换算成虚拟单位,营造参数虚高的假象。

英伟达的 RTX 50 系列显卡是该公司最棘手的发布之一,这个论断并不过分。此次发布在多个环节出现重大失误:初期上市阶段,GeForce RTX 5090 在多家零售商的库存量持续是个位数,这种刻意控量供应策略导致实际供给不足,而需求激增主要源于黄牛抢购和高端硬件发烧友的追捧。值得注意的是,库存短缺也并非是英伟达 GPU 芯片产能不足导致的,推测问题可能出在封装测试环节、物流调度系统或渠道分配策略等深层供应链环节上。

外媒表示,50 系列显卡在市场上缺货的原因是英伟达正在进行“饥饿营销”。GPU 库存完全充足,但英伟达控制供应不释放库存,从而制造出短缺的假象。实际上,到四月或五月,GPU 将会大量释放。

参考链接:

https://www.zhihu.com/question/11803840385

https://www.bilibili.com/video/BV1RQfpYkEcg/?spm_id_from=333.337.search-card.all.click&vd_source=c7202342f6677650b47938178c8bfb3a

https://www.reddit.com/r/LocalLLaMA/comments/1iwhfl5/comment/medyq2f/

https://github.com/haotian-liu/LLaVA/issues/191

https://wccftech.com/nvidia-is-suppressing-inventory-levels-for-high-end-rtx-50-series-gpus/

会议推荐

在 AI 大模型重塑软件开发的时代,我们如何把握变革?如何突破技术边界?4 月 10-12 日,QCon 全球软件开发大会· 北京站 邀你共赴 3 天沉浸式学习,跳出「技术茧房」,探索前沿科技的无限可能。

本次大会将汇聚顶尖技术专家、创新实践者,共同探讨多行业 AI 落地应用,分享一手实践经验,深度参与 DeepSeek 主题圆桌,洞见未来趋势。

图片








请到「今天看啥」查看全文