专栏名称: 思维纪要社
买方、卖方的各行业、企业的跟踪纪要及音频,对突发事件(宏观政策、市场、行业、企业)的解读
目录
相关文章推荐
江苏发改  ·  新年开新局,拼好新经济 | ... ·  2 天前  
国际旅游岛商报  ·  刚刚通知!海口这些区域或停水→ ·  2 天前  
度房苏州  ·  马上,苏州家装补贴即将重启! ·  5 天前  
51好读  ›  专栏  ›  思维纪要社

跟踪 | 大模型从业者对B200的分析

思维纪要社  · 公众号  ·  · 2024-03-23 23:54

正文

最近公众号改变了规则,推送不按时间顺序,如果不想错过《 思维纪要号 》的文章,请设“星标”并且经常点击“在看”,感谢大家支持!

本公众号是《思维纪要社》的备用账号,通道↓↓↓

两边内容不一,请勿错过精彩内容
所有内容都来自于网络,如有侵权,请联系后台删除,感谢理解

未来怎么看 ?

推理这一块要降低成本,只要是显存放得下,就尽可能少用卡 (显存带宽 8TB vs. NVlink 1.8TB 还是显著高)

如果大家都用 fp8 比,GB200 相比 H200 提速估计在 10 倍左右。从 4bit 往3bit 推理量化,算法上还有比较大精度问题,2bit 再往下可能就比较困难了未来推理这块,在 transformer 的设定下,主要看 HBM 了,要更大更快。推理速度决定推理成本,这又进一步决定了有多少应用可以商业化。







请到「今天看啥」查看全文