自 2022 年底以来,在由 ChatGPT 掀起的这场席卷全球的 AI 浪潮中,作为 AI 底层算力“霸主”的英伟达(Nvidia),可谓是最大受益者之一:不久前,英伟达一举超越微软和苹果,以 3.34 万亿美元的市值成为全球最有价值的公司。
归根结底,是因为英伟达在 AI 芯片市场占据着近乎垄断的地位:强大性能的 GPU 产品如 A100 和 H100 芯片,是大模型训练上的“硬通货”;CUDA 软件生态也几乎是英伟达的“护城河”。
因此谁也没想到,敢对着市值超 3 万亿美元、拥有 2.8 万名员工、处于垄断地位的英伟达高调“下战书”的,会是一支由 3 名大学辍学生创立、目前仅 35 名员工、刚筹集了 1.2 亿美元的团队:Etched。
(图片来自Etched官网)
ChatGPT 问世前的一场“豪赌”
从网上资料来看,Etched 是由三位哈佛大学辍学生 Gavin Uberti、Robert Wachen 和 Chris Zhu 在 2022 年创立的。
最初,Gavin Uberti 和 Chris Zhu 在大学暑期实习时进入了一家芯片公司,接触到底层硬件领域并为之吸引后,便决定从哈佛大学退学,又拉上了 Uberti 的大学室友 Robert Wachen,共同创立了 Etched 公司——据悉,当时 Gavin Uberti 正在攻读数学学士学位和计算机科学硕士学位。
(从左到右:Robert Wachen、Gavin Uberti 和 Chris Zhu)
Etched 初步成立后,三位 00 后创始人在 2022 年 6 月、ChatGPT 还未问世前就对 AI 进行了一场“豪赌”:“我们打赌,Transformer 将席卷全球。”
基于这个设想,他们推测专用 ASIC 芯片(专为特定架构设计的 AI 芯片)是一种必然趋势。
事实上,当时的 AI 模型种类繁多,有用于自动驾驶汽车的 CNN、用于语言的 RNN,还有用于生成图像和视频的 U-Nets 等等。而 Uberti 他们注意到,Transformer(ChatGPT 中的“T”)是第一个可以扩展的模型。
现阶段看来,他们似乎(暂时性)赌赢了:如今每一个最先进的 AI 模型都基于 Transformer,包括 ChatGPT、Sora、Gemini、Stable Diffusion 3 等等。
GPU 遭遇瓶颈,唯一方法是 ASIC
如开头所说,在这场 AI 大模型的全球竞赛中,大多数企业都离不开 GPU,这也是英伟达能成功垄断市场的原因之一。
然而,Etched 在博文中指出:这四年来,GPU 本身并没有多少提升,即芯片单位面积的计算能力(TFLOPS)变动不大,只是芯片面积变得更大了。
不论是英伟达的 B200、AMD 的 MI300,还是英特尔的 Gaudi 3 和亚马逊的 Trainium2,都是把两张芯片算作一张,以此实现所谓的“双倍”性能。
基于这个发现,Etched 确定了其发展路线:随着摩尔定律的放缓,提高芯片性能的唯一方法就是专业化——但在 ChatGPT 出现之前,Etched 认定的这个方向几乎没有市场。
当时,Transformer 还没风靡全球,许多公司都构建了灵活的 AI 芯片和 GPU 来处理数百种不同的架构,例如英伟达的 GPUs、Amazon 的 Trainium、AMD 的加速器、Graphcore 的 IPUs、D-Matrix 的 Corsair 和英特尔的 Gaudi 等。
如此背景下,自然没人想要制造专为特定架构设计的 AI 芯片(ASIC):Transformer 的市场不大,而芯片项目的成本为 5000 万至 1 亿美元,还需要数年时间才能投入生产。
但突然之间,ChatGPT 的全球爆火令情况发生了巨大变化:
(1)前所未有的需求:在 ChatGPT 之前,Transformer 推理的市场约为 5000 万美元,现在则已达数十亿美元。所有大型科技公司都在使用 Transformer 模型(OpenAI、谷歌、亚马逊、微软、Meta 等)。
(2)架构逐渐趋同:AI 模型过去变化很大,但自 GPT-2 以来,最先进的模型架构几乎保持一致。OpenAI 的 GPT 系列、谷歌的 PaLM、Meta 的 LLaMa、甚至特斯拉的 FSD 都是基于 Transformer。
Etched 联合创始人兼 CEO Gavin Uberti 表示:“当 ChatGPT 问世时,英伟达股票大涨,尤其是所有即将推出的 AI 模型都将成为 Transformer 时,我们才发现自己在正确的时间出现在了正确的地点。”
诚然如他所说,当模型的训练成本超过 10 亿美元,推理成本超过 100 亿美元时,专用芯片就是不可避免的了:在这种规模下,只要有 1% 的性能改进,都能证明成本为 5000 万至 1 亿美元的芯片项目是值得的。
全球第一款专为 Transformer 设计的专用芯片 Sohu
朝着这个方向,Etched 花了两年时间,打造出了全球第一款专为 Transformer 设计的专用芯片,名为 Sohu,并于本周二正式官宣:认识一下 Sohu,这是史上最快的 AI 芯片。
据 Gavin Uberti 介绍,Sohu 采用台积电的 4nm 工艺制造,只有 1 个核心,每张芯片配有 144GB HBM3E 高带宽内存,可提供比 GPU 和其他通用 AI 芯片更好的推理性能,且耗能更少、成本更低。
为了更直观地衡量 Sohu 的强悍性能,Gavin Uberti 把英伟达作为参照:
在运行文本、图像和视频转换器时,Sohu 的速度比英伟达下一代 Blackwell GB200 GPU 还要快一个数量级,且成本更低;700 亿参数 Llama 3 吞吐量能达到每秒 50 万 tokens;一台 8xSohu 服务器可取代 160 个 H100 GPU……对于需要专用芯片的企业领导者来说,Sohu 将是一个更经济、更高效、更环保的选择。
而之所以 Sohu 能实现如此性能,正是因为它的“专用性”:无法运行大多数传统的 AI 模型,如为 Instagram 广告提供动力的 DLRMs、AlphaFold 2 等蛋白质折叠模型、Stable Diffusion 2 等较老的图像模型,也无法运行 CNN、RNN 或 LSTM——专为 Transformer 设计,只能运行 Transformer。