从哈佛辍学、筹集 1.2 亿美元，00 后小哥挑战英伟达：研发史上最快 AI 芯片，比 H100 快 20 倍！

猿大侠 · 公众号 · · 2024-06-29 12:08

正文

整理 | 郑丽媛

出品 | CSDN（ID：CSDNnews）

自 2022 年底以来，在由 ChatGPT 掀起的这场席卷全球的 AI 浪潮中，作为 AI 底层算力“霸主”的英伟达（Nvidia），可谓是最大受益者之一：不久前，英伟达一举超越微软和苹果，以 3.34 万亿美元的市值成为全球最有价值的公司。

归根结底，是因为英伟达在 AI 芯片市场占据着近乎垄断的地位：强大性能的 GPU 产品如 A100 和 H100 芯片，是大模型训练上的“硬通货”；CUDA 软件生态也几乎是英伟达的“护城河”。

因此谁也没想到，敢对着市值超 3 万亿美元、拥有 2.8 万名员工、处于垄断地位的英伟达高调“下战书”的，会是一支由 3 名大学辍学生创立、目前仅 35 名员工、刚筹集了 1.2 亿美元的团队：Etched。

（图片来自Etched官网）

ChatGPT 问世前的一场“豪赌”

从网上资料来看，Etched 是由三位哈佛大学辍学生 Gavin Uberti、Robert Wachen 和 Chris Zhu 在 2022 年创立的。

最初，Gavin Uberti 和 Chris Zhu 在大学暑期实习时进入了一家芯片公司，接触到底层硬件领域并为之吸引后，便决定从哈佛大学退学，又拉上了 Uberti 的大学室友 Robert Wachen，共同创立了 Etched 公司——据悉，当时 Gavin Uberti 正在攻读数学学士学位和计算机科学硕士学位。

（从左到右：Robert Wachen、Gavin Uberti 和 Chris Zhu）

Etched 初步成立后，三位 00 后创始人在 2022 年 6 月、ChatGPT 还未问世前就对 AI 进行了一场“豪赌”：“我们打赌，Transformer 将席卷全球。”

基于这个设想，他们推测专用 ASIC 芯片（专为特定架构设计的 AI 芯片）是一种必然趋势。

事实上，当时的 AI 模型种类繁多，有用于自动驾驶汽车的 CNN、用于语言的 RNN，还有用于生成图像和视频的 U-Nets 等等。而 Uberti 他们注意到，Transformer（ChatGPT 中的“T”）是第一个可以扩展的模型。

现阶段看来，他们似乎（暂时性）赌赢了：如今每一个最先进的 AI 模型都基于 Transformer，包括 ChatGPT、Sora、Gemini、Stable Diffusion 3 等等。

GPU 遭遇瓶颈，唯一方法是 ASIC

如开头所说，在这场 AI 大模型的全球竞赛中，大多数企业都离不开 GPU，这也是英伟达能成功垄断市场的原因之一。

然而，Etched 在博文中指出：这四年来，GPU 本身并没有多少提升，即芯片单位面积的计算能力（TFLOPS）变动不大，只是芯片面积变得更大了。

不论是英伟达的 B200、AMD 的 MI300，还是英特尔的 Gaudi 3 和亚马逊的 Trainium2，都是把两张芯片算作一张，以此实现所谓的“双倍”性能。

基于这个发现，Etched 确定了其发展路线：随着摩尔定律的放缓，提高芯片性能的唯一方法就是专业化——但在 ChatGPT 出现之前，Etched 认定的这个方向几乎没有市场。

当时，Transformer 还没风靡全球，许多公司都构建了灵活的 AI 芯片和 GPU 来处理数百种不同的架构，例如英伟达的 GPUs、Amazon 的 Trainium、AMD 的加速器、Graphcore 的 IPUs、D-Matrix 的 Corsair 和英特尔的 Gaudi 等。

如此背景下，自然没人想要制造专为特定架构设计的 AI 芯片（ASIC）：Transformer 的市场不大，而芯片项目的成本为 5000 万至 1 亿美元，还需要数年时间才能投入生产。

但突然之间，ChatGPT 的全球爆火令情况发生了巨大变化：

（1）前所未有的需求：在 ChatGPT 之前，Transformer 推理的市场约为 5000 万美元，现在则已达数十亿美元。所有大型科技公司都在使用 Transformer 模型（OpenAI、谷歌、亚马逊、微软、Meta 等）。

（2）架构逐渐趋同：AI 模型过去变化很大，但自 GPT-2 以来，最先进的模型架构几乎保持一致。OpenAI 的 GPT 系列、谷歌的 PaLM、Meta 的 LLaMa、甚至特斯拉的 FSD 都是基于 Transformer。

Etched 联合创始人兼 CEO Gavin Uberti 表示：“当 ChatGPT 问世时，英伟达股票大涨，尤其是所有即将推出的 AI 模型都将成为 Transformer 时，我们才发现自己在正确的时间出现在了正确的地点。”

诚然如他所说，当模型的训练成本超过 10 亿美元，推理成本超过 100 亿美元时，专用芯片就是不可避免的了：在这种规模下，只要有 1% 的性能改进，都能证明成本为 5000 万至 1 亿美元的芯片项目是值得的。

全球第一款专为 Transformer 设计的专用芯片 Sohu

朝着这个方向，Etched 花了两年时间，打造出了全球第一款专为 Transformer 设计的专用芯片，名为 Sohu，并于本周二正式官宣：认识一下 Sohu，这是史上最快的 AI 芯片。

据 Gavin Uberti 介绍，Sohu 采用台积电的 4nm 工艺制造，只有 1 个核心，每张芯片配有 144GB HBM3E 高带宽内存，可提供比 GPU 和其他通用 AI 芯片更好的推理性能，且耗能更少、成本更低。

为了更直观地衡量 Sohu 的强悍性能，Gavin Uberti 把英伟达作为参照：

在运行文本、图像和视频转换器时，Sohu 的速度比英伟达下一代 Blackwell GB200 GPU 还要快一个数量级，且成本更低；700 亿参数 Llama 3 吞吐量能达到每秒 50 万 tokens；一台 8xSohu 服务器可取代 160 个 H100 GPU……对于需要专用芯片的企业领导者来说，Sohu 将是一个更经济、更高效、更环保的选择。

而之所以 Sohu 能实现如此性能，正是因为它的“专用性”：无法运行大多数传统的 AI 模型，如为 Instagram 广告提供动力的 DLRMs、AlphaFold 2 等蛋白质折叠模型、Stable Diffusion 2 等较老的图像模型，也无法运行 CNN、RNN 或 LSTM——专为 Transformer 设计，只能运行 Transformer。

从哈佛辍学、筹集 1.2 亿美元，00 后小哥挑战英伟达：研发史上最快 AI 芯片，比 H100 快 20 倍！

正文

请到「今天看啥」查看全文