特别羡慕离老家近的那群人。
清明节春暖花开,如果带上家里小朋友回到老家,去感受那些在大城市感受不到的乡野玩趣的同时,还能坟头祭祖并祖孙一起思考“从哪来、到哪去”的触及灵魂回响。那将是一件非常有意义的事情。
我们这一代人,从农村里面考出来到大城市生活,虽然已经在大城市生活了多年,依然饱含着对家乡的留恋和回忆,依然不缺对“根”的寄托。
但我们的下一代缺啊。虽然平时不断地给他们灌输:他们老家在江西,他们是江西人。即使如此,从小就在大城市生活长大的小屁孩们,在跟爷爷奶奶对话的时候,还总是:“你们江西、我们上海”。对老家、对根的认同,他们着实缺乏。
这个清明节,本来我是打算带两娃回家扫清寻根。结果夫人说:“清明就三天假,老大连作业和各种课程都忙不完,要带就带老二回去吧”。老二他本人态度上无所谓,不渴求也不反对,他就是这么一个人,总是把“无所谓”挂在嘴边。但是最后还是我,搞了半天发现回程高铁票根本买不到,从而耽误老二返校上课。毕竟现在一线大城市的教育竞争比小地方激烈多了。最终不得已,一个很好的寻根思源教育机会就从指缝间溜走了。
如果离老家近,应该就不存在这个遗憾了。因而,
特别羡慕离老家近的朋友。
假期没有去正根溯源祭祖,那总归不能白白浪费大好假期时光吧。于是继续我的AI正源研究、继续我上篇《
Infiniband Vs 以太网,英伟达Vs博通,你选择站队哪一方?
》中关于Infiniband Vs 以太网的比较研究。英伟达现在在资本市场已经是神一般地存在,但是我不断地提醒自己,保持冷静、理性、客观才是投研人士唯一正确的态度。
InfiniBand Vs 以太网,到底应该选择谁呢?这一点谁最有话语权?肯定是客户啊,肯定是花钱做AI网络建设的超级云服务厂商们啊,当然是微软、谷歌、meta、亚马逊、腾讯这些厂商们啊。
上周,OpenAI星际之门的新闻透露出来:微软之前建设AI集群选用的是InifiniBand,但微软加大投资的OpenAI下一步建设应该会选择超级以太网联盟UEC(
Ultra Ethernet Consortium
)的超级以太网传输。
Arista,一家高端网络交换机和路由器厂商,在参与的以太网与 InfiniBand 的五个 AI 网络集群竞标中,Arista 赢得了所有四个以太网。1Vs4,以太网看起来占得上风。作为超级以太网代表的Arista,包揽了4个以太网方案。Arista,值得研究。
1)Infiniband Vs 超级以太网的历史、优势与改进
发展了20年的InfiniBand历史脉络大致是这样的:
-
1999年,FIO Developers Forum(
IBM、康柏以及惠普
)和NGIO Forum(
英特尔、微软、SUN
)进行了合并,创立了
InfiniBand贸易协会(InfiniBand Trade Association,IBTA),
InfiniBand的诞生目的,就是为了取代PCI总线
。
-
从英特尔公司和伽利略技术公司离职的员工,在
以色列创立了一家芯片公司Mellanox
,2001年加入InifiniBand联盟
,并推出
首款InfiniBand产品
-
2002年,
InfiniBand阵营突遭巨变
,
英特尔公司“临阵脱逃”,决定转向开发PCI Express
,
微软也退出了InfiniBand的开发。
-
2004年,另一个重要的InfiniBand非盈利组织诞生——
OFA(Open Fabrics Alliance,开放Fabrics联盟)
。
OFA和IBTA是配合关系。IBTA主要负责开发、维护和增强Infiniband协议标准;OFA负责开发和维护Infiniband协议和上层应用API。
-
2005年,InfiniBand又找到了一个新场景——
存储设备的连接
。
-
2010年,Mellanox和Voltaire公司合并,
InfiniBand主要供应商只剩下Mellanox和QLogic
。
-
2013年,Mellanox相继收购了硅光子技术公司Kotura和并行光互连芯片厂商IPtronics,进一步完善了自身产业布局。
2015年,Mellanox在全球InfiniBand市场上的占有率达到80%
。
-
2019年,英伟达(Nvidia)公司豪掷69亿美元,击败对手英特尔和微软(分别出价60亿和55亿美元),成功收购了Mellanox。
对于收购原因,英伟达CEO黄仁勋是这么解释的:
“这是两家全球领先高性能计算公司的结合,我们专注于加速计算(accelerated computing),而Mellanox专注于互联和存储。
”
至此,InfiniBand基本变成了英伟达家的私有协议,InfiniBand的主要优势有
:
-
高吞吐量:InfiniBand提供非常高的数据传输速度,通常在40Gbps到100Gbps或更高,适合对带宽要求极高的应用。
-
低延迟:InfiniBand设计用于低延迟通信,这对于需要快速数据交换的高性能计算(HPC)和实时分析等场景至关重要。
-
可扩展性:InfiniBand支持大规模的网络拓扑结构,可以轻松扩展以支持大量的节点和设备。
-
可靠性:InfiniBand具有强大的错误检测和纠正机制,保证了数据传输的可靠性。
-
数据中心优化:InfiniBand支持数据中心间的直接连接,减少了数据传输的跳数,提高了效率。
但AI网
络
建
设
中
,
Infi
niBand价格太过
高昂,可谓天
下苦InfiniBa
nd久矣。
于是2023
年7月,英特尔和微软通过一个名为“超以太网联盟”(Ultra Ethernet Consortium)的新组织宣布了他们的计划,该联盟寻求通过“全行
业合作”“为高性能网络构建一个完整的基于以太网的通信堆栈架构”。
简单来说,UEC致力于从物理层、链路层、传输层、软件层改进以太网技术,寻求大规模提高效率和性能的最佳方法。
UEC 创始成员包括AMD,Arista,Broadcom,Cisco,Eviden(Atos Business),HPE,Intel,Meta,Microsoft。
超以太网联盟(UEC)于2023年10月开始接受新成员后,众多行业巨头加入该联盟,包括百度、戴尔、华为、IBM、诺基亚、联想、超微和腾讯等。
超以太网联盟成立之初的口号便是“开放”,很显然这个冲着“InfiniBand”来的。超级以太网(Ethernet)的主要优势有:
-
普遍性和兼容性
:以太网是全球最广泛使用的网络技术之一,具有广泛的硬件和软件生态系统支持。
-
成本效益
:由于其广泛的采用,超级以太网的硬件和设备通常比InfiniBand更便宜,维护和升级也更为经济。
-
简单性
:以太网的配置和管理相对简单,大多数IT专业人员都熟悉以太网的技术标准和协议。
-
灵活性
:超级以太网支持多种应用,从传统的数据中心网络到存储区域网络(SAN)和云计算环境。
-
持续创新
:以太网技术不断进步,新一代的以太网标准(如25Gbps、40Gbps、100Gbps等)提供了与InfiniBand竞争的速度和性能。
UEC创始成员率先对以太网进行了三项改进,以减少延时和拥塞,缩短作业完成时间。这三项改进为:
-
第一项:数据包喷洒
。
AI网络拓扑结构需要数据包喷洒,以允许每个GPU同时访问所有目标。UEC动态开发多种形式数据包喷洒,以实现负载均衡。
-
第二
项:
访问灵活排序
。与 InfiniBand 的僵化排序不同,快速可靠的批量传输是AI网络的必须项,以太网链路进行灵活排序,以最佳方式平衡AI 密集型操作。
-
第三
项:
网络
拥塞管理
。在 AI 网络中,存在一个常见的内部传播拥塞问题,即多个不协调的发送方同时向接收方发送流量导致拥塞。UEC联盟改进的以太网,旨在避免这些热点,在虚拟输出队列、VoQ无损结构中均匀地将负载分布在多个包中。
同时,
UEC 传输在设计上结合了
网络安全,增加了加密功能
。
AI 训练和推理通常发生在需要作业隔离的托管网络中。人工智能模型是越来越敏感和有价值的商业资产。认识到这一点,UEC 加密和验证 AI 训练或推理作业中计算端点之间发送的所有网络流量。
此外,UEC 还在开发技术以支
持未来高性能计算 (HPC) 的网络需求
。认识到对
带宽和延迟的不同敏感性
,UEC 规范将提供两个配置文件:一个
针对 AI 优化
,另一个
针对 HPC 优化
。
看得出,超以太网联盟在成员广泛度方面胜过InfiniBand,包括芯片厂商、网络设备厂商、云服务厂商整条产业链上的最顶级的玩家让
产业链生态不单开放,且更为成熟
。同时
超以太网联盟还进一步针对AI集群做了针对性优化,比如
灵活度、网络拥塞、加密、延迟优化
等。
InfiniBand的优势在于因为“私有关系”能与英伟达的GPU更高速的传输,但是考虑到AI集群未来数以万计、十万级、甚至百万计的节点,网络能力更强的超以太联盟将更有优势
。
得出超以太网更具优势之后,我们来看看联盟关键成员之一:Arista
2)超级以太网联盟的高端网络设备商:Arista
Arista 于2004年10月在特拉华州注册成立。该公司在数据驱动,并于 2008 年上市、客户端到云端的大型数据中心、园区和路由环境联网方面处于行业领先地位。Arista 团队是
网络技术方面全球公认的受尊敬的领军者
和有远见的团队。过去十年公司股价从13美元涨至当前的289美元,
十年20倍的长线牛股
。
2023年2月13日,Arista发布公司2023年度年报,并举办了业绩说明会,我们看看公司管理层透露了哪些关键信息:
-
1. 2023年度指引是营业收入同比增长25%,但最终营收结果却远远超过25%达到了33.8%。
2023年实现营业收入达到58.6亿美元,
实现创纪录的非GAAP
每股收益6.94美元,同比增长超过50%
。
-
2.
2023Q4实现营收为15.4 亿美元
,非GAAP 每股收益为2.08 美元,创下历史新高。其中
硬件销售贡献了83%的
收入,
服务和软件支持续订贡献了约17%
的收入。
非GAAP毛利率为65.4%
,是因为供应链改善和企业规模效应。2023Q4国际贡献率为22.3%,美洲为77.7%,开始从美国走向全球。
-
3. 2023年分客户看:
1)云巨头贡献显著,约占收入43%
;2)包括金融在内的
企业客户贡献约为36%
;3)剩下的分销商贡献则为21%。其中公司前两大客户为:
Meta和Microsoft分别贡献了收的21%和18%。
-
4. 以太网从文件打印共享的2.95 兆比特到人工智能时代的T比特以太网交换,速度提高了高多个数量级。
AI工作负载无法容忍网络延迟,因为只有在所有流成功交付到GPU 集群后才能完成作业
。只要有一个链接的出现故障或延迟将限制整个AI 工作效率。
-
5.
Arista 和 Ultra Ethernet Consortium 的创始成员率先进行了三项改进,以缩短作业完成时间。
-
1)数据包喷涂。
AI网络拓扑需要数据包喷洒,以允许每个流同时访问目标的所有部分。
Arista与客户一起动态开发多种形式的负载均衡;
-
2)订购灵活。
与 InfiniBand 的僵化排序不同,快速可靠的批量传输是快速可靠的批量传输,使用以太网链路进行灵活排序,以最佳方式平衡AI 密集型操作。
Arista正在与其领先的供应商密切合作,以实现这一目标。
-
3)网络拥塞。
在 AI 网络中,存在一个常见的内播拥塞问题,即多个不协调的发送方可以同时向接收方发送流量。
Arista的平台是专门构建的,旨在避免这些热点,在我们的虚拟输出队列、VoQ无损结构中均匀地将负载分布在多个包中。
6.
2023 年的年度核心产品:包括云、AI和数据中心产品。建立在高度差异化的 Arista 可扩展操作系统系统堆栈之上。
这些产品以 10、25、100、200 和400 GB 的速度成功部署,这些
核心产品占了约65%的收入
。
7. 在100、200和400G端口的最高性能交换方面继续扩大份额,以
大约40%的全球市占率,称为全球高端龙头
。
8.
已将400 GB 的客户群从2022 年的600 家客户增加到2023 年的约800 家客户。
预计
400 和800 G以太网将成为AI 后端GPU 集群的重要试点
。
9
.
预计2025 年实现至少7.5 亿美元的 AI 网络收入
,对该目标持谨慎乐观态度。
10. 除了
核心设备之外的(占比65%)
,
第二个产品是
网络邻接设备(收入占比19%)
,包括园区路由、替换路由器以及工作空间。
公司继续在园区内取得进展,目标是到2025 年实现7.5 亿美元的收入。
仅在2023 年,公司就在开发了600 个新功能和在50 个平台上推出了6 个EOS 软件版本。
在2023 年秋季,公司又推出了WAN 路由系统,重点关注规模、加密和WAN 传输路由功能。
11. 第三产品是
基于订阅模式的网络软件和服务(收入占比16%)
,比如:Arista
A-Care、CloudVision、DANZ
Monitoring Fabric或DMF可观测性,以及用于网络检测和响应的高级威胁传感器。该块业务
累计客户数量超过2,400 家,虽然2023 年的全球焦点是人工智能,但公司也对企业级服务和分销商发展势头感到满意。
Arista继续通过多个用例和垂直领域实现全球业务多元化。
过去三年中,企业级服务收入翻了一倍多,公司正在通过EOS和CloudVision基金,成为客户到云到AI网络的黄金标准。
12. 2023年,
价值百万美元的客户数量稳步增长了35%
,得益于公司的园区和企业级业务发展势头。
13. Arista仍然是
2023 年Gartner 园区级客户评价榜中唯一一家
在Forrester Wave 的可编程交换和客户验证中名列前茅的纯网络创新者。
14. 公司
收入目标是在2024年实现营业收入约65亿美元
。
15. 公司23023Q4实现收入15.4 亿美元,同比增长20.8%,接近1.50 美元至15.5 亿美元指引的上限。其中,服务和订阅软件在第四季度贡献了约17%的收入,高于第三季度的16.8%;国际收入为3.435 亿美元,占总收入的22.3%,高于上一季度的21.5%。
国际收入环比增长主要是欧洲、中东和非洲地区的贡献
。