(参考
消息、作文、专家纪要、调研分享;提高认知及信息差
)
分享市场、行业及公司动态,包括投资策略、行业数据库、专家调研、公司纪要;信息超越
99%
的投资者)微信扫码加入体验)
一、综述
-
Sora在Al算力基建中的影响
随着Al产业的迅猛发展,包括海外如Sora和Google的GPT等模型,以及国内众多Al模型的崛起,都表明人工智能产业正热烈推进。博云公司在Al基础设施领域展现出强劲实力,围绕云计算业务构建了高性能算力基础,并提供了一整套涵盖GPU资源利用与调度的解决方案。当前全球算力市场需求急剧增长,文本模型已使去年的算力市场达到饱和点,今年随着视频处理等应用的普及,对算力的需求预计将进一步提升。
-
Sora与Al算力基建的发展演变
市场对Al算力的需求持续攀升,这不仅影响了硬件制造商,也推动了基础
AI研发软件供应商、模型精调服务提供商以及Al应用开发行业的整体演进。盘古大模型在气象等领域实现效率大幅提升,比如手写公式算法预测时间从五天缩短至一天完成七天气象预测,充分体现了AI算法效率的整体进步。然而,大模型虽然高效,却存在解释性差、结果不透明等问题,提高精度往往需要更多的算力或数据支持,导致成本增加。
-
Sora对Al算力生态的影响解析
华为升腾910B芯片性能接近100型号,但由于不支持双精度运算,在大模型应用场景下需要进行转换操作,增加了复杂性。华为在算力产品方面面临产能紧张、软件兼容性相对较弱等问题,因此在软件开发过程中投入大、周期长,加上相对封闭的生态系统,使得部分客户在采用华为产品时有所顾虑。
相比之下,国产曙光公司的产品在兼容性上表现出色,其性能可比肩国际产品,性价比优势显著,且拥有更开放的生态体系,得到了业界片泛认可。
-
Sora技术改变Al算功格局
尽管Sora系列芯片在大模型训练方面表现一般,但新系列发布后若能在大模型训练测试中取得良好效果,预期销量将快速攀升。异构计算环境在当下普遍存在于政府主导的算力中心,国产芯片面临着API兼容性和算力平台支持的挑战。训练环节的异构计算难度较大,通常倾向于在同型号GPU集群中进行,而前推理环节问题则相对容易解决,得益于编译器的优化功能。
-
Soa智能算力的未来机遇与挑战
Al基础设施的新机遇与挑战在于数据处理、模型算法开发、训练及推理各环节,其中训练环节能显著提升模型效果,行业场景化落地是未来发展的重要趋势。对于模型开发与训练平台,小模型客户偏好私有化开发,而大模型客户多采用开源模型,数据隐私问题限制了公有云在金融、医疗等敏感领域的广泛应用。私有化部署需求逐渐上升,客户需要性价比高、适配多种硬件的训练平台以及灵活的推理环境,厂商的服务模式也在向模型订阅+服务转变,以满足算力和平台的需求。
-
Sora生态及其在Al界的影响探析
华为鲲鹏生态系统的易用性及客户反馈总体积极,该生态已经稳固并迅速发展。华为欧拉操作系统作为行业内重要的Linux内核版本,预期将进一步推动生态开放。相比之下,升腾生态尚不如鲲鹏般开放,模型支持有限,可能的原因涉及技术难度以及对华为自身模型竞争力的维护。
7.投资与运营策略探讨
资本投入与建设:国内计算中心的建设主体以政府为主导,规模庞大,算力可达500P以上,卡数上千张。政府投资力度较大,着重于大规模重资产投资。
运营模式与挑战:运营主要采取对外租用模式,如何最大化发挥算力中心效能成为关键挑战。目前运营系统较为粗放,亟待建立完善资源调度、计费等管理系统。
算力芯片组网现状:我国目前尚未形成统一的算力芯片组网牵头单位与标准,多参照NVIDIA标准执行,同时运营主体并不明确,“谁建设、谁运营”为常态现象。
8.再论Sora芯片的影响力
曙光公司最新芯片型号分析显示:K系列预计性能可与A100相媲美,但由于缺乏第三方评测报告,
具体性能有待确认;L系列对标A40并在理论上性能持平于9101,但K系列相较于L系列性能明显提升。曙光产品的优势在于支持双精度计算,降低了模型开发厂家的技术门槛,有望带来更好的使用效果。
A:从市场角度来看,对算力的需求持续增长,并且这种需求正在影响到整个Al基础研发领域,从硬件制造商到Al基础模型开发商、模型精调服务商,再到Al应用开发者,以及最终使用这些模型的各行各业,整个生态系统都在快速演变中。以前,行业中的工作主要是基于手写算法进行数据处理,但现在,大型Al模型的应用已显著提高了效率。华为的盘古大模型就是一个例子,它首次在气象领域被采用后,就将预测效率提升了约七倍,从五天缩短到一天完成七天的预测。这种跨越性的效率提升使得很多行业开始采用Al模型来促进发展。虽然大型AI模型的计算效率更高,但它们往往作为“黑盒”存在,缺乏透明度和解释性。为了提高模型精确度,往往需要
增加算力或数据的投入,这两者的成本都相对较高。但是,其速度和优化能力确实是显著的。
Q:华为生产的Al芯片在性能和成本方面,与英伟达相比情况如何?
A:就目前市场上的接受度和实际数据来看,华为生产的Al芯片表现如何,对于我们的合作与接触而言是一个关键的考量点。对于比较这些芯片的性能和综合成本,我们需要考察它们在客户处的表现以及能达到的水平,不过目前还需要更多具体数据来评估华为Al芯片与英伟达等竞争对手相比的具体竞争力。
Q:Soro对AI算力产生了哪些积极的影响?具体是在哪些方面?
A:客户对于升腾910B型号的测试结果普遍满意,其性能与NVIDIA的V100相当,远超过之前对国产芯片的预期。910B在不同精度计算下性能表现良好,不过存在不支持双精度的问题,需要在大模型计算场景中转化后才能使用。华为生态面临的主要问题是产能紧张,因为使用7纳米工艺和智能手机芯片分摊产能,导致交货周期普遍超过三个月。此外,兼容性较弱,需要开发者重新编写和编译代码来适应华为的框架。而配合华为卡的最佳解决方案是使用华为自有的坤鹏GPU和欧拉操作系统,
以及华为盘古和星火模型,尽管这造成了系统相对封闭。
A:曙光的产品在国内的兼容性较好,其API与NVIDIA的ID兼容。曙光K系列的新产品性能与V100相当,且性价比较高。海光、天主之心、寒武纪等其他厂商产品产能不及曙光,性能和兼容性也有所不足。摩尔县城如果不
受制裁影响,产品与NVIDIA非常接近,但目前产能有问题。寒武纪更适合用于推理环节,其训练场景的算法库与扩大生态的兼容性差距较大。
A:由于价格上涨和制裁导致的服务质量问题,客户开始大范围考虑国产芯片,特别是从去年下半年开始。华为910D已经出现规模化采购,曙光及其他厂商当前还没有批量发货。现在已经确认的批量发货主要发生在讯飞和电信等处。
Q:就性能、成本和迁移难度等方面,您如何评价当前的国产芯片厂商?
A:从性能和成本角度看,华为的910B价格上涨迅速,目前已卖到将近两百多万元,而曙光价格相对便宜,性价比在行业内被认为较高。在迁移难度上,华为和曙光的生态相对开放,兼容性较好,有助于大模型的兼容,而其他厂商在这方面相对弱一些。总体而言,大多数生态系统和大模型的兼容性还在研究阶段,实际应用主要集中在推理部分,训练使用较少。
Q:Sora在Al算力(算力)方面的性能如何?它在大模型训练方面又有哪些表现?
A:在Al算力方面,华为和曙光的产品在推理领域表现突出,特别是在小模裂的训练上效果显著。对于大模型的训练,这些设备可能会有所不足。目前业界对于曙光新系列产品的表现持观望态度,主要是期待其在大模型训练方面的性能。如果新系列产品能在大模型训练方面有良好的性能表现,预计其市场接受度会快速提升。国产化的芯片在大模型训练方面的表现尚来达到预期,这主要是因为需要解决API的兼容性问题以及在算力调度平
台和模型开发上的支持,至于易购的算力中心,国产卡主要用于推理任务,因为这一环节相对容易解决,而在训练环节的挑战更大。
Q:目前混合部署多品牌GPU并适用于各种计算任务的普遍性和挑战有哪些?
A:在政府主导的算力中心,混合部署不问品牌的GPU已经十分普遍,尤其是在华为主导或参考华为
模式的智算中心中。混合模式的挑战主要在于技术层面,需要克服API兼容性问题和算力底座平台支持。从应用层面来看,模型开发和训练需要软件厂家调整API兼容性,一些大学和研究机构正致力于这方面的工作,并与华为等厂商有合作。在实际应用中,单一模型训练更倾向于运行在同一品牌和类型的GPU上,这主要是出于计算同步和资源效率考虑。尽管如此,对于不同参数规模的不同模型,可以部署在不同品牌的GPU集群上运行。在推理环节,因为有编译器的参与,且模型已训练完成,这个阶段的问题相对容易解决。在算力中心中,易购的算力中心的模式已经十分普遍。
Q:在目前技技采环境下,异构算力环境下的模型训练存在哪些问题,以及应对这些问题有哪些措施?
A:当前,在异构算力环境中进行模型训练仍然面临挑战,主要问题在于异构性可能导致运算过程中的不同步,影响任务效率和最终结果。现有的解决措施包括进行任务的精细切分,但仍然要求在同类同型号的GPU上进行计算,以确保计算同步和网络带宽、内存等硬件资源的统一性。尽管有些任务可以在不同类型的GPU上运行,但这种做法并不普遍。进一步的兼容性解决方案包括优化编译器,
以在编译层面保证不同GPU上的运行兼容性。目前,针对这些问题,仍缺乏特别有效的措施。
Q:Al时代背景下,对基础设施层面上有哪些新机会和挑战?
A:在Al场景中,整个过程包括数据处理、模型算法开发、训练以及训练后的推理。目前训练环节受到较多关注,因为这里最能体现效果。模型表现良好时,无论是视频输出还是对话服务,都能给使用者带来较大的影响。随后需要进行行业场景的落地。少数关注模型开发的情况下, 平台如
MOOS对小模型支持多,大模型则会采用开源模型并期望自行开发以防数据泄露。现在客户倾向于私有化部署,需要性价比较高的轻量化训练平台。此外,客户自建平台需求巨大,但成本考虑让它们偏向轻量化解决方案。中立厂家更受青睐,因为它们能保持模型的兼容性。
Q:Sora对Al基础设施和计算平台的具体影响是什么?
A:Sora提供了轻量化的训练平台和GPU资源池化及调度管理。这方面,客户在选择大厂模型、模型厂家或GPU厂家时存在顾虑,因为一旦选择了某一方的产品或服务,可能会受限于其生态系统,而中立厂家能提供更好的兼容性。在算力底座方面,需要支持多种推理卡,例如我们已兼容了多种
KD卡。推理环节中,虽然当前关注不足,但这里算力使用较灵活,稳定性也成为一个重要的考量点。Sora也在关注推理的稳定性,并致力于提升服务效率和性能。类似云计算领域的中台服务,我们正在构建人工智能推理应用的工程化支持,以适应Al应用从开发到场景化落地的各种需求。总结来说,Sora的Al基础设施和计算平台的核心影响力在于提供了针对训练和推理的轻量化、高兼容性解决方案,
Q:鲲鹏生态的发展已经提高到了什么水平?主要是从易用性和客户反馈等方面来看。
A:鲲鹏生态从早期的信任度不高,到目前国内出货量已经非常大,发展速度显著,目前在国内,除了仍以英特尔为主流外,鲲鹏已经成为主要的替代生态。华为鲲鹏主要围绕其自有的欧拉操作系统打
造生态。华为的策略是尽可能地开放鲲鹏生态,而且传闻称国产Linux操作系统会以欧拉替代,显得更加开放。至于软件生态方面,华为强调自己的软件在鲲鹏硬件上运行性能比在英特尔上高出10%到20%。