专栏名称: 云头条

引领科技变革，连接技术与商业

青云智算“超进化”：重塑 AI 时代

云头条 · 公众号 · · 2024-10-15 23:43

正文

在当今 AI 技术快速发展的时代，青云科技一直走在前列，致力于为各行业提供强大的智算产品与服务。近日，在青云科技 AI 算力发布会上，青云智算产品经理苗慧女士以“打破计算边界，重塑 AI 时代”，详细介绍了青云 AI 算力产品与服务的全新升级，展示了青云科技在 AI 领域的深厚积累与卓越创新。

以下视频为青云科技智算产品经理苗慧的分享，经整理。

三大核心产品，引领无界算力新时代

面对各行各业对 AI 的迫切需求，青云更是拿出了看家本领。其快速构建 AI 计算场景的能力，让算法工程师、计算科学家、数据科学家等研究人员能够专注于算法和数学的研发，而无需为底层 AI 基础设施分心。通过屏蔽底层技术的复杂性，青云极大地提高了研发效率，让科研成果能够更快地转化为实际应用。

新产品，更全面

青云科技推出的三大核心产品：AI 智算平台、AI 算力云服务和 AI 智算一体机，以强大的技术实力突破传统算力界限，实现无界算力。

● AI 智算平台： 大而全的软件平台，从底层设备管理到上层 AI 算法优化，无所不能。它实现了对所有计算卡的高效管理，解决了客户在多区域、多计算卡、多产品形式下的算力管理难题。通过统一算力调度管理集群，青云确保了算力的充分利用和高效调度。

● AI 算力云服务： 以 GPU 算力为主的在线服务平台，用户可以随时随地获取所需的算力资源。无论是大型科研机构还是中小型研发团队，都可以通过 AI 算力云服务快速构建 AI 计算环境，推动科研成果的快速转化和 AI 场景快速落地。目前，已经上线了位于西北、华北等地的专区，为用户提供便捷、高效的算力服务。

● AI 智算一体机： 专为中小型研发团队和传统企业设计的快速创新工具，开箱即用。一体机内置了常用的模型和算法，用户只需通电即可使用，无需担心底层技术的复杂性。通过 AI 智算一体机，用户可以更快地开展 AI 研发和创新尝试，加速科研成果的落地应用。

多形式，提升资源利用效率

值得一提的是，青云在交付形式上也进行了大量创新，不仅能完成私有化交付、提供算力云服务和算力专属云，还能构建分布式云，将多个地区的算力中心统一管理、运营和运维，极大提高了资源利用效率。同时，针对边缘算力的需求，青云也提供边缘计算能力。

专业技术团队，提供全方位服务

除了强大的产品能力和交付能力外，青云还拥有专业的技术专家团队，为客户提供咨询服务、规划、可行性分析、架构设计及 7x24 小时的技术支持。无论是在产品更新、计算产品升级、AI 数据平台优化、高性能网络服务提升等方面，青云都能够凭借丰富的经验和先进的技术，为客户提供全方位的服务。

青云通过三大算力产品、灵活交付和专业服务，实现了云、网、边、端的无缝融合与高效协同。强大的组网与横向扩展能力，不仅覆盖了企业数据中心、边缘节点及跨区域场景，更打破了传统算力的物理与逻辑界限。青云开放的架构，让 AI 能力得以自由流动与深度融合。无论是向上对接多元化的 AI 技术，还是向下兼容多样化的硬件生态，青云智算均能实现无缝集成，构建了一个灵活、可扩展的 AI 无界算力世界。

AI 智算平台超进化，效率革新

青云科技于去年 9 月份发布了 AI 智算平台 1.0，以全新容器架构提供了从底层算力基础设施调度管理到业务运营的功能。在过去一年中，又陆续推出多个产品及功能，解决客户实际问题，展现了强大的算力管理和调度能力。从大型的数据中心卡，到消费级 RTX 显卡，再到国产的海光和昇腾系列计算卡，青云都能够进行高效的管理和调度。此外，面对不同网络带宽的需求，青云也能够提供 200M、400M、800M 乃至上 T 的网络带宽性能，确保数据的畅通无阻。

青云深知，仅有强大的算力是不够的。在 AI 基础设施的建设过程中，计算卡的应用、性能和调优同样至关重要。因此，青云通过统一算力调度管理集群，实现了对所有计算卡的高效管理，解决了客户在多区域、多计算卡、多产品形式下的算力管理难题。

青云 AI 智算平台通过不断更新功能和优化架构，满足了用户在计算、数据和网络管理等方面的需求。这使得用户能够更加高效地利用计算资源，降低成本，提高生产效率，从而在 AI 领域取得更好的发展。无论是企业还是科研机构，都能从青云 AI 智算平台的优势中受益，加快自身在 AI 领域的创新和进步。

升级更多计算产品

AI 智算平台提供多元化的计算形式，从传统物理机到容器，再到裸金属。计算不仅支持国外主流算力，还支持海光、昇腾等国产算力。同时，推出传统 HPC CPU 计算，面向 300 多个传统 HPC 场景提供 HPC 计算。

苗慧表示，计算产品升级主要体现在 GPU 切分 能力的完善和提升上。金融和高校都存在高峰和低谷的业务特点，在高峰时需要大量资源支持，而在低谷时则只需保活即可。青云提供了算力芯片的切分使用，例如，通过将 GPU 切分二分之一，可以提高一倍的效率，同时减少一台机器的投入。客户可以通过这种 GPU 切分方式提高工作效率，降低投入成本，更好地满足业务需求。

AI 数据平台，便捷高效的数据服务

青云 AI 数据平台作为 统一的数据存储流转管理服务平台， 以其完全服务化的特性，为用户提供了便捷、高效的持久化数据服务。平台具有强大的屏蔽功能，能够将底层介质（如硬机械硬盘、NVMe 闪盘）以及不同文件系统等基础设施带来的问题完全屏蔽。这使得用户无需关注底层技术细节，专注于数据的处理和应用。

平台完全服务化，可视化交互体验， 用户可在界面上轻松点击申请配额，随后即可通过界面上传、下载数据。数据与计算环境紧密关联，用户在进入平台后，首先创建存储，上传数据，完成这些操作后即可获得相关计算资源，进行数据处理和管理。这种简洁明了的操作流程，极大提高了用户使用数据的效率。

高性能网络服务，快速上架稳定运行

青云科技凭借资深网络团队和专业技术积累，在相同硬件条件下，为用户提供更优质的高性能网络，保障网络稳定。

青云资深网络团队，根据业务需求进行全面的网络规划与设计。从硬件配置到网络架构，每一个环节都经过精心考量，确保网络服务能够满足不同业务场景的需求。青云在网络服务方面遵循严格的流程， 千卡集群 7 天即可完成调试和 15 天上架运营， 确保网络服务在投入使用前经过充分的测试和优化，为用户提供稳定可靠的网络环境。

全功能 AI 开发平台，满足开发训练需求

青云还推出全功能 AI 开发平台，涵盖开发机服务和分布式训练服务。

● 开发机服务：提供秒级创建、镜像加速、自定义镜像等功能，还支持无卡开关机、在线开发 jupyter、vscode，以及定时关机、定时释放等资源回收策略。这些功能使得开发人员能够更加方便快捷地进行开发工作，提高开发效率。

● 分布式训练服务：提供秒级调度多机多卡、预训练 DLC、模型精调 SFT，以及优先级与批量调度策略等功能。同时，还内置了评估数据集、效率表现分析等，对模型效果进行评估。这些功能使得分布式训练更加高效，提高了训练效率和模型质量。

模型服务平台，加速 AI 创新

青云 AI 智算平台还推出即用即付、开箱即用的模型服务平台，具备多项优势以满足不同需求。

集成与调度

● 具有强大的集成能力，通过模型广场，实现模型和应用无缝集成，提升应用性能。

● 采用灵活的潮汐调度策略，结合 GPU 池化，有效提升推理并发效率，同时支持国产卡和边缘设备，扩大适用范围。

环境适配与管理

● 在算法环境方面，通过容器镜像打包环境功能，无论用户所需的 CUDA 版本如何，都能获取相应镜像运行，解决了运维过程中因版本差异导致的问题。

● 对于不同算法团队的计算环境准备需求，提供模型服务平台，可快速搭建环境，避免物理问题。

● 针对机器利用率低的问题，监控平台可全面监控，不仅能看到机器归属及平均利用率，还能根据纯时间类指标和监控数据实现自动关机、自动释放计算卡，提高资源使用效率，避免算法团队抢卡。

资源调配与应用

● 开发、训练和推理服务通常由不同人员负责，针对模型调用量存在高峰和低谷的情况，将所有模型部署到推理集群上，根据调用和压力进行资源弹性伸缩，合理分配资源。

● 通过 GPU 切分形式，如将 80G 显存切成 20G 4 份向外分发，可实现白天推理晚上训练。通过自动资源池调配满足不同时段需求，如金融领域的 “白天推理，晚上训练” 模式，保存模型 CheckPoint，提高资源利用率。

青云科技借助自身的平台和工具，为企业提供了 无门槛构建 AI 模型的服务。 在 AI 智算平台上，所有功能都围绕算力应用，使其能落实到具体场景和算法工程师手中。

企业只需将数据上传到平台，即可启动 一键精调。 在这个过程中，平台能够对每个保存的模型或 CheckPoint 立即进行模型效果评估。平台内置常用数据集和常用参数，完全屏蔽了对技术人员的底层技术要求。技术人员只需在平台上进行简单操作，就能得到模型与结果评估，判断其是否适用。如果适用，便可进行部署、推理，并预留接口。

在资源管理方面，对于推理占用资源，既可以独占，也可以共享。青云按照 token 形式进行弹性计费或弹性扩/缩容，满足企业不同的资源需求和成本控制要求。

故障监控与自愈系统，保障算力稳定

青云智算“超进化”：重塑 AI 时代

正文

请到「今天看啥」查看全文