医院AI算力建设的若干要点

CHIMA · 公众号 · · 2025-03-18 16:14

正文

“人工智能+”时代，作为AI人工智能三大要素之一的“算力”成为医院信息基础设施的重要部分。在医院配置算力基础设施，为DeepSeek等大模型的内部部署、模型训练和推理等AI应用和研究，提供一个高速、稳定、安全的AI环境，是当前国内医院信息部门面临的任务。

算力基础设施类型

医院AI算力基础设施可以分为AI训练、AI推理、AI嵌入和AI桌面设施4类，如图1所示。

图1 医院AI算力设施类别

AI训练设施主要用于需要高算力的大模型部署（例如DeepSeek全量模型）、模型研发和训练以及大模型微调。AI推理设施用于中小规模模型部署（例如DeepSeek蒸馏模型）、模型的推理（即训练好的模型的应用），也可以用于模型的研发。AI推理设施要考虑支撑医院大量AI业务应用（例如临床辅助诊断、影像辅助诊断等），这些业务应用数量较多，但算力要求不高，为了充分利用算力资源而需要采用算力卡虚拟化或多实例技术，实现算力按需配置。AI嵌入设施主要用于嵌入式边缘计算场景，进行嵌入模型的训练和推理。AI桌面设施是指在现有桌面电脑上扩展AI算力，随着AI的广泛应用，个人设备将具备日益强大的AI功能，这就要求桌面计算机能提供充足的AI算力。

算力基础设施

1.AI服务器

AI服务器主要是为人工智能的机器学习提供计算能力支持。AI服务器的配置需要根据用户应用需求，选择合适的CPU、内存、硬盘（SSD或机械硬盘），以及提供AI算力的算力卡、算力卡内存。如果算力卡不支持显示器接口，还需要配置显卡。服务器的机箱尺寸、各类接口和卡槽，需要根据算力卡的尺寸、接口类型和张数设置。算力卡耗电较高，服务器电源功率必须充分满足算力卡的功耗与散热要求。除了硬件，AI服务器还需要安装操作系统以及AI架构件和工具包软件等。

2.AI算力卡

AI算力卡是算力服务器的核心部件，能够处理大规模数据集和复杂的数学运算，适用于机器学习、深度学习、自然语言处理、计算机视觉等领域的应用，通过高性能计算设备，AI算力卡可以加速神经网络的训练过程，提高模型精度。

常用的AI算力卡有英伟达、英特尔、AMD等的图形处理单元（GPU），谷歌的张量处理单元（TPU），以及华为的神经网络处理单元（NPU）等。算力卡的主要性能指标包括计算精度、内核类型和内存容量，下面分别介绍。

（1）主要性能指标

第一，计算精度与速度

常用的算力卡计算精度如表1所示。除了表中所列的精度指标，不同的算力卡厂家还会有其他的精度指标。

表1 算力卡计算精度

表2是算力卡的计算速度类型和单位。

表2 算力卡的计算速度

算力卡的计算精度和运算速度的选择，需要按照算力卡的应用场景来确定。

第二，内核

算力卡芯片的内核用于数据计算，其核数量远远大于CPU，甚至高达上万个。英伟达GPU内核主要有CUDA核和‌Tensor核两类。

CUDA核主要用于执行加法、乘法运算通用计算任务：1）执行并行计算任务；2）支持大规模的浮点运算和整数运算，适用于图像和视频处理、科学计算以及实时物理计算等；3）多线程并行执行，能够一次性运行数千甚至数百万个线程（一个CUDA核可以并行处理多个线程）。‌

‌Tensor Core为加速深度学习中的张量运算设计：1）优化了矩阵乘法和累加运算，这些运算是深度学习的核心计算任务；2）在深度学习推理和训练方面表现出色，能够大幅提高计算性能，同时维持较低的精度损失。

‌

第三，内存

算力卡的内存（常称为“显存”）是指算力卡专用的存储芯片，用于存储算力卡需要快速读写的数据信息，如模型参数、数据缓存等。显存的容量通常以GB（2³⁰）为单位，容量越大，算力卡能处理的数据规模就越大。

算力卡内存的容量需要根据模型的使用情况考虑，对于深度学习神经网络模型，算力卡内存容量可以按下列公式估算：

算力卡内存容量 =（1.2-1.4） X (训练模型参数量 X 计算精度的字节（Byte）数) 系数（1.2-1.4）是在模型参数所需要内存的基础上，增加的额外开销，如数据缓存等。模型训练系数可选1.4，模型推理可选1.2。例如，用于推理的模型参数是70B（70X10⁹），计算精度FP16（2Byte），算力卡内存容量 = 1.2 X70X109 X2，结果是168，内存容量约为168GB。在配置算力卡内存时，还需要考虑模型用户并发数。在确定内存容量前，用户应向模型研发人员了解内存的实际需求。

采用量化技术，将模型参数的精度从浮点数降低到低位表示（如表1中INT8、INT4），可以显著降低内存和计算需求，使模型在资源有限的设备上更高效地部署。因为降低精度可能会影响输出的准确性，需要仔细管理以保持模型的性能。

医院AI算力建设的若干要点

正文

请到「今天看啥」查看全文