专栏名称: CHIMA
中国医院协会信息管理专业委员
目录
相关文章推荐
51好读  ›  专栏  ›  CHIMA

医院AI算力建设的若干要点

CHIMA  · 公众号  ·  · 2025-03-18 16:14

正文

“人工智能+”时代, 作为AI人工智能三大要素之一的“算力”成为医院信息基础设施的重要部分。在医院配置算力基础设施,为DeepSeek等大模型的内部部署、模型训练和推理等AI应用和研究,提供一个高速、稳定、安全的AI环境,是当前国内医院信息部门面临的任务。



算力基础设施类型


医院AI算力基础设施可以分为AI训练、AI推理、AI嵌入和AI桌面设施4类,如图1所示。


图1 医院AI算力设施类别


AI训练设施主要用于需要高算力的大模型部署(例如DeepSeek全量模型)、模型研发和训练以及大模型微调。AI推理设施用于中小规模模型部署(例如DeepSeek蒸馏模型)、模型的推理(即训练好的模型的应用),也可以用于模型的研发。AI推理设施要考虑支撑医院大量AI业务应用(例如临床辅助诊断、影像辅助诊断等),这些业务应用数量较多,但算力要求不高,为了充分利用算力资源而需要采用算力卡虚拟化或多实例技术,实现算力按需配置。AI嵌入设施主要用于嵌入式边缘计算场景,进行嵌入模型的训练和推理。AI桌面设施是指在现有桌面电脑上扩展AI算力,随着AI的广泛应用,个人设备将具备日益强大的AI功能,这就要求桌面计算机能提供充足的AI算力。



算力基础设施


1.AI服务器


AI服务器主要是为人工智能的机器学习提供计算能力支持。AI服务器的配置需要根据用户应用需求,选择合适的CPU、内存、硬盘(SSD或机械硬盘),以及提供AI算力的算力卡、算力卡内存。如果算力卡不支持显示器接口,还需要配置显卡。服务器的机箱尺寸、各类接口和卡槽,需要根据算力卡的尺寸、接口类型和张数设置。算力卡耗电较高,服务器电源功率必须充分满足算力卡的功耗与散热要求。除了硬件,AI服务器还需要安装操作系统以及AI架构件和工具包软件等。


2.AI算力卡


AI算力卡是算力服务器的核心部件, 能够处理大规模数据集和复杂的数学运算,适用于机器学习、深度学习、自然语言处理、计算机视觉等领域的应用,通过高性能计算设备,AI算力卡可以加速神经网络的训练过程,提高模型精度。


常用的AI算力卡有英伟达、英特尔、AMD等的图形处理单元(GPU),谷歌的张量处理单元(TPU),以及华为的神经网络处理单元(NPU)等。算力卡的主要性能指标包括计算精度、内核类型和内存容量,下面分别介绍。


(1)主要性能指标


第一,计算精度与速度


常用的算力卡计算精度如表1所示。除了表中所列的精度指标,不同的算力卡厂家还会有其他的精度指标。


表1 算力卡计算精度


表2是算力卡的计算速度类型和单位。


表2 算力卡的计算速度


算力卡的计算精度和运算速度的选择,需要按照算力卡的应用场景来确定。


第二,内核


算力卡芯片的内核用于数据计算,其核数量远远大于CPU,甚至高达上万个。英伟达GPU内核主要有CUDA核和‌Tensor核两类。


CUDA核主要用于执行加法、乘法运算通用计算任务:1)执行并行计算任务;2)支持大规模的浮点运算和整数运算,适用于图像和视频处理、科学计算以及实时物理计算等;3)多线程并行执行,能够一次性运行数千甚至数百万个线程(一个CUDA核可以并行处理多个线程)。‌


‌Tensor Core为加速深度学习中的张量运算设计:1)优化了矩阵乘法和累加运算,这些运算是深度学习的核心计算任务;2)在深度学习推理和训练方面表现出色,能够大幅提高计算性能,同时维持较低的精度损失。

第三,内存


算力卡的内存(常称为“显存”)是指算力卡专用的存储芯片,用于存储算力卡需要快速读写的数据信息,如模型参数、数据缓存等。显存的容量通常以GB(2³⁰)为单位,容量越大,算力卡能处理的数据规模就越大。


算力卡内存的容量需要根据模型的使用情况考虑,对于深度学习神经网络模型,算力卡内存容量可以按下列公式估算:


算力卡内存容量 =(1.2-1.4) X (训练模型参数量 X 计算精度的字节(Byte)数) 系数(1.2-1.4)是在模型参数所需要内存的基础上,增加的额外开销,如数据缓存等。模型训练系数可选1.4,模型推理可选1.2。例如,用于推理的模型参数是70B(70X10⁹),计算精度FP16(2Byte),算力卡内存容量 = 1.2 X70X109 X2,结果是168,内存容量约为168GB。在配置算力卡内存时,还需要考虑模型用户并发数。在确定内存容量前,用户应向模型研发人员了解内存的实际需求。


采用量化技术,将模型参数的精度从浮点数降低到低位表示(如表1中INT8、INT4),可以显著降低内存和计算需求,使模型在资源有限的设备上更高效地部署。因为降低精度可能会影响输出的准确性,需要仔细管理以保持模型的性能。







请到「今天看啥」查看全文