本文约1000字,建议阅读5分钟
本工作聚焦“异构协同模型推理”,通过探索异构设 备之间的协同机制,提高模型推理任务的动态自适应性、可扩展性、计算和通信 效率、以及对数据隐私安全的保障。
来自中国科学技术大学的袁枚博士论文,入选2024年度“CCF博士学位论文激励计划”初评结果!
https://www.ccf.org.cn/Awards/Awards/2024-11-15/834347.shtml
模型推理是支撑诸多人工智能应用的关键,例如交通视频分析依赖于车辆 检测模型推理、自然语言问答服务需要基于大语言模型推理实现。将模型推理任务部署于单一设备或同构集群上是最直接和成熟的方式,当下多数智能应用采用这种方案,例如抖音应用基于手机端上部署的视觉模型实现各种视频特效、 OpenAI 使用大规模云上 GPU 集群支撑其 ChatGPT 问答服务。然而,随着智能模 型愈加复杂、应用场景不断拓宽,基于单一设备或同构集群的模型推理服务显现 出很多问题:(1) 环境高度动态,多个数据源分布存在差异,因此静态的推理策 略导致大量计算资源浪费;(2) 推理计算卸载引入的通信代价过高,端侧设备尤 其是移动设备难以承担;(3) 纯云侧部署的模型推理协议涉及完全明文通信,存 在严重的用户端数据隐私泄露风险;(4) 硬件算力受限,如智能物联网系统,单 一设备无法部署完整的模型等等。由于软硬件以及部署环境的不同,模型推理任 务在真实应用中不可避免地涉及多种异构设备。让这些异构设备合理地、智能地 协同执行模型推理,包括协同分担计算任务、协同消除通信数据冗余、协同进行 权限分离,是解决单一设备或同构集群面临的资源效率低、隐私安全保护弱等技 术挑战的有效途径。因此,本工作聚焦“异构协同模型推理”,通过探索异构设 备之间的协同机制,提高模型推理任务的动态自适应性、可扩展性、计算和通信 效率、以及对数据隐私安全的保障。具体地,本工作研究了(1)多端协同的并 发包门控,通过跨视频流协调解码资源的使用,增强视频实时分析系统中输入源 的可扩展性;(2)端边协同的输入过滤,端到端地学习出如何过滤冗余的输入数 据,提高通信和计算资源的利用效率;(3)端云协同的安全推理协议,以特征维 度的随机置换为基础,赋予模型推理对数据和参数的安全保障;(4)边云协同的 自适应模型部署,将原本孤立的模型集合构建为相互关联的模型网络,提高模型 部署效率。本工作在理论上分析了所提出技术的性能保障,证明了包门控算法的 在线遗憾边界、基于函数族复杂度对比的推理任务可过滤性、以及安全推理协议 的隐私泄露上界,并在多个真实系统中进行验证,相较于基线方法,实现显著节 省推理开销、大幅提高视频源并发度、优化通信效率等实际优化效果。关键词:异构计算 端云协同 模型推理 任务调度 安全协议。
数据派THU作为数据科学类公众号,背靠清华大学大数据研究中心,分享前沿数据科学与大数据技术创新研究动态、持续传播数据科学知识,努力建设数据人才聚集平台、打造中国大数据最强集团军。
新浪微博:@数据派THU
微信视频号:数据派THU
今日头条:数据派THU