专栏名称: 新智元

智能+中国主平台，致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能、机器人等前沿领域发展，关注人机融合、人工智能和机器人革命对人类社会与文明进化的影响，领航中国新智能时代。

精度效率双冠王！时序预测新范式TimeDistill：跨架构知识蒸馏，全面超越SOTA

新智元 · 公众号 · AI · 2025-03-09 12:51

正文

新智元报道

编辑：LRST

【新智元导读】 TimeDistill通过知识蒸馏，将复杂模型（如Transformer和CNN）的预测能力迁移到轻量级的MLP模型中，专注于提取多尺度和多周期模式，显著提升MLP的预测精度，同时保持高效计算能力，为时序预测提供了一种高效且精准的解决方案。

如何在保证预测精度的同时降低计算成本，是时序预测应用面临的核心挑战。

传统的时序预测模型（如基于Transformer或CNN的复杂结构）虽在精度上表现卓越，但计算开销往往难以满足实际部署需求。而轻量级MLP（多层感知器）虽然具备较高的推理速度，却常因建模能力不足，导致预测精度较低。

这引出了一个有趣的问题：是否可以将MLP与其他先进架构（如Transformer和CNN）结合，以构建一个既强大又高效的模型？

一个直觉的解决方案是知识蒸馏（Knowledge Distillation），通过将更大、更复杂的模型（教师模型）的知识迁移到较小、更简单的模型（学生模型），使其在提升性能的同时实现更高的计算效率。

近期，来自美国埃默里大学、澳大利亚格里菲斯大学等多地的华人科研团队联合提出了一种跨架构知识蒸馏（Cross-Architecture Knowledge Distillation）框架TimeDistill，将MLP作为学生模型，其他复杂先进架构（如Transformer和CNN）作为教师模型，通过蒸馏复杂模型的优势至轻量级模型，实现计算负担大幅降低的同时显著提升预测精度。

相比于教师模型，TimeDistill加快了最多7倍推理速度，降低了最多130倍参数量，同时TimeDistill还在多个数据集上展现了超越教师模型的SOTA表现,为构建高效、高精度的时序预测模型提供了全新思路。

论文链接： https://arxiv.org/pdf/2502.15016

通过蒸馏，TimeDistill在多个数据集上取得超越教师模型的预测精度并实现了最佳的效率平衡。

TimeDistill模型方法

设计思路

首先，研究人员对MLP与其他时序模型的预测模式进行了对比分析。

研究发现，尽管MLP的整体预测精度较低，但往往在某一部分样本上表现出色，突显了其与教师模型之间存在一定的优势互补，强调了通过知识蒸馏向教师模型的学习互补知识的重要性。

为了进一步探索需要蒸馏的时序「知识」，研究人员聚焦于两个关键的时序模式：

时间域的多尺度模式（Multi-Scale Pattern） ：真实世界的时序数据通常在多个时间尺度上呈现不同的变化。可以观察到，在最细粒度时间尺度上表现良好的模型通常在较粗粒度上也能保持较高的准确性，而MLP在大多数尺度上均表现不佳。
频率域的多周期模式（Multi-Period Pattern） ：时序数据往往存在多个周期性，性能较好的模型能够捕捉到与真实数据接近的周期性特征，而MLP无法有效识别这些周期性结构。