【新智元导读】
LLM推理中的延迟问题常被忽视,而实时应用对此要求严苛。来自Zoom的华人团队提出草稿链(CoD)技术,仅用7.6%的token,就能在保持准确率的同时,大幅降低推理成本和延迟。
当下,企业正处于部署AI的关键节点。
随着AI系统在企业运营中的深度融合,计算成本与响应时间成为阻碍AI广泛应用的主要瓶颈。
来自Zoom的华人研究团队取得了一项突破性成果,他们开发的「草稿链」(Chain of Draft,CoD)技术,有望从根本上改变企业大规模部署AI的模式。
通过减少冗长表述并聚焦关键要点,草稿链(CoD)在准确率上与思维链(CoT)相当甚至更优,使用的token量仅为7.6%,显著降低了推理任务的成本和延迟。
目前,该项目已在GitHub上开源。
论文链接:https://arxiv.org/abs/2502.18600
项目链接:https://github.com/sileix/chain-of-draft
AI研究员Prabhakar表示,「对于一家每月处理100万次推理查询的企业而言,采用草稿链技术,每月成本可从(使用思维链时的)3800美元降至760美元,每月节省超过3000美元。」
草稿链对于企业的吸引力,更在于其简便的实现方式。
与需要投入大量成本进行模型重新训练或架构调整的技术不同,已在使用CoT的企业,仅需对现有模型的提示进行简单修改,就能顺利切换至CoD。
在实时客户支持、移动AI、教育以及金融服务等对延迟极为敏感的应用场景中,CoD技术的价值尤为明显。
在这些场景下,即使是极短暂的延迟,也可能对用户体验造成严重影响。
Prabhakar总结道,「随着AI模型的不断演进,优化推理效率与提升原始能力同样重要。」
OpenAI o1和DeepSeek R1等推理模型在复杂任务处理上取得了显著进展,思维链(CoT)技术功不可没。
CoT模仿人类的结构化推理,将问题分解为逐步探索的过程。
然而,CoT往往产生冗长的中间推理步骤,导致高延迟和更高的计算成本。
在解数学题或逻辑谜题时,人们通常不会详细阐述每一个细节,而是用缩写形式只记录关键信息。
受此启发,研究人员提出了草稿链(CoD)这一全新的提示策略。
CoD不要求模型生成冗长的中间步骤,而是让LLM在每一步生成简洁、信息密集的输出。
这种方法限制每个推理步骤最多五个词,使模型专注于最关键的信息。
研究团队在众多基准测试中验证了CoD的性能,包括算术推理(GSM8k)、常识推理(日期理解和体育知识理解)以及符号推理(抛硬币任务)。