在信息爆炸的数字化时代,新闻数据的快速增长使得从海量文本中提取和整理历史事件的时间线变得更加困难。这项被称为
时间线摘要(Timeline Summarization, TLS)
的任务,不仅是NLP领域的经典挑战,更是新闻分析、历史研究等领域的关键技术。为了应对这一挑战,阿里巴巴通义实验室与上海交通大学的研究团队提出了一种基于Agent的新闻时间线摘要生成框架——
CHRONOS
。这个以希腊时间之神命名的系统,通过迭代
提问-检索-生成机制
,让大模型从海量信息中抽丝剥茧,还原事件脉络。该工作已被NAACL 2025 Findings收录,为开放域时间线生成开辟了新路径。
论文标题:
Unfolding the Headline: Iterative Self-Questioning for News Retrieval and Timeline Summarization
论文链接:
https://arxiv.org/abs/2501.00888
代码链接:
https://github.com/Alibaba-NLP/CHRONOS
演示:
https://modelscope.cn/studios/vickywu1022/CHRONOS
一、任务背景
时间线摘要(Timeline Summarization, TLS)是自然语言处理领域的一项经典任务,旨在从大量文本中提取关键事件,并按时间顺序排列,形成对某一主题或领域的结构化历史视图。该任务不仅要求识别重要事件,还需理解事件之间的时间关系和因果联系,以生成连贯且信息丰富的时间线摘要。
根据可检索事件的来源,可以将TLS任务细分为封闭域(closed-domain)和开放域(open-domain)两个设定:在封闭域TLS任务中,时间线是从一组预定义的、与特定主题或领域相关的新闻文章中创建的,而开放域TLS指的是从互联网上直接搜索和检索新闻文章来生成时间线的过程。想象一下,如果让你整理"2024年全球AI大事件",你会怎么做?在封闭域TLS中,这就像在一个整理好的图书馆里查找资料——虽然方便,但信息可能不够全面。而开放域TLS则像是在整个互联网上"大海捞针",需要面对信息过载、噪声干扰、时序混乱等挑战。过去的工作主要集中于解决封闭域上时间线生成问题,而开放域TLS则需要强大的信息检索和筛选能力,以及在没有全局视图的情况下识别和建立事件之间联系的能力,为这项任务提出了新的要求和挑战。
1.1 实际效果
针对开放域时间线生成,CHRONOS通过模拟人类认知过程,系统能够像专业记者一样,逐步深入挖掘事件背后的故事。例如,对于新闻“国足1-0巴林”,通过两阶段提问,后一阶段的提问在第一阶段的问题的基础上,进一步聚焦于事件的细节和深层次因素:从关注关键球员的当前比赛表现延伸到过往状态,拓展更多相关球队的表现……这种提问方式,帮助模型更全面、深入地理解新闻事件的各个方面,
对于覆盖时间更长的新闻“中国探月工程”,CHRONOS也能聚焦重点事件,呈现时间线发展,使得用户能够一目了然。
二、方法详解
CHRONOS框架通过模拟人类的信息检索过程,结合大语言模型的能力,逐步构建新闻事件的时间线。其核心模块包括:
-
自我提问(Self-Questioning)
:通过迭代提问,逐步检索与目标新闻相关的背景信息和细节。
-
问题改写(Question Rewriting)
:将复杂或宽泛的问题分解为更具体、更易检索的子问题。
-
时间线生成(Timeline Generation)
:合并多轮检索结果,生成最终的时间线摘要。
2.1 自我提问机制
CHRONOS的自我提问机制分为两个阶段:
-
粗粒度背景调研
:以目标新闻标题为关键词,检索相关背景信息,为后续深度分析奠定基础。
-
迭代提问
:基于前一轮的检索结果,逐步提出更深入的问题,挖掘事件之间的复杂联系,直至满足时间线生成条件。CHRONOS利用大模型的上下文学习能力,通过少量样本提示来指导模型生成关于目标新闻的高质量问题。为了评估问题样本质量,引入了
时序信息量
(Chrono-Informativeness, CI)的概念,用来衡量模型提出的问题
检索与参考时间线对齐事件
的能力,即高CI值的问题更有可能引导检索到与目标新闻事件相关的文章,用检索生成的时间线和参考时间线中包含日期的F1分数进行衡量。基于最大化问题集时序信息量的目标,构建一个“新闻-问题”的示例池,用于指导新目标新闻的问题生成。对于每个新的目标新闻,通过余弦相似性动态检索与目标新闻最相似的样本,确保了样本的上下文相关性和时间信息的准确性。
2.2 问题改写
查询改写(Query Rewriting)是检索增强生成中常用的优化方法。在CHRONOS框架中,我们通过对初始提问阶段产生的宽泛或复杂问题改写为2-3个更易于检索的子问题,能够生成更具体、更有针对性的查询,从而提高搜索引擎的检索效果。我们同样在提示中加入少量样本,指导大模型进行有效改写,将复杂问题转化为更具体的查询,同时保持问题的原始意图。
2.3 时间线生成
CHRONOS通过两阶段生成完整的时间线总结:生成(Generation)和合并(Merging)。
-
生成
:从每轮检索结果中提取关键事件及其详细信息,形成初步时间线。利用大模型的理解和生成能力,提取每个事件的发生日期和相关细节,并为每个事件撰写简洁的描述。这些事件和描述被组织成初步的时间线,按照时间顺序排列,为后续的合并阶段提供基础。
-
合并
:将多轮生成的时间线整合为最终摘要,确保事件的连贯性和完整性。这一过程涉及对齐不同时间线中的事件、解决任何日期或描述上的冲突,并选择最具代表性和重要性的事件。
三、数据集与实验
为评估CHRONOS的性能,研究团队构建了
Open-TLS
数据集,收集了由专业记者撰写的关于近期新闻事件的时间线,构建了一个名为Open-TLS的新数据集。与以往封闭域的数据集相比,Open-TLS不仅在数据集规模和内容上更加多样化,而且在时效性上更具优势,为开放域TLS任务提供了一个更全面和更具挑战性的基准。
3.1 实验设定
实验基于GPT-3.5-Turbo、GPT-4和Qwen2.5-72B分别构建CHRONOS系统,评测开放域和封闭域两个设定下TLS的性能表现。使用的评估指标主要有:
-
ROUGE-N
: 衡量生成时间线和参考时间线之间的N-gram重叠。具体包括:(1)
Concat F1
:通过将所有日期摘要连接起来计算ROUGE,以评估整体的一致性;(2)
Agree F1
:仅使用匹配日期的摘要计算ROUGE,以评估特定日期的准确性;(3)
Align F1
:在计算ROUGE之前,先根据相似性和日期接近性对预测摘要和参考摘要进行对齐,评估对齐后的一致性。
-
Date F1
:衡量生成时间线中日期与参考时间线中真实日期匹配程度。
3.2 开放域TLS
在开放域TLS的实验中,CHRONOS在ROUGE-N和Date F1指标上显著优于基线方法(如DIRECT和REWRITE),展示了其在开放域任务中的强大检索和生成能力。显著提高了事件总结的质量和日期对齐的准确性。
3.3 封闭域TLS
在封闭域TLS的实验中,CHRONOS与之前的代表性工作进行了比较,包括:(1)基于事件聚合方法的CLUST (Gholipour Ghalandari and. Ifrim, 2020);(2)基于事件图模型EGC(Li et al., 2021)和(3)利用大模型进行事件聚类的LLM-TLS(Hu et al., 2024)。在Crisis和T17数据集上,CHRONOS与现有方法(如CLUST、EGC和LLM-TLS)表现相当,并在部分指标上达到SOTA水平。
3.4 运行效率
CHRONOS的另一个优势体现在效率方面。与同样基于大模型、但需要处理新闻库中所有文章的LLM-TLS方法相比,它通过检索增强机制专注于最相关的新闻文章,
显著减少了处理时间
,提升了实际应用中的效率。
四、案例研究
以“苹果公司产品发布”为例,CHRONOS通过迭代提问和检索,准确提取了关键事件及其时间点,展示了其在复杂事件时间线生成中的潜力。能够观察到,CHRONOS如何通过由浅入深的自我提问和信息检索来生成时间线。在案例研究中,CHRONOS展示了其能够准确提取关键事件和日期的能力,同时也揭示了在某些情况下可能需要改进的地方,例如对某些事件的遗漏或日期幻觉。
五、结语
CHRONOS框架通过结合大语言模型的迭代自我提问和检索增强生成技术,为新闻时间线摘要任务提供了一种高效且准确的解决方案。实验结果表明,CHRONOS在开放域和封闭域TLS任务中均表现出色,具有广泛的应用前景。未来研究可进一步探索该框架在通用任务中的泛化能力。
参考资料
[1] Demian Gholipour Ghalandari and Georgiana Ifrim. 2020. Examining the state-of-the-art in news timeline summarization. In Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics, pages 1322–1334, Online. Association for Computational Linguistics.
[2] Manling Li, Tengfei Ma, Mo Yu, Lingfei Wu, Tian Gao, Heng Ji, and Kathleen McKeown. 2021. Timeline summarization based on event graph compression via time-aware optimal transport. In Proceedings of the 2021 Conference on Empirical Methods in Natural Language Processing, pages 6443–6456, Online and Punta Cana, Dominican Republic. Association for Computational Linguistics.
[3] Qisheng Hu, Geonsik Moon, and Hwee Tou Ng. 2024. From moments to milestones: Incremental timeline summarization leveraging large language models. In Proceedings of the 62nd Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers), pages 7232–7246, Bangkok, Thailand. Association for Computational Linguistics.
llustration From IconScout By IconScout Store