专栏名称: GitHubStore
分享有意思的开源项目
目录
相关文章推荐
首席商业评论  ·  头最铁的年轻人,买房只买顶楼 ·  昨天  
神嘛事儿  ·  我回答了 @用户7699215969 ... ·  2 天前  
第一财经  ·  阿里,跳空上涨! ·  3 天前  
魔法K线一王焕昌  ·  【休息一下也无妨】 ·  3 天前  
李楠或kkk  ·  我就不明白,同样价格,想要 c ... ·  3 天前  
51好读  ›  专栏  ›  GitHubStore

阿里巴巴开源新闻时间线摘要生成系统:CHRONOS

GitHubStore  · 公众号  ·  · 2025-02-06 19:04

正文

项目简介

阿里巴巴开源的一个新闻时间线摘要生成系统:CHRONOS,给它一个话题,它能生成一份按时间顺序整理好的重要事件摘要 具备迭代式自我提问机制,可以自己提问,自动找答案,按时间顺序整理重要信息 支持开放域新闻时间线生成,不限特定领域 处理速度快,可以处理大量新闻


  • 我们提出了Chronos,这是一种 基于新颖的检索 时间线汇总方法(TLS),它通过 迭代提出有关该主题的问题 以及检索到的文档以生成时间顺序的摘要。

  • 我们 为开放域TLS构建一个最新数据集 ,该数据集在大小和时间表的持续时间内超过了现有的公共数据集。

  • 实验表明,我们的方法对开放域TLS有效,并通过最先进的封闭域TLS方法实现了可比的结果, 效率和可扩展性 有了显着提高。


⚗️开放数据集

我们发布了开放式TLS数据集以进行开放域时间轴汇总。


目标新闻查询在 news_keywords.py 中介绍,地面真相时间表在 data/open/{NEWS_KEYWORD}/timelines.jsonl 遵循以下格式:

[["YYY-MM-DDT00:00:00", ["", "", ""]]]

开放式TL的统计数据是:


🛠运行CHRONOS

1 依赖

pip install -r requirements.txt

2 为data/数据集构建一个主题问题示例池。

python question_exampler.py

或者,您可以使用我们提供的 data/question_examples.json ,其中包含 危机,T17和Open-TLS 数据集的示例。

3. 运行CHRONOS

我们发布了 CHRONOS ,以完成开放域时间表汇总任务。您也可以参考我们的ModelsCope Repo来构建具有 streamlit 应用程序。


Replacing Keys 更换密钥

在运行之前,请在 src/model.py 中用自己的API键替换占位符,以调用QWEN或GPT型号

DASHSCOPE_API_KEY = "YOUR_API_KEY"OPENAI_API_KEY = "YOUR_API_KEY"

还请在 src/searcher.py 中将其替换为您自己的Bing Web搜索API密钥,以从Internet搜索新闻。

BING_SEARCH_KEY = "YOUR_API_KEY"


运行脚本

要尝试使用open-TLS数据集,请运行:

python main.py \      --model_name "$model" \      --max_round "$round" \      --dataset open \      --output "$output_dir" \      --question_exs

其中 "$round" 是最大自我询问回合,而







请到「今天看啥」查看全文