项目简介
阿里巴巴开源的一个新闻时间线摘要生成系统:CHRONOS,给它一个话题,它能生成一份按时间顺序整理好的重要事件摘要
具备迭代式自我提问机制,可以自己提问,自动找答案,按时间顺序整理重要信息
支持开放域新闻时间线生成,不限特定领域
处理速度快,可以处理大量新闻
-
我们提出了Chronos,这是一种
基于新颖的检索
时间线汇总方法(TLS),它通过
迭代提出有关该主题的问题
以及检索到的文档以生成时间顺序的摘要。
-
我们
为开放域TLS构建一个最新数据集
,该数据集在大小和时间表的持续时间内超过了现有的公共数据集。
-
实验表明,我们的方法对开放域TLS有效,并通过最先进的封闭域TLS方法实现了可比的结果,
效率和可扩展性
有了显着提高。
⚗️开放数据集
我们发布了开放式TLS数据集以进行开放域时间轴汇总。
目标新闻查询在
news_keywords.py
中介绍,地面真相时间表在
data/open/{NEWS_KEYWORD}/timelines.jsonl
遵循以下格式:
[["YYY-MM-DDT00:00:00", ["", "", ""]]]
开放式TL的统计数据是:
🛠运行CHRONOS
1 依赖
pip install -r requirements.txt
2 为data/数据集构建一个主题问题示例池。
python question_exampler.py
或者,您可以使用我们提供的
data/question_examples.json
,其中包含
危机,T17和Open-TLS
数据集的示例。
3. 运行CHRONOS
我们发布了
CHRONOS
,以完成开放域时间表汇总任务。您也可以参考我们的ModelsCope Repo来构建具有
streamlit
应用程序。
Replacing Keys
更换密钥
在运行之前,请在
src/model.py
中用自己的API键替换占位符,以调用QWEN或GPT型号
DASHSCOPE_API_KEY = "YOUR_API_KEY"
OPENAI_API_KEY = "YOUR_API_KEY"
还请在
src/searcher.py
中将其替换为您自己的Bing Web搜索API密钥,以从Internet搜索新闻。
BING_SEARCH_KEY = "YOUR_API_KEY"
运行脚本
要尝试使用open-TLS数据集,请运行:
python main.py \
--model_name "$model" \
--max_round "$round" \
--dataset open \
--output "$output_dir" \
--question_exs
其中
"$round"
是最大自我询问回合,而