本文是对论文《MatchTime: Towards Automatic Soccer Game Commentary Generation》的解读。文章针对足球解说数据集中存在的视频文本时序不对齐问题,提出了构建精准足球比赛解说生成基准测试集SN-Caption-test-align的方法,并介绍了基于多模态时序对齐流水线构建高质量足球解说数据集MatchTime的过程。同时,文章介绍了使用MatchTime数据训练的足球解说生成模型MatchVoice,并进行了实验验证。最后,文章讨论了人工智能在体育领域的应用难点和未来发展。
针对当前足球解说数据集中普遍存在的视频文本时序不对齐问题,提出解决方案并构建精准足球比赛解说生成基准测试集SN-Caption-test-align。
基于对比学习结合视觉元素,利用手动标注的SN-Caption-test-align数据集进行时序对齐训练,实现粗粒度预处理和细粒度对齐,从而构建高质量的足球解说数据集MatchTime。
使用MatchTime数据集训练的足球解说生成模型MatchVoice,具有更丰富的语义描述、更全面的多事件涵盖、更准确的叙述以及对未来事件的预测等优越性能。
通过消融实验验证了MatchVoice模型在足球解说任务的先进性和有效性,同时展示了该模型产生的足球解说的实际效果。
讨论了人工智能在体育领域的应用难点,包括高质量数据的匮乏,以及未来体育职业化和大众化的摸索方向。同时提出了对AI体育领域的期望和对未来的企盼。
导读
本文是对发表于
EMNL
P 2024
的论文
《MatchTime: Towards Automatic Soccer Game Commentary Generation》
的解读。论文的共同第一作者为上海交通大学博士研究生饶珈源和上海交通大学博士研究生吴浩宁。
简述
针对当前已有足球解说数据集中普遍存在的
视频文本时序不对齐
问题,在此研究中,我们提出了三个贡献:
-
我们对部分比赛的解说时间戳进行手动标注,构建了一个精准的的足球比赛解说生成基准测试集
SN-Caption-test-align
。
-
在精标数据基础上,我们提出了一个多模态时序对齐流水线,实现对现有数据集自动校正和过滤,生成高质量的足球解说数据集
MatchTime
。
-
最
后,
在MatchTime优质数据的加持下,
我们训练了多模态足球解说模型型
MatchVoice
,实现了对足球比赛的更为精准解说生成。
图1. 现有的足球比赛解说数据集在视觉内容和文本解说之间包含几类关系:对齐 (绿色)、无法对齐 (橙色) 以及无法对应 (红色)
所有代码、数据集均已开源
Code: github.com/jyrao/MatchTime
Web: haoningwu3639.github.io/MatchTime
Data: huggingface.co/datasets/Homie0609/MatchTime
Demo: www.bilibili.com/video/BV1L4421U76m
足球解说生成:视频理解与足球数据结合
随着人工智能技术的迅猛发展,AI在体育领域的理解能力不断提升。以SoccerNet[1]系列工作为代表的足球数据集,汇集了数百场欧洲主流足球联赛的比赛,为足球比赛理解建立了较为完整的基准体系。本研究所涉及的SoccerNet-Caption数据集包含471场足球比赛重点事件的时间节点与解说词。大量视频与文本的精确对齐是多模态模型学习理解视频的基础,然而,该数据集内解说词的时间戳远远无法达到AI模型训练所需的精准水平 (如图2所示)。
图2. 原数据集49场比赛解说时间戳偏差直方分布图 (左)
解说模型应在对齐后测试集展现更好的Zero-shot表现 (右)
建立精确的足球评论数据集MatchTime
Stage 1: 基于LLM Agent的粗粒度预处理
由于SoccerNet-Caption数据集解说词聚焦于少量关键事件,因此并未充分利用比赛音频解说中所蕴含的丰富语义信息。在预处理阶段,我们采用以下步骤 (如图3a所示),利用比赛解说音频与大语言模型,实现粗粒度的时间对齐:
该方法利用大语言模型的推理能力,实现了对于大量解说音频的应用,生成了粗粒度对齐的时间戳。然而,由于解说音频存在碎片化叙述、缺乏视觉信息及语言表达方式差异等限制,这些时间戳仅作为预处理步骤,为下一阶段的细粒度对齐提供基础支持。
图3. 时间戳对齐流水线示意图:(a)基于LLM Agent的粗粒度预处理 (b)基于对比学习的细粒度对齐。
Stage 2: 基于对比学习的细粒度对齐
我们基于对比学习 (Contrastive Learning) 结合视觉元素,利用手动标注的SN-Caption-test-align数据集进行时序对齐训练 (
如图3b所示)
。按照如下步骤进行细粒度对齐:
该对比学习模型的学习目的是最大化
解说词
文本
其与对应图像的特征的相似度,从而加强模型基于文本特征选取视频中对应帧的能力。该步骤得到含有对齐后时间戳的解说词数据集MatchTime,作为后续解说模型训练与验证的数据集。
足球解说自动生成模型MatchVoice
图4. MatchVoice架构示意图:(a)MatchVoice总体框架 (b)聚合模块内部框架
该工作中多模态模型使用提示微调 (Prompt Tuning) 方式进行训练,使用了以Q-former结构为基础的聚合模块连接视觉编码器与大语言模型,该模型结构框架如图4所示,主要分为以下几个部分:
该模型使用推理过程中各个令牌位置在词库中的预测概率分布的交叉熵作为损失函数,不断进行提示微调训练聚合模块,从而搭建视频模态与文本模态之间轻量化的桥梁,实现从足球视频到足球解说的推理过程。
实验
对齐流水线消融实验
图5. 对齐流水线
消融实验 (
左) 对齐模型使用案例 (右)
为验证对齐流水线的合理性,本研究从SN-Caption-test-align中选出4场比赛作为测试集 (292段解说样本),测试预处理对齐和细粒度对齐的效果。结果表明 (如图5所示),在依照我们提出的对齐流水线操作过后,时间戳的平均偏差从
10.21秒
降至
0.03秒
,平均偏差绝对值从
13.89秒
降至
6.89秒
。且此方法对齐后的时间戳在正确值周边各个窗口尺寸的比例均为最高值。
视觉编码器 & 解说模型消融实验
由于MatchVoice模型和现有足球解说模型 (SN-Caption) 中的聚合模块适用于任何尺寸的视频特征,本研究围绕几种不同的视觉编码器进行训练效果测试。我们采用了传统的语言评估模型 (BLEU, METEOR, ROUGE-L, CIDEr) 以及使用GPT-3.5模型进行评分的几类指标,对于不同视觉编码器和不同解说模型的训练效果进行消融实验:
表1中消融实验结果表明,我们的模型MatchVoice在几乎全部视频解码器的测试表现均好于基于LSTM的SN-Caption模型。在几种不同的视觉编码器中,经过足球视频分类预训练的baidu视觉编码器[3]均能呈现几近最好的效果。上述消融实验体现了MatchVoice模型在足球解说任务的先进性,在各项指标上超越现有最佳足球解说模型。
图6. 不同解说模型解说案例
一些样例 (如图6所示) 也展现了此模型所产出的足球解说具有更丰富的语义描述、对多事件更全面的涵盖、更准确的叙述以及对未来事件的预测等优越性能。
实现效果
基于对齐后的数据集MatchTime与本研究中的MatchVoice解说模型,下方图7中展示了更多对于职业足球比赛内容精准解读的案例。