专栏名称: 深度学习自然语言处理

一个从大三就接触NLP的小小NLPer，本公众号每天记录自己的一点一滴，每篇文章最后也有托福单词等新知识，学技术同时，也一点一滴积累额外的知识。期待与你在知识的殿堂与你相遇！

EMNLP 2024 | MatchTime - 足球比赛AI解说新基线

深度学习自然语言处理 · 公众号 · 科技自媒体体育 · 2024-09-24 22:26

主要观点总结

本文是对论文《MatchTime: Towards Automatic Soccer Game Commentary Generation》的解读。文章针对足球解说数据集中存在的视频文本时序不对齐问题，提出了构建精准足球比赛解说生成基准测试集SN-Caption-test-align的方法，并介绍了基于多模态时序对齐流水线构建高质量足球解说数据集MatchTime的过程。同时，文章介绍了使用MatchTime数据训练的足球解说生成模型MatchVoice，并进行了实验验证。最后，文章讨论了人工智能在体育领域的应用难点和未来发展。

关键观点总结

关键观点1: 论文的背景和目的

针对当前足球解说数据集中普遍存在的视频文本时序不对齐问题，提出解决方案并构建精准足球比赛解说生成基准测试集SN-Caption-test-align。

关键观点2: 多模态时序对齐流水线的构建

基于对比学习结合视觉元素，利用手动标注的SN-Caption-test-align数据集进行时序对齐训练，实现粗粒度预处理和细粒度对齐，从而构建高质量的足球解说数据集MatchTime。

关键观点3: 足球解说自动生成模型MatchVoice的介绍

使用MatchTime数据集训练的足球解说生成模型MatchVoice，具有更丰富的语义描述、更全面的多事件涵盖、更准确的叙述以及对未来事件的预测等优越性能。

关键观点4: 实验验证

通过消融实验验证了MatchVoice模型在足球解说任务的先进性和有效性，同时展示了该模型产生的足球解说的实际效果。

关键观点5: 人工智能在体育领域的应用难点和未来发展

讨论了人工智能在体育领域的应用难点，包括高质量数据的匮乏，以及未来体育职业化和大众化的摸索方向。同时提出了对AI体育领域的期望和对未来的企盼。

正文

导读

本文是对发表于 EMNL P 2024 的论文 《MatchTime: Towards Automatic Soccer Game Commentary Generation》 的解读。论文的共同第一作者为上海交通大学博士研究生饶珈源和上海交通大学博士研究生吴浩宁。

简述

针对当前已有足球解说数据集中普遍存在的 视频文本时序不对齐 问题，在此研究中，我们提出了三个贡献：

我们对部分比赛的解说时间戳进行手动标注，构建了一个精准的的足球比赛解说生成基准测试集 SN-Caption-test-align 。
在精标数据基础上，我们提出了一个多模态时序对齐流水线，实现对现有数据集自动校正和过滤，生成高质量的足球解说数据集 MatchTime 。
最后，在MatchTime优质数据的加持下，我们训练了多模态足球解说模型型 MatchVoice ，实现了对足球比赛的更为精准解说生成。

图1. 现有的足球比赛解说数据集在视觉内容和文本解说之间包含几类关系：对齐 (绿色)、无法对齐 (橙色) 以及无法对应 (红色)

所有代码、数据集均已开源

Code: github.com/jyrao/MatchTime

Web: haoningwu3639.github.io/MatchTime

Data: huggingface.co/datasets/Homie0609/MatchTime

Demo: www.bilibili.com/video/BV1L4421U76m

足球解说生成：视频理解与足球数据结合

随着人工智能技术的迅猛发展，AI在体育领域的理解能力不断提升。以SoccerNet[1]系列工作为代表的足球数据集，汇集了数百场欧洲主流足球联赛的比赛，为足球比赛理解建立了较为完整的基准体系。本研究所涉及的SoccerNet-Caption数据集包含471场足球比赛重点事件的时间节点与解说词。大量视频与文本的精确对齐是多模态模型学习理解视频的基础，然而，该数据集内解说词的时间戳远远无法达到AI模型训练所需的精准水平 (如图2所示)。

图2. 原数据集49场比赛解说时间戳偏差直方分布图 (左) 解说模型应在对齐后测试集展现更好的Zero-shot表现 (右)

建立精确的足球评论数据集MatchTime

Stage 1: 基于LLM Agent的粗粒度预处理

由于SoccerNet-Caption数据集解说词聚焦于少量关键事件，因此并未充分利用比赛音频解说中所蕴含的丰富语义信息。在预处理阶段，我们采用以下步骤 (如图3a所示)，利用比赛解说音频与大语言模型，实现粗粒度的时间对齐：

音频文本提取与翻译： 使用WhisperX[2]模型对比赛音频进行提取，得到带有秒级时间戳的音频文本 (Narration-text)，并将其统一翻译为英文，其内部包含了当场解说嘉宾对于全场比赛的评述；
事件描述总结： 使用 LLaMA-3 (8B) 模型，以10秒为单位对音频文本进行总结，提取语义信息更集中、句式更规整的事件描述 (Event-Description)； ‍‍
粗粒度时间戳对齐： 继续使用 LLaMA-3 (8B) 模型，结合每条 SoccerNet-Caption 中的解说词及其时间戳附近的事件描述，进行初步判断，生成粗粒度对齐的时间戳 (Coarse-Aligned Timestamp)。

该方法利用大语言模型的推理能力，实现了对于大量解说音频的应用，生成了粗粒度对齐的时间戳。然而，由于解说音频存在碎片化叙述、缺乏视觉信息及语言表达方式差异等限制，这些时间戳仅作为预处理步骤，为下一阶段的细粒度对齐提供基础支持。

图3. 时间戳对齐流水线示意图：(a)基于LLM Agent的粗粒度预处理 (b)基于对比学习的细粒度对齐。

Stage 2: 基于对比学习的细粒度对齐

我们基于对比学习 (Contrastive Learning) 结合视觉元素，利用手动标注的SN-Caption-test-align数据集进行时序对齐训练 ( 如图3b所示）。按照如下步骤进行细粒度对齐：

图文特征编码： 使用冻结的CLIP(ViT B-32)编码器以及可训练的多层感知器 (MLP) 编码器对每个粗粒度对齐时间戳 (Coarse-Aligned Timestamp) 周围的视频图像及解说词文本进行特征编码。
特征相似度筛取： 计算解说文本特征与全部视频图像文本的相似度，选取相似度最高的一帧所在时间戳作为细粒度对齐时间戳 (Fine-grained Aligned Timestamp)，收入MatchTime数据集中。

‍ 该对比学习模型的学习目的是最大化解说词文本其与对应图像的特征的相似度，从而加强模型基于文本特征选取视频中对应帧的能力。该步骤得到含有对齐后时间戳的解说词数据集MatchTime，作为后续解说模型训练与验证的数据集。

足球解说自动生成模型MatchVoice

图4. MatchVoice架构示意图：(a)MatchVoice总体框架 (b)聚合模块内部框架

该工作中多模态模型使用提示微调 (Prompt Tuning) 方式进行训练，使用了以Q-former结构为基础的聚合模块连接视觉编码器与大语言模型，该模型结构框架如图4所示，主要分为以下几个部分：

视觉编码器 (Visual Encoder)： 用于对足球比赛视频片段进行特定帧率的图像采样和编码，提取视频的视觉特征；
聚合模块 (Aggregator & MLP)： 为图片特征序列加入时序信息后，在可学习序列（Learnable Queries）的作用下，依次经过多层自注意力、交叉注意力、前馈板块，得到与大语言模型前缀相同尺寸的张量；
大语言模型解码器 (LLM Decoder)： 将上述步骤得到的前缀张量放入大语言模型进行自回归推理，得到最终的解说文本，此处所使用的是 LLaMA-3 (8B) 模型。

该模型使用推理过程中各个令牌位置在词库中的预测概率分布的交叉熵作为损失函数，不断进行提示微调训练聚合模块，从而搭建视频模态与文本模态之间轻量化的桥梁，实现从足球视频到足球解说的推理过程。

实验

对齐流水线消融实验

图5. 对齐流水线消融实验 ( 左) 对齐模型使用案例 (右)

为验证对齐流水线的合理性，本研究从SN-Caption-test-align中选出4场比赛作为测试集 (292段解说样本)，测试预处理对齐和细粒度对齐的效果。结果表明 (如图5所示），在依照我们提出的对齐流水线操作过后，时间戳的平均偏差从 10.21秒 降至 0.03秒 ，平均偏差绝对值从 13.89秒 降至 6.89秒 。且此方法对齐后的时间戳在正确值周边各个窗口尺寸的比例均为最高值。

视觉编码器 & 解说模型消融实验

由于MatchVoice模型和现有足球解说模型 (SN-Caption) 中的聚合模块适用于任何尺寸的视频特征，本研究围绕几种不同的视觉编码器进行训练效果测试。我们采用了传统的语言评估模型 (BLEU, METEOR, ROUGE-L, CIDEr) 以及使用GPT-3.5模型进行评分的几类指标，对于不同视觉编码器和不同解说模型的训练效果进行消融实验：

表1. 视觉编码器、数据集、解说模型消融实验

表1中消融实验结果表明，我们的模型MatchVoice在几乎全部视频解码器的测试表现均好于基于LSTM的SN-Caption模型。在几种不同的视觉编码器中，经过足球视频分类预训练的baidu视觉编码器[3]均能呈现几近最好的效果。上述消融实验体现了MatchVoice模型在足球解说任务的先进性，在各项指标上超越现有最佳足球解说模型。

图6. 不同解说模型解说案例

一些样例 (如图6所示) 也展现了此模型所产出的足球解说具有更丰富的语义描述、对多事件更全面的涵盖、更准确的叙述以及对未来事件的预测等优越性能。

实现效果

基于对齐后的数据集MatchTime与本研究中的MatchVoice解说模型，下方图7中展示了更多对于职业足球比赛内容精准解读的案例。