专栏名称: 将门创投

将门是一家专注于发掘及加速技术创新激活商业价值的创业公司的创投机构。将门旗下设有将门创新服务、将门技术社群以及将门投资基金。关注领域包括机器智能、物联网、自然人机交互、企业计算。

IJCAI 2024 | 教学视频理解新范式-大纲引导，哈工大提出教学视频数据集GUIDE

将门创投 · 公众号 · · 2024-07-31 08:22

主要观点总结

文章介绍了教学视频指导学习者完成多步骤任务的情况，指出目前教学视频数据集存在的问题，并介绍了GUIDE数据集的提出背景、内容以及优势。文章还详细介绍了GUIDE数据集的构建流程，包括视频收集、自动标注、人工优化等三个阶段。此外，文章还介绍了三个评估任务：Step Captioning、Guideline Summarization、Guideline-Guided Captioning，并进行了实验结果的分析。最后，介绍了投稿计划和相关细节。

关键观点总结

关键观点1: 教学视频指导学习多步骤任务的重要性及现状

文章指出教学视频在指导学习多步骤任务中的重要作用，如烹饪、化妆和刺绣等。目前的教学视频数据集大多关注细粒度标注，缺乏系统性，导致初学者难以学习。

关键观点2: GUIDE数据集的提出与优势

为了解决现有教学视频数据集的问题，文章提出了GUIDE数据集，该数据集包含日常生活相关的8个领域中560个教学任务的3.5K条视频。GUIDE数据集在现有视频维度之上提出教学任务维度上的大纲步骤，有助于学习者更好地理解和掌握教学任务。

关键观点3: GUIDE数据集的构建流程

文章详细介绍了GUIDE数据集的构建流程，包括视频收集、自动标注、人工优化等三个阶段。其中，自动标注阶段包含详细步骤生成和大纲步骤生成两个子阶段。

关键观点4: 三个评估任务的介绍与分析

文章介绍了三个评估任务：Step Captioning、Guideline Summarization、Guideline-Guided Captioning。并对实验结果进行了分析，发现模型的性能在不同任务上有所差异，大纲步骤的准确性直接影响详细步骤的生成效果。

关键观点5: 投稿计划及相关细节

文章最后介绍了TechBeat的原创投稿计划，包括投稿内容、须知、方式和关于将门的介绍。

正文

教学视频指导学习者如何完成多步骤任务，例如烹饪、化妆和刺绣、修理或制作新物品。如图1所示，目前的教学视频数据集大多关注于细粒度标注，缺乏系统性，导致初学者难以学习。在现实生活中，从属相同任务的教学视频之间大多存在很高的流程相似度，因此该工作提出了GUIDE（指南引导）数据集，在现有视频维度之上提出教学任务维度上的大纲步骤。数据集包含日常生活相关的8个领域中560个教学任务的3.5K条视频。此外，该工作提出了三个任务（Step Captioning，Guideline Summarization，Guideline-Guided Captioning）评估了多个模型的教学视频理解能力，实验结果表明GUIDE能够帮助大模型提升教学视频（程序性内容）理解能力。目前该工作已被IJCAI 2024接收。

论文名称：

GUIDE: A Guideline-Guided Dataset for Instructional Video Comprehension

论文链接：

https://arxiv.org/abs/2406.18227

项目主页：

https://guide-ijcai2024.github.io

图1：GUIDE数据集与以往数据集优势

一、数据集介绍

GUIDE包含的视频来源于快手视频库。如图2所示，GUIDE包含三类标注：

560个Task query：query代表一个教学任务查询，每个query平均包含6.2个相同教学任务视频。
15K个详细步骤（Specific Steps）：平均每个视频包含4.3个详细步骤，并带有相应的步骤时间戳。
560组大纲步骤（guideline steps）：每个教学任务包含一组代表任务通用模式的的教学大纲。此外每个大纲步骤链接一个或多个详细步骤。

图2：GUIDE数据集概览

该工作提出了一个三阶段数据集构建流程，收集高质量的标注。三阶段包括：

视频收集（人工）：从日常生活中最常见的8个领域中收集了大量的不同教学任务的视频，要求视频必须包含明确指导步骤且步骤间存在清晰定义时间边界。
自动标注（自动）：如图3所示，自动标注框架包含两个阶段： 详细步骤生成和大纲步骤生成 ，该阶段根据视频字幕自动标注详细步骤和大纲步骤。
人工优化（人工）：由每个领域专家调整大纲步骤，另外要求标注者观看视频并重新优化上一阶段自动生成的详细步骤，并标注步骤在视频中发生的时间戳。

图3：GUIDE自动标注流程

二、任务介绍

2.1 Step Captioning

该任务旨在评估模型理解单个教学视频中程序性内容的能力。输入一个视频，输出视频中的详细步骤。

2.2 Guideline Summarization

该任务旨在评估模型分析视频之间相关性的能力。输入多个从属于相同任务的视频（例如：制作巧克力慕斯），输出该任务的大纲步骤。

2.3 Guideline-Guided Captioning

该任务旨在评估模型在大纲引导下理解单个教学视频中程序性内容的能力。输入一个视频和该视频从属的大纲步骤，输出视频中的详细步骤。

三、实验

该工作测试了VideoChat、Video-LLaMA和mPLUG-Owl三个视频基础模型（VLM），以及GPT-3.5-turbo、GPT-4、Vicuna和Flan-T5四个语言模型（LLM）。对于VLM，仅将视频作为输入，而对于LLM，将视频转录文本作为输入。

如表1所示，通过观察Step Captioning任务测试结果，现有VLM在VSC（给定步骤对应的视频片段，生成步骤文本描述）上表现出比EVC（给定整个视频，生成一组步骤文本描述）更好的性能，这表明虽然模型可以理解特定步骤，但很难理解整个教学过程。

通过观察Guideline Summarization测试结果，可以看出现有基础模型很难挖掘多个教学视频之间的相关性。通过观察Guideline-Guided Captioning任务测试结果，可以发现模型的测试结果明显优于Step Captioning任务，可以证明大纲步骤指导详细步骤生成的有效性。

表1：在三个任务上的测试结果

此外，分别使用标注的大纲步骤和预测的大纲步骤来分别指导详细步骤的生成。结果如表2所示，可以看出大纲步骤的准确性直接影响详细步骤的生成效果。

表2：使用标注的大纲步骤和预测步骤的大纲来指导详细步骤的生成结果

作者：哈工大SCIR

来源：公众号【赛尔实验室】

llustration From IconScout By WOOBRO LTD

-The End-

扫码观看！

本周上新！

“AI技术流”原创投稿计划

TechBeat是由将门创投建立的AI学习社区（ www.techbeat.net ）。社区上线500+期talk视频，3000+篇技术干货文章，方向覆盖CV/NLP/ML/Robotis等；每月定期举办顶会及其他线上交流活动，不定期举办技术人线下聚会交流活动。我们正在努力成为AI人才喜爱的高质量、知识型交流平台，希望为AI人才打造更专业的服务和体验，加速并陪伴其成长。

投稿内容

// 最新技术解读/系统性知识分享 //

// 前沿资讯解说/心得经历讲述 //

投稿须知

稿件需要为原创文章，并标明作者信息。

我们会选择部分在深度技术解析及科研心得方向，对用户启发更大的文章，做原创性内容奖励

投稿方式

发送邮件到

[email protected]

或添加 工作人员微信（ chemn493 ） 投稿，沟通投稿详情；还可以关注“将门创投”公众号，后台回复“ 投稿 ”二字，获得投稿说明。