专栏名称: FightingCV
一个专注于分享计算机视觉、多模态机器学习方向前沿论文,解答常见科研问题,分享好用科研工具的公众号。努力努力再努力,瑞思拜!
目录
相关文章推荐
哔哩哔哩  ·  高中生随便出手,做了个折叠手机? ·  3 天前  
哔哩哔哩  ·  五毛特效拍哪吒,我的笑点和泪点在打架 ·  3 天前  
哔哩哔哩  ·  30岁母单和25岁早婚,婚恋观差别有多大? ·  3 天前  
哔哩哔哩  ·  被章子怡轰下台,他犯了哪些面试大忌 ·  4 天前  
51好读  ›  专栏  ›  FightingCV

Video-ChatGPT:通过大型视觉语言模型实现详细的视频理解

FightingCV  · 公众号  ·  · 2024-11-03 09:00

正文

摘要

由大型语言模型(大语言模型)推动的对话代理正在提供一种与视觉数据交互的新方式。 虽然已经有一些基于图像的对话模型的初步尝试,但本文通过介绍 Video-ChatGPT 来解决 基于视频的对话 这一未被充分探索的领域。 它是一个多模态模型,将一个视频适应的视觉编码器与一个 LLM 相结合。 生成的模型能够理解并生成有关视频的详细对话。 我们引入了一个包含 100,000 个视频指令对的新数据集,用于训练通过手动和半自动管道获取的 Video-ChatGPT,该数据集易于扩展且对标签噪声具有鲁棒性。 我们还为基于视频的对话模型开发了一个定量评估框架,以客观地分析基于视频的对话模型的优缺点。 代码:https://github.com/mbzuai-oryx/Video-ChatGPT. 1

1 简介

用于视频理解的深度学习应用的激增导致了视频相关任务的重大进步。 然而,当前的视频理解模型仍然无法以连贯的方式就视频内容进行开放式对话。 基于视频的对话模型可以彻底改变视频搜索、监控操作,并帮助总结关键事件和异常事件检测。 最重要的是,它可以为视频相关任务(例如动作识别、定位、检测、分割、检索和跟踪)提供统一的人类可理解的界面。 此外,这种功能非常令人感兴趣,因为它将展示模型编码时间和空间线索、上下文关系和长期依赖性的能力。

最近在多模态理解方面的进展很大程度上基于预训练的 图像 模型与大型语言模型 (LLM) 的结合,但通常不考虑视频输入 Liu 等人 (2023);Zhu 等人 (2023);Li 等人 (2022, 2023a);Dai 等人 (2023) 因此,利用大语言模型的强大功能来处理视频理解任务是很有趣的,这种方式不仅可以保持时间和空间特征,而且还擅长生成关于视频的类似人类的对话。 在本文中,我们介绍了 Video-ChatGPT,这是一种新颖的多模态模型,它融合了预训练视觉编码器的表示能力和大语言模型的生成能力,能够理解和对话视频。

Video-ChatGPT 利用一个适应的 LLM Liu 等人 (2023) ,该模型将 CLIP 的视觉编码器 Radford 等人 (2021) 与 Vicuna Chiang 等人 (2023) 整合为语言解码器,并在生成的指令图像-文本对上进行了微调。 我们的方法进一步适应了时空视频建模的设计,并在视频-指令数据上对模型进行了微调,以捕捉视频数据中可用的时间动态和帧间一致性关系。 与其他针对基于视频的对话的并发工作 Li 等人 (2023b);Zhang 等人 (2023);Su 等人 (2023) 相比,Video-ChatGPT 在时间理解、空间一致性和上下文理解方面表现出色,正如我们广泛的评估所证明的那样。

这项工作的一个基本贡献是结合使用人工辅助和半自动标注方法创建了包含 100,000 个视频指令对的数据集。 每对都包含一个视频及其以问答形式呈现的相关说明。 这为 Video-ChatGPT 提供了可供学习的大型且多样化的数据集,增强了其对视频特定的理解、对时间关系和对话功能的关注。

此外,我们引入了第一个用于基准测试的定量视频对话评估框架,可以更准确地评估视频对话模型的性能。 该框架评估模型的各种功能,例如信息的正确性、细节导向、上下文理解、时间理解和一致性。

这项工作的贡献如下:

  • 我们提出了 Video-ChatGPT,这是一种视频对话模型,能够生成有关视频的有意义的对话。 它将大语言模型的功能与适用于时空视频表示的预训练视觉编码器相结合。

  • 我们引入了 100,000 个高质量视频指令对以及新颖的标注框架,该框架可扩展并生成各种视频特定指令集。

  • 我们开发了第一个定量视频对话评估框架,用于对视频对话模型进行基准测试。 我们证明了 Video-ChatGPT 与针对视频的并发对话引擎(如 Video Chat Li 等人 (2023b) )相比表现良好。

2 相关工作

视觉语言模型: 由于许多基础视觉语言模型的发展,计算机视觉领域最近取得了重大进展。 这些模型代表着朝着创建能够同时处理各种任务的通用视觉模型迈出的重要一步 Radford 等人 (2021);等人 (2022);Gupta 等人 (2022);Maaz 等人 (2022) 一个典型的例子是 CLIP Radford 等人 (2021) ,它是在 4 亿个图像-文本对上训练的,并在许多基准测试中展示了令人印象深刻的零样本性能。 它已应用于各种下游应用,从基于图像的目标检测和分割 Rasheed 等人 (2022);Liang 等人 (2023) 到 3D 应用 Rozenberszki 等人 (2022);Ni 等人 (2022) 也已经进行了许多尝试将 CLIP 适应到视频应用程序中 Wang 等人(2021);Ni 等人(2022) 与我们的设计类似,ViFi-CLIP Rasheed 等人(2023) 建议在视频帧中使用时间池化来适应基于图像的 CLIP 模型以用于基于视频的任务。

大型语言模型: 随着预训练的大语言模型(LLM)的出现,例如 GPT Brown 等人(2020) 、LLaMA Touvron 等人(2023) 、OPT Zhang 等人(2022) 和 MOSS OpenLMLab(2023) ,自然语言处理领域发生了范式转变。 这些模型表现出非凡的能力,例如语言生成和上下文学习,并且它们以零样本方式理解用户提示的复杂任务的能力反映了它们令人印象深刻的适应性和泛化能力。 大语言模型经过验证的能力鼓励研究人员对其进行训练,以最大限度地提高他们的熟练程度。

这一追求的一个关键策略是指令调整。 这种方法侧重于提高模型与用户意图的一致性并优化其输出质量。 例如,InstructGPT Ouyang 等人(2022) 和 ChatGPT OpenAI(2023) 从这项技术中受益匪浅,展示了在各种对话交互能力方面的改进以及它们对回答各种复杂问题的适应能力。 这种有效的方法最近已应用于 Alpaca Taori 等人(2023) 和 Vicuna Chiang 等人(2023) 等开源模型,这两个模型都是使用 LLaMA Touvron 等人(2023) 框架开发的,导致性能有所提高。

视觉语言任务预训练大语言模型: 多模态理解的最新进展主要是由基于图像的视觉模型与大语言模型的集成推动的。 Flamingo 等人 (2022) 和 BLIP-2 Li 等人 (2023a) 等开创性贡献证明了利用网络规模的图像-文本数据以及跨模态对齐的开创性技术在对话和少样本学习环境中展现动态能力的强大力量。 在此基础上,MiniGPT-4 Zhu 等人(2023) 通过整合 BLIP-2 和 Vicuna 实现基于图像的对话,从而实现零样本图像理解。

同样重要的是 LLaVA Liu 等人(2023) 的出现,这是一个从 LLaMa 架构衍生出来的模型,它利用 GPT-4 的语言能力生成多模态指令遵循数据。 通过对派生数据应用指令调整,LLaVA 显示了有趣的多模式聊天功能,暗示了这种方法的可扩展性潜力。 此外,InstructBLIP Dai 等人(2023) 通过在指令感知的视觉特征提取方面进行创新,通过视觉-语言指令微调展示了强大的基于图像的对话能力。

与我们的工作更密切相关的是 VideoChat Li 等人 (2023b) ,它使用视频基础模型的精选组件 Wang 等人 (2022) 和图像基础模型 Li 等人 (2023a) ,并将它们与 LLM Chiang 等人 (2023) 相结合,并结合少量可学习层,使用两阶段轻量级训练进行微调。 此外,他们使用现成的视觉-语言模型 Wu 等人(2022);Li 等人 (2023a);Huang 等人 (2023);Wang 等人 (2022) 为生成嘈杂的详细文本描述构建了一个特定于视频的数据集,以增强以视频为中心的对话模型的训练。

与 VideoChat 不同,我们提出了一种新颖的人工辅助和半自动标注框架,用于为视频生成高质量的指令数据。 我们简单且可扩展的体系结构设计利用预训练的 CLIP Radford 等人 (2021) 生成时空特征,这些特征有助于 Video-ChatGPT 生成有意义的视频对话。 此外,我们是第一个提出用于评估视频对话任务的定量框架的人(有关更多详细信息,请参阅“视频指令数据生成”部分)。

图 1: 视频聊天GPT 的架构。 Video-ChatGPT 利用 CLIP-L/14 视觉编码器来提取空间和时间视频特征。 这是通过分别在时间和空间维度上平均帧级特征来实现的。 然后,计算出的时空特征被输入到可学习的线性层中,该线性层将它们投影到大语言模型输入空间中。 在我们的方法中,我们使用了具有 70 亿个参数的 Vicuna-v1.1 模型,并使用来自 LLaVA Liu 等人 (2023) 的权重对其进行初始化。

3 视频聊天GPT

Video-ChatGPT 是一个大型视觉语言模型,它将视频表示与大型语言模型(大语言模型)结合起来,从而增强了其生成有意义的视频对话的能力。 我们的方法借鉴了为视频领域设计视觉语言(VL)模型所采用的方法。 鉴于视频-字幕对的可用性有限,以及从头开始在这些数据上进行训练所需的资源相当多,这些模型通常会采用预训练的基于图像的 VL 模型来完成视频任务 Ni 等人 (2022);Wang 等人 (2021);Rasheed 等人 (2023) 我们采用类似的方法,以 Language-aligned Large Vision Assistant (LLaVA) Liu 等人 (2023) 作为我们的基础。

LLaVA 是一个 LMM,它将 CLIP Radford 等人 (2021) 的视觉编码器与 Vicuna 语言解码器 Chiang 等人 (2023) 整合在一起,并在生成的指令视觉语言数据上进行端到端微调。 我们使用视频指令数据来构建这个模型,使其适应视频对话任务。 在我们提出的指令生成设置中,视频指令数据是作为手动和自动管道的组合获得的。 这种对视频特定指令的适应允许适应视频数据中存在的附加时间动态、帧到帧一致性和远程关系。 因此,我们的 Video-ChatGPT 在视频推理、创造力以及对视频中空间、时间和面向动作的组件的理解方面表现出色。

3.1 架构

我们使用 CLIP ViT-L/14 作为视觉编码器,它是在 LLaVa 中使用大规模视觉指令调整进行预训练的。 然而,LLaVa 视觉编码器适用于图像,我们对其进行修改以捕获视频中的时空表示。 给定具有 T 帧的视频样本 V i T × H × W × C ,视觉编码器生成时间和空间特征。 视觉编码器将 T 帧独立编码为一批图像,并生成帧级嵌入 x i T × h × w × D ,其中 h = H / p , w = W / p 这里 p 是补丁大小( ViT-L/14 为 14),我们将标记数量表示为 N ,其中 N = h × w 帧级嵌入沿着空间维度进行平均池化,以获得 视频级时间表示 t i T × D 此操作通过聚合多个帧隐式地包含了时间学习。 同样,帧级嵌入沿着时间维度进行平均池化,以产生 视频级空间表示 z i N × D 将时间和空间特征串联起来得到视频级特征 v i



一个简单的可训练线性层 g ,将这些视频级特征投影到语言解码器的嵌入空间中,将它们转换为相应的语言嵌入标记 Q v



请注意,函数 g 充当适配器,也可以使用更复杂的架构来实现。 然而,我们选择了一种简单的设计,与我们实验中更复杂的选择相比,它能提供具有竞争力的性能。 文本查询被标记为相同的维度, Q t L × K 这里 L 表示文本查询的长度。 最后, Q v Q t 连接并输入到语言解码器。

图 2: 通过人工辅助标注进行数据丰富示例 人类注释者从视频字幕数据集中增强视频描述。 字幕通过整合有关空间和时间方面、对象关系、推理、场景描述以及事件时间顺序的详细信息而得到丰富。

3.2 视频指令调试

我们利用大语言模型原始的自回归训练目标,对预测标记进行指令调整。 预训练模型通过精心策划的高质量视频文本对进行微调。 在微调阶段,我们使用基于以下模板的预定义提示:

用户:<指令> <视频 Token > 助理:

使用符号,我们可以将其表示为,

用户:< Q t > < Q v > 助理:

在该提示中, <指令> 代表一个与视频有关的问题,该问题是从视频-问题-答案对的训练集中随机抽取的。 问题可以是一般性的,要求描述视频,也可以涉及视频内容的特定时间、空间或创意方面。 预测答案 与所提具体问题相对应。 在整个训练过程中,视频编码器和大语言模型的权重保持冻结,并且模型通过调整线性层来最大化预测代表答案的标记的可能性。 因此,视频特征 Q v 与预先训练的大语言模型词嵌入保持一致,使 Video-ChatGPT 能够产生更自然、更可靠的响应。

4 视频指令数据生成

在本节中,我们讨论以数据为中心的方法,该方法使用人工辅助和半自动标注方法来生成高质量的视频教学数据。 这些数据对于训练 Video-ChatGPT 至关重要,可确保准确且有意义的响应。 我们的数据收集涉及两种关键方法。 人工辅助标注 需要专家注释者分析视频内容并提供详细描述。 这个过程会生成丰富的上下文和细节的数据,这有助于我们的模型理解视频内容的复杂方面。 另一方面, 半自动标注框架 更具成本效益和可扩展性。 该方法利用最先进的视觉语言模型,生成广泛的、大量的注释,从而在不显着影响质量的情况下增加数据量。 通过这些组合方法,我们已成功积累了 100,000 个视频指令对的强大数据集。 这个广泛的数据集对于微调我们的模型以有效理解视频内容、将空间和时间线索整合到其理解中至关重要。

我们的教学数据既多样化又全面,包含多种数据类型。 其中包括详细描述、总结、问答对、激发创造力或产生新想法的任务以及对话任务。 这些数据涵盖了广泛的概念,从视觉外观和时间关系到复杂的推理任务等等,为我们的模型学习提供了多样化的训练基础。

图 3: 使用我们提出的半自动标注管道生成指令数据示例。 我们采用现成的密集预测和字幕模型来增强视频描述。 BLIP-v2 Li 等人 (2023a) 生成帧级字幕,而 GRIT Wu 等人 (2022) 用于密集帧字幕。 Tag2Text 黄等(2023) 为每个关键帧生成标签,有助于消除噪声(例如,包含 花卉图案 打电话 的 GRiT 描述将被丢弃,因为没有检测到相应的标签)。 最后,我们使用上下文示例查询 GPT-3.5 以生成视频指令数据。

图 4: 使用我们提出的半自动标注进行数据丰富的示例。 我们使用现成的密集预测和字幕模型 李等(2023a);吴等(2022);黄等(2023) 来增强视频描述。 所有附加上下文元素均与视频字幕相结合,并经过 GPT 辅助的后处理阶段,生成最终的详细描述。

4.1 人工辅助标注

在此过程中,我们利用包含视频字幕对的数据集,并利用人类注释者的专业知识来丰富原始的地面实况注释。 具体来说,我们使用 ActivityNet-200 的一个子集 法比安·卡巴·海尔布隆和尼布尔斯(2015) ,它提供对不同视频片段中各种活动的简洁真实描述。

注释者通过添加有关物理外观、时空定位以及其他关键上下文细节的综合信息,进一步丰富了字幕。 2 显示了如何使用人工辅助标注来丰富真实字幕的示例。

4.2 半自动标注框架

除了丰富的人工辅助注释之外,我们还利用先进的密集图像视觉语言模型的功能,开发半自动标注框架。 这种方法具有成本效益且可扩展,从而在不显着影响质量的情况下增加数据数量。

与人工辅助过程类似,该框架也利用包含视频字幕对的数据集。 我们使用从现成的密集预测和基于图像的字幕视觉语言模型中提取的上下文信息来丰富这些数据集。 这些模型提供的预测可以提供额外的上下文信息,从而丰富视频字幕。 我们开发了一种综合方法,将这些预测结合起来,并利用特定模型来消除数据中的噪声或不相关内容。 这确保了数据保持其准确性和相关性。

在使用现成模型的基础上,我们应用了 BLIP-2 李等(2023a) 和 GRiT 吴等(2022) 等预训练模型来进行视频的关键帧分析。 BLIP-2 图像字幕模型生成帧级字幕,而 GRiT 密集字幕模型则为场景对象提供详细字幕。 此外,预训练的 Tag2Text 黄等(2023) 模型用于为视频的每个关键帧生成标签。 尽管它们很实用,但这些模型可能会给数据带来噪音。

为了确保高质量的数据并减少噪音,我们实施了三个关键步骤。 首先, 我们对所有现成模型保持较高的预测阈值,以保持准确性。 其次, 我们采用专门的过滤机制,删除与 Tag2Text 帧级标签不匹配的 BLIP-2 或 GRiT 中的任何帧级字幕。 此过程涉及从帧级字幕中提取在预定义的 Tag2Text 标签词汇表中的词语,并删除包含不在给定帧的标签中的词语的任何字幕。 这种策略充当额外的过滤层,并通过整合多个模型的预测来丰富字幕。

第三 步中,我们合并帧级字幕,并使用 GPT-3.5 模型生成单个连贯的视频级字幕。 此步骤使用这些模型的上下文来增强原始的地面实况标题。 我们还指示 GPT-3.5 丢弃跨帧的不一致信息,确保精确、上下文丰富的视频指令数据集。 3 4 说明了在所有三个细化阶段之后,如何使用此过程来丰富真实字幕,以生成指令数据和详细的描述性字幕。 我们设计的所有用于上下文学习的提示以及精选的数据集将公开发布。

4.3 GPT 辅助后处理

最后,我们实施了一种 GPT 辅助的后处理机制,以完善和优化丰富的标注,从而生成高质量的视频教学数据。 我们提示 GPT-3.5 模型从丰富的详细字幕中创建问答对,这些字幕涵盖了使用上下文学习的各种方面。 这些方面包括详细描述、总结、问答对、激发创造力或产生新想法的任务以及会话任务。

这些元素中的每一个都在我们以数据为中心的方法中发挥着至关重要的作用。 我们的最终目标是创建一个基于视频的对话模型,该模型准确,能够从空间和时间线索理解视频内容,并善于参与对话。

5 实验

Evaluation Aspect Video Chat LLaMA Adapter Video-LLaMA Video-ChatGPT
Correctness of Information 2.23 2.03 1.96 2.40
Detail Orientation 2.50 2.32 2.18 2.52
Contextual Understanding 2.53 2.30 2.16 2.62
Temporal Understanding 1.94 1.98 1.82 1.98
Consistency 2.24 2.15 1.79 2.37


表 1: 文本生成模型的性能基准测试。 Video-ChatGPT 和 Video Chat Li 等人(2023b) 的深入比较分析,涵盖了我们在基准测试中提出的五个关键评估方面。 为了进行公平比较,所有模型都使用了 7B 变体。 Video-ChatGPT 在所有关键方面都表现出了出色的性能。

Model MSVD-QA MSRVTT-QA TGIF-QA Activity Net-QA

Accuracy Score Accuracy Score Accuracy Score Accuracy Score
FrozenBiLM 32.2 16.8 41.0 24.7
Video Chat 56.3 2.8 45.0 2.5 34.4 2.3 26.5 2.2
LLaMA Adapter 54.9 3.1 43.8 2.7 - - 34.2 2.7
Video LLaMA 51.6 2.5 29.6 1.8 - - 12.4 1.1
Video-ChatGPT 64.9 3.3 49.3 2.8 51.4 3.0 35.2 2.8


表 2: 零样本问答 比较 Video-ChatGPT 与其他视频生成模型。 为了进行公平比较,所有模型都使用了 7B 变体。 Video-ChatGPT 在所有数据集上的表现都具有竞争力。

5.1 实施细节

我们使用 LLaVA Liu 等人(2023) 作为我们的基线模型,并在我们的 100,000 个视频指令对上对其进行微调。 我们只更新将视频特征投影到大语言模型输入空间的线性层,而架构的其余部分保持冻结。 我们使用 2 e 5 的学习率和 32 的总体批量大小对模型进行 3 个时期的微调。 我们在所有实验中使用 7B 参数模型,其训练在大约 8 个 A100 40GB GPU 上进行了大约 3 个小时。 在推理过程中,为了提高内存效率,我们以 FP16 模式加载模型。

在我们的半自动标注框架中,我们使用 Katna KeplerLab (2019) 来提取视频关键帧。 对于现成的 Tag2Text Huang 等人(2023) 模型,我们使用 Swin-B 变体,输入大小为 384 × 384,置信度阈值为 0.7。 对于 GRIT Wu 等人(2022) ,我们使用带有 CenterNet2 Zhou 等人(2021) 的 ViT-B 版本。

5.2 定量评价

在本节中,我们强调我们工作的一个关键贡献:使用高级指标对 Video-ChatGPT 进行定量评估,并与现有最先进模型进行比较评估。 我们进行两种类型的定量评估:i)基于视频的生成性能基准测试和 ii)零样本问答评估。

基于视频的文本生成性能基准测试: 我们引入了一个基准来评估基于视频的对话模型的文本生成性能。 为此,我们根据 ActivityNet-200 数据集 Fabian Caba Heilbron 和 Niebles (2015) 策划了一个测试集,该数据集包含具有丰富、密集描述字幕和来自人工标注的关联问答对的视频。 我们还使用 GPT-3.5 模型开发了一个评估管道。 该管道评估模型的各种功能,并在以下五个方面为生成的预测分配 1-5 级的相对分数:

  1. (我)

    信息的正确性: 我们验证了生成文本的准确性,确保它与视频内容一致,不会误解或误导。

  2. (二)

    细节导向: 我们评估模型响应的深度,寻找完整性(这意味着模型的响应涵盖视频中的所有主要点)和特异性(表示模型响应中包含特定细节而不仅仅是通用点)。

  3. (三)

    上下文理解: 我们评估了模型对视频上下文的理解,检查其响应是否与视频内容的总体上下文一致。

  4. (四)

    时间理解: 我们在回答问题时检查模型对视频中事件时间顺序的掌握。

  5. (五)

    一致性: 我们评估模型在不同但相似的问题或视频不同部分的一致性。

我们使用表 1 中的定量基准框架展示了我们提出的模型 Video-ChatGPT 的评估结果。 结果表明,与最近推出的当代视频对话模型相比,它在所有关键方面都表现出色,包括 Video Chat Li 等人 (2023b) 、LLaMA Adapter Gao 等人 (2023) 和 Video-LLaMA Zhang 等人 (2023) Video-ChatGPT 显示出良好的性能,这主要归功于我们执行的指令调整及其简单的架构,该架构利用大语言模型和针对视频数据进行微调的预训练视觉编码器。 这为其提供了从视频输入生成上下文相关、详细且时间准确的文本的强大能力。

零样本问答评估: 我们使用几个常用的开放式问答数据集进行了全面的定量评估:MSRVTT-QA Xu 等人 (2017) 、MSVD-QA Xu 等人 (2017) 、TGIF-QA FrameQA Jang 等人 (2017) 和 ActivityNet-QA Yu 等人 (2019) 这些评估以零样本的方式进行,采用 GPT 辅助评估来评估模型的能力。 此评估过程衡量模型生成的预测的准确性,并分配 1-5 级的相对分数。

为了对 Video-ChatGPT 进行基准测试,我们将它的性能与其他重要模型进行了比较,例如 FrozenBiLM Yang 等人 (2022) 和生成式视频模型 Video Chat、LLaMA Adapter 和 Video-LLaMA。 FrozenBiLM 是一个模型,它将在网络规模纯文本数据上预训练的冻结双向语言模型适应多模态输入,在零样本 VideoQA 设置中显示出有希望的结果。 尽管这些模型建立了坚实的基础,但 Video-ChatGPT 的表现始终优于它们,在所有数据集上实现了最先进的 (SOTA) 性能。 这些结果表明 Video-ChatGPT 能够理解视频内容并生成准确、上下文丰富的问题答案。

5.3 消融研究

半自动标注的影响: 我们在两个子集上训练 Video-ChatGPT:一个包含人工标注(我们数据的 30%),另一个包含半自动标注(我们数据的 70%)。 表中的结果。 3 表明仅使用人工标注数据或半自动生成数据进行训练都能取得良好的性能。 由于在这种情况下可用的标签数量有限(所有数据的 30%),因此仅使用人工生成数据的整体性能最低。 但是,在训练时使用组合数据集可以获得最佳结果。

Metric Human only Automatic only Combined
Correctness 2.27 2.35 2.40
Detail Orientation 2.49 2.49 2.52
Contextual Understanding 2.50 2.56 2.62
Temporal Understanding 1.85 1.92 1.98
Consistency 2.21 2.38 2.37
Average 2.28






请到「今天看啥」查看全文