头条新发布的研究Loong,支持生成分钟级的视频#ai##科技#
Loong: Generating Minute-level Long Videos with Autoregressive Language Models(利用自回归语言模型生成分钟级长视频)
论文:arxiv.org/abs/2410.02757
项目:epiphqny.github.io/Loong-video/
摘要:
生成几分钟内内容丰富的长视频是人们所期望的,但同时也是一项挑战。自回归大型语言模型 (LLM) 在自然语言处理领域生成连贯且较长的标记序列方面取得了巨大成功,而自回归 LLM 在视频生成方面的探索仅限于生成几秒钟的短视频。
在这项工作中,我们深入分析了阻碍基于自回归 LLM 的视频生成器生成长视频的挑战。基于观察和分析,我们提出了 Loong,这是一种新的基于自回归 LLM 的视频生成器,可以生成几分钟长的视频。
具体来说,我们将文本标记和视频标记建模为自回归 LLM 的统一序列,并从头开始训练模型。我们提出了渐进式的从短到长的训练,并采用损失重新加权方案来缓解长视频训练的损失不平衡问题。我们进一步研究了推理策略,包括视频标记重新编码和采样策略,以减少推理过程中的错误积累。
我们提出的 Loong 可以在 10 秒视频上进行训练,并可以扩展为根据文本提示生成分钟级长度的视频,结果证明了这一点。
ChatGPT
Loong: Generating Minute-level Long Videos with Autoregressive Language Models(利用自回归语言模型生成分钟级长视频)
论文:arxiv.org/abs/2410.02757
项目:epiphqny.github.io/Loong-video/
摘要:
生成几分钟内内容丰富的长视频是人们所期望的,但同时也是一项挑战。自回归大型语言模型 (LLM) 在自然语言处理领域生成连贯且较长的标记序列方面取得了巨大成功,而自回归 LLM 在视频生成方面的探索仅限于生成几秒钟的短视频。
在这项工作中,我们深入分析了阻碍基于自回归 LLM 的视频生成器生成长视频的挑战。基于观察和分析,我们提出了 Loong,这是一种新的基于自回归 LLM 的视频生成器,可以生成几分钟长的视频。
具体来说,我们将文本标记和视频标记建模为自回归 LLM 的统一序列,并从头开始训练模型。我们提出了渐进式的从短到长的训练,并采用损失重新加权方案来缓解长视频训练的损失不平衡问题。我们进一步研究了推理策略,包括视频标记重新编码和采样策略,以减少推理过程中的错误积累。
我们提出的 Loong 可以在 10 秒视频上进行训练,并可以扩展为根据文本提示生成分钟级长度的视频,结果证明了这一点。
ChatGPT