专栏名称: 黄建同学
数码博主 超话主持人(ChatGPT超话) 头条文章作者 我的学习笔记,关注AI+新能源
目录
相关文章推荐
文商资讯  ·  北京大学AI智能高级研修班4月25-27日开学 ·  7 小时前  
文商资讯  ·  北京大学AI智能高级研修班4月25-27日开学 ·  7 小时前  
爱可可-爱生活  ·  《爱可可 AI 前沿推介(2.21)》 ... ·  19 小时前  
科技阿水  ·  无限制可用的DeepSeek-R1满血版,享 ... ·  昨天  
科技阿水  ·  无限制可用的DeepSeek-R1满血版,享 ... ·  昨天  
爱可可-爱生活  ·  【[812星]SkyReels-V1:开源的 ... ·  2 天前  
51好读  ›  专栏  ›  黄建同学

字节最新的AI视频论文:“Phantom: 通过跨模态对齐实现主-20250221193257

黄建同学  · 微博  · AI  · 2025-02-21 19:32

正文

2025-02-21 19:32

字节最新的AI视频论文:“Phantom: 通过跨模态对齐实现主题一致的视频生成”。

随着视频生成基础模型的不断发展,面向各种应用场景的研究也日益增多,其中,主题一致的视频生成依旧处于探索阶段。这一过程被称为Subject-to-Video,即从参考图像中提取主体元素,并通过文本指令生成主题一致的视频。

我们认为,主题到视频的本质在于平衡文本和图像的双模态提示,从而深度并同时对齐文本和视觉内容。为此,我们提出了一个名为Phantom的统一视频生成框架,适用于单主体和多主体参考。

在现有的文本到视频和图像到视频架构基础上,我们重新设计了联合文本-图像注入模型,并通过文本-图像-视频三元数据驱动其学习跨模态对齐。特别地,我们强调了在人物生成中的主体一致性,不仅覆盖了现有的ID保持视频生成,而且提供了增强的优势。

项目:phantom-video.github.io/Phantom/

比如视频1的哪吒的视频 [赞]

#ai创造营# #deepseek# #ai#






请到「今天看啥」查看全文