专栏名称: 量子位
վ'ᴗ' ի 追踪AI行业和技术动态,这里更快一步!关注我们,回复“今天”,更多大新闻等你来发现
目录
相关文章推荐
爱可可-爱生活  ·  【Aperture:可视化Stable ... ·  昨天  
黄建同学  ·  200页的大模型论文(书?)《Foundat ... ·  昨天  
机器之心  ·  飞书接入DeepSeek-R1后,用一次顶一 ... ·  昨天  
爱可可-爱生活  ·  【[157星]YuEGP:一个开源的全曲生成 ... ·  3 天前  
爱可可-爱生活  ·  【[36星]YuE-exllamav2:用A ... ·  3 天前  
51好读  ›  专栏  ›  量子位

港大字节最新视频生成模型刷屏!网友直接RIP市场营销,Sora也不香了

量子位  · 公众号  · AI  · 2025-02-10 18:40

正文

鱼羊 西风 发自 凹非寺
量子位 | 公众号 QbitAI

刚刚,港大字节联手发布最新视频生成模型,让歪果网友直呼疯狂。

有人甚至直接RIP市场营销、TikTok用户和YouTube创作者。

你敢信,下面这一幕不是来自欧巴电视剧,而是AI生成的!

造出它的新模型名为 Goku (悟空) ,是一系列基于 rectified flow Transformer 的模型,专为图像和视频联合生成而设计,支持文生视频、图生视频、文生图。

另外还有 Goku+ ,是视频广告基础模型,官方更是直言“它能以比原来低100倍的成本创建广告视频”。

Goku生成商品广告手拿把掐,无论是展示食物还是化妆品都很逼真自然,人物神情也很难看出破绽:

以下生成的吃播视频更是让人分不出真假:

再拿出一张白底的皮鞋照片,毫不费力就能将其搬到展台上展示:

甚至能仅凭一张商品图+文字prompt,就生成带人物的交互讲解视频。

prompt:

The woman stands behind a colorful Minnie Mouse product, her head gently swaying left and right as she speaks animatedly. Her hands rest on the table, framing the product, while her mouth opens and closes with noticeable emphasis, conveying her enthusiasm and detailed explanation. The camera remains steady, capturing her expressive gestures and the vibrant design of the product in front of her. (女士站在一个色彩缤纷的米妮老鼠产品后面,她的头部轻轻地左右摆动,边说边展现生动的表情。她的手搭在桌子上,框住了产品,同时她的嘴巴张开合上,明显强调着,传达出她的热情和详尽的解释。摄像机保持稳定,捕捉到她富有表现力的手势和她面前产品的鲜艳设计。)

各种场面都能hold住,时装秀也不在话下:

在定性和定量评估中,Goku文本到图像生成GenEval得分0.76和DPG-Bench得分83.65;文本到视频生成VBench得分84.85,一举 拿下新SOTA

网友们这下都坐不住了,纷纷称Goku和Goku+是颠覆性的。

将AI视频推向下一个level!

手里的Sora真真儿不香了。

基于流的视频生成基础模型

论文介绍,Goku是基于流的视频生成基础模型。

具体来说,Goku采用了校正流 (Rectified Flow) Transformer实现图像和视频的联合生成。

其核心组件包括,图像-视频联合VAE、Transformer架构和校正流公式——

先用图像-视频联合VAE将图像和视频压缩到共享的潜在空间,再用全注意力Transformer对潜在表示进行建模,实现图像和视频的统一生成。

校正流公式基于RF (rectified flow) 算法,将其应用于图像-视频联合生成,相比扩散模型展现出了更快的收敛速度和更强的理论性质。

训练方面,Goku采用了多阶段训练策略。

首先进行图文语义对齐预训练,再进行图像-视频联合训练,最后针对不同模态进行微调,逐步提升模型生成能力。

值得关注的是,为了训练Goku,研究人员还准备了 大规模高质量数据集 高效的训练基础设施

数据方面,研究人员构建了约3600万视频和1.6亿图像的大规模数据集,并采用多种数据过滤和增强技术来提高数据质量。

为此,他们提出了一个全面的数据处理流程,包括基于美学评分的视频和图像过滤、基于OCR的内容分析及主观评价。

他们还采用多模态大语言模型来为视频、图像数据生成信息密集且语境一致的标题,并用额外的大语言模型继续细化,以提高其准确性、流畅性和描述丰富性。







请到「今天看啥」查看全文