千呼万唤始出来，国风爱好者等到了通义万相的视频生成大模型

第一财经 · 公众号 · 财经 · 2024-09-19 22:02

正文

9月19日云栖大会上，阿里发布通义万相视频生成大模型。和诸多同行的限次试用和催你付费相比，阿里颇有诚意——只需登录通义万相官网及通义APP，即可免费体验生成影视级高清视频，APP端更是开放每日不限次使用，为一众影视创作、动画设计、广告设计等领域工作者再添生产“利器”。

PC制作网页

手机端入口：

后发先至，引领国风传承

自OpenAI推出Sora以来，不少科技公司都纷纷推出类似产品，但国人要想轻松愉快地上手使用还需要跨过颇高的学习门槛，甚至在ChatGPT上都有人专门开发智能体定向完善Stable Diffusion的文生视频大模型的提示词，只为了尽快生成想要的视频效果。

针对这样的用户痛点，“后发”的通义万相除了主打免费的诚意“先至”，推出三招直击人心：原生支持中文长文本提示词，具备复杂语义理解和概念组合生成能力，将文字创意精准呈现，对画面内容、空间构图、运动过程、运镜方式等指令均有良好支持，让视频制作更合本心；配合提示词“灵感扩写”功能，哪怕只有关键词，但还没想好具体如何描述元素关系和场景也能一句话生成视频，通过风格提示词生成相应的视频画面，减少操心；还能够将图片作为视频首帧延续生成一段视频，实现生成更可控，画面更精准，让人看了更动心。

笔者以“一个亚洲女孩坐在龙背上从右至左飞过，带有春节的美好祝愿”为例进行了“灵感扩写”，通义万相立刻描绘了更为具体的场景“一个亚洲女孩儿身着传统服饰，兴奋地坐在一条栩栩如生的龙背上，从画面右侧向左侧飞行，龙身蜿蜒了三层，女孩儿的长发随风飘扬，脸上洋溢着幸福的笑容，仿佛在传达着春节的美好祝愿，整个场景充满了欢乐和祥和的气氛”，5分钟的等待生成了5秒的视频，女孩的笑容富有感染力，色彩以红、黄、绿为主色调，背景的点点雪花和大红灯笼渲染出冬日春节的氛围。

对于国内的创作者来说，体现国风内容的表达并不容易。“如果你想的是东方龙，就一定要在提示词里清楚表示，不然就是西方龙的画面。”一位AI视频制作者说，为了生成想要的图像和视频需要耗费大量的时间，并且很难保持风格的一致。即便是同一表述如“龙”，东西方语境下就是截然不同的文化符号，训练时采用的数据集和应用时的提示词都会影响生成的效果。以前在海外的大模型里，中国风还很容易显现其他亚洲文化的影子。而在通义万相的视频里，龙透露着喜庆，女孩明眸善睐，发丝随风拂动，绝对符合国人心目中对国风的期待。

模拟世界，未来任重道远

人们对大模型的期许是要听话，但不能太听话，还要有良好的“想象力”，这就涉及到复杂语义理解和概念组合生成，既要能准确呈现提示词中描述的复杂元素，还要在涉及到多个不同元素时，能准确、有机地结合在一起，核心就是再保证指令遵循能力之后再去发挥大模型的涌现能力。不要小瞧这个顺序，这可关系到大模型是有“think outside of the box”（不落窠臼）的创意巧思还是在“一本正经地胡说八道”。

用户期望模型能生成多样化的图像风格同时保持一致性，这对算法提出了更高的要求。有视频创作者表示，今年年初最常使用的工具还是Pika，现在则主要用Runway Gen-3与Dream Machine。在他眼中，Runway Gen-2、Pika可以认为是上一代模型，从Runway Gen-3开始已逐渐走向新一代视频生成模型，新模型的动态效果明显更佳，通义万相出现在了市场对用户教育基本完成的阶段，需要比拼的是特色和好用。

不过，视频模型的发展仍面临一些共性问题，需要赛道上的选手们努力解决。

首先是生成的时长仍受限制。从时长来看，Pika、Runway Gen2、Dream Machine、Dreamina、Vidu一次生成的视频时长分别为3秒、4秒、5秒、3秒和16秒，通义万相的视频在5秒左右，还不具备时长上的碾压性优势。

其次是对真实物理世界的模拟能力有待提升。为测试物理规律合理性，笔者将提示词设置为“A glass filled with red wine fell off the table, broke the glass, and spilled the red wine”（一个装满红酒的杯子从桌上掉下来，砸碎了杯子，红酒洒了出来），此前Pika显示了桌上的碎片，但杯子看上去没有碎，Runway Gen2和Dream Machine的杯子则没有摔下或碎掉。而通义万相显示的是红酒倾倒而下，成为了砸碎杯子的外力，杯子在红酒中化为齑粉。

从综合表现来看，通义万相推出视频生成功能的速度不是最快的，但以“听懂中国话、最懂中国风”做到了差异化，凭借全新发布自研AI视频生成大模型具备强大的画面视觉动态生成能力，擅长概念理解与组合生成，能够轻松驾驭多种艺术风格，优化中式元素表现，带来影视级画面质感，同时支持多语言与可变分辨率生成。

生成视频追求的是完美的视听体验。此前Pika上线唇形同步功能Lip Sync，只要上传文本或音频，就能让视频人物发声且嘴型完全同步，由AI语音克隆创企ElevenLabs提供技术支持。通义万相还能生成与视觉内容高度匹配的声音特效，实现音画一致，增强视听一体的沉浸感。谁能成为创意工作者最常打开的软件，谁才能成为“笑到最后”的优胜者，留给通义万相的机会和挑战一样多。