专栏名称: 知危
提供敏锐、独到的商业信息与参考,重点关注TMT、出海、新消费、新能源。
目录
相关文章推荐
一涵笔记  ·  DeepSeek爆火后,中国和美国股票价值要 ... ·  12 小时前  
一涵笔记  ·  DeepSeek爆火后,中国和美国股票价值要 ... ·  12 小时前  
幸福成长札记  ·  第68天在闲鱼上卖货,利用DeepSeek为 ... ·  12 小时前  
幸福成长札记  ·  第68天在闲鱼上卖货,利用DeepSeek为 ... ·  12 小时前  
西安头条  ·  一男童在商场突遭意外!警方已介入 ·  15 小时前  
西安头条  ·  一男童在商场突遭意外!警方已介入 ·  15 小时前  
DataEye短剧观察  ·  DataEye短剧热力榜:一短剧蝉联榜首,三 ... ·  3 天前  
51好读  ›  专栏  ›  知危

字节跳动发了个超惊艳的AI生视频模型,这回像素也跳动了

知危  · 公众号  · 互联网短视频 科技自媒体  · 2024-09-24 21:23

主要观点总结

文章介绍了字节跳动的火山引擎推出的新AI模型——豆包生成视频模型,并对其进行了详细评测。文章提到了该模型在图像与文字结合生成视频方面的出色表现,并对其在不同场景下的性能进行了测试。

关键观点总结

关键观点1: PixelDance模型的简介及演示效果

文章提到了PixelDance模型的名称和用途,展示了官方的演示视频,包括由图片和提示词生成的视频,并描述了视频中的细节表现。

关键观点2: PixelDance模型的实测表现

文章通过多个测试案例展示了PixelDance模型的性能,包括金毛照片生成视频、赛博朋克风格骑行照片生成视频、同事吃东西的照片生成视频等,并对每个案例进行了详细分析。

关键观点3: PixelDance模型的优点和缺点

文章总结了PixelDance模型的优点,如画面稳定性、一致性等,并指出存在的缺点,如某些细节处理不够真实、某些场景下的表现不够理想等。

关键观点4: 字节工作人员透露的信息

文章提到了与字节工作人员的沟通内容,包括他们为了做出接近影视的光影、色彩效果所采取的方法,以及国内视频模型市场的现状。

关键观点5: 升级浏览器的重要性

文章最后提到了升级浏览器至最新版本的重要性。


正文




有一说一,真不知道这个月是什么情况。


国内的科技互联网厂商们就像扎堆看了同一本黄历一样,都赶着这个月搞事情 ,各种大模型纷纷上新,给人都看倦了。


而今天,字节跳动的火山引擎也官宣了多个新 AI 模型,其中知危编辑部觉得最惊艳的,就是豆包生成视频模型, 效果极其强横。


迟迟不上菜的字节,这一开始上菜就是硬菜。


我们先来看一下官方的演示视频:



这是一条由图片+提示词生成的视频,我们可以看到视频中角色的复杂表情的表现非常自然,发丝的飞舞、马匹头上的棕毛飞舞也很符合物理学,人物在马背上的起伏也很自然。


我们在看这段 “ 骑火箭的男人冲向世界最高城礼堂引发大爆炸 ” 的视频,镜头的移动以及分镜的切换很丝滑,并且画面和画风的一致性保持的很好,中间那个男人紧闭双眼紧张赴死的镜头也很有表现力,画面感拉满了:



不过, 众所周知,AI 行业现在有时候宣传资料就跟方便面外包装一样,看上去是一回事,拆开以后又是另一回事。


所以尽管看完这些演示视频以后我们觉得豆包可能真有两下子,但到底货对不对板,咱还是得上手试一试才知道。


所以,我们找到了字节的朋友,要到了这款模型的内测机会,实测一下它的成色。


模型的名字叫 PixelDance ( 像素跳动 ) ,暂时只支持图+文输入生成视频,所以我们下面的测试都是基于图+文来进行生成视频。


首先,我们用了一张公司养的金毛的照片:



我们的提示词为:狗狗站起,叼起身边的娃娃离开画面。


看似简单,但是这个需求还是比较难的。 因为金毛的脸是被娃娃遮挡住的,让其站起并叼走娃娃,对模型生成的一致性有比较大的挑战 ,在过往的一些模型测试中,一般狗狗的脸和身材不出 2 秒就会开始崩坏。


但,实际生成的视频是这样的:



这 10 秒钟的视频,几乎没有出现太多画面抖动、掉帧和闪烁变形的情况,狗狗 起身的动作一气呵成, 仔细看它把兔子玩偶拽过来的瞬间,玩偶耳朵会抖动,脚往下踩的时候垫子上也会有凹陷。


也就是说,不仅一致性不错,细节也很好, 如果不是狗狗毛发纹理有时有些假,给个 9 分都不过分。


下面,我们才测试一下让不少视频生成模型屡战屡败的光影效果。


我们先是拿豆包文生图功能生成了一张赛博朋克风的骑行照片:



然后再把他丢进了 PixelDance 模型,提示词是:摩托车飞速行驶在道路上,街景迅速后退。


在生成的视频中, 街景变化流畅,光线的明暗变化也没违和感,特别是大楼灯光和地面上的倒影都一一对应上了。 唯一有点小瑕疵的地方就是从对向开过来的车,画面没太控制好。



随后,我们选取了一张同事吃东西的照片,想测试人物动作的生成:



提示词为:正对镜头的男人张嘴吃下筷子上的食物。


而 PixelDance 模型也确实没让我们失望,拿筷子的动作很熟练,食物是真吃进了嘴里,面部也没有因为咀嚼的动作而变形。即使提示词里没有提到的到后面人群,模型也让他们比较符合日常规律的动了起来,没有什么太大的破绽。


缺点就是,嚼东西的动作有些用力过猛,略显生硬。



其实测到这里,我们对 PixelDance 模型的水平已经有点底了。但为了让测试更全面些,咱还是多试几次。


下面我们来测试奇幻场景,我们提供了一张公司附近的晚霞照片:




提示词为:远处的天空,飞来一条黑色的龙,距离镜头越来越近。


在生成的视频中,画面后面的天空、一排房子、往镜头飞来的黑龙,要素基本齐全,镜头还会慢慢仰拍跟随, 但是缺点是龙的质感和飞行动作有些假 导致这条视频是我们认为本次测试里最差的一个案例,这可能跟背后的训练素材的局限性有关。


另外,原本照片左下角应该是桥边的栅栏,不知道是不是因为画面太黑,导致模型没识别出来,小小变形了一下。



最后,我们还测试了一个我们认为难度很高、非常考验一致性和对物理世界规则理解的例子,是一张同事们下班喝酒时拍的照片:



提示词为:大家碰杯后各自拿走自己的酒一饮而尽。


生成的视频中,碰杯导致的液体晃动,手部动作让液体倾斜的物理反馈、被子的反光等处理的都比较不错。


而且人类手臂的屈伸、关节活动,也比较符合人类生理构造。








请到「今天看啥」查看全文