豆包视频生成大模型的发布,是字节在AI领域的一次重磅亮相。
据火山引擎介绍,豆包视频生成模型基于DiT架构,通过高效的DiT融合计算单元,让视频在大动态与运镜中自由切换,拥有变焦、环绕、平摇、缩放、目标跟随等多镜头语言能力。
而在此前视频生成模型大多只能完成简单指令,豆包视频生成模型则能实现自然连贯的多拍动作与多主体复杂交互。例如,后者可以让不同人物完成多个动作指令的互动,使人物样貌、服装细节甚至头饰,在不同运镜下也保持一致,接近实拍效果。
基于豆包视频生成大模型,字节内部也推出了相关的具有AI视频生产能力的产品,主要由两个业务团队在推进,一个是豆包,一个是剪映,可以看做是内部的一场赛马。
豆包对外的产品是豆包APP,剪映则是即梦AI APP,两者的底层技术都是使用的豆包视频生成大模型,即梦使用的是豆包视频生成大模型“PixelDance”。
两款产品虽然都有着视频生成能力,但即梦更具有代表性。
即梦的前身是Dreamina,是原字节跳动中国CEO、转岗至剪映的业务负责人张楠的创业项目。刚上线之时,这仅仅是一个文生图的创作产品。随后,Dreamina瞄上了Sora的潜力,内部基于PixelDance模型开始研发视频生成能力,今年2月,Dreamina的视频生成服务开启对外测试。
今年5月,Dreamina改名即梦,宣布其AI作图和AI视频生成功能全量上线,并在抖音内进行大量投放。张楠更是在朋友圈转发,称即梦刚刚上线,还有很多待优化的地方。
音乐生成方面,海绵音乐APP则是字节的代表,这款产品是字节在AI赛道上试错的一个典型案例。海绵音乐的前身是2022年2月的海绵乐队APP。Tech星球了解到,这是字节内部的一款创业项目,但这款产品诞生之初并不是奔着AI而去,而是服务于汽水音乐和抖音上对音乐编辑有所需求的用户。
到了2022年底,随着国内AI浪潮出现后,海绵乐队才开始转向AI领域,并加入AI作曲能力,但此时的创作能力很一般,“因为此时的字节,并没有成体系的音乐生成大模型,海绵乐队只能靠自己去摸索”,一位曾在海绵乐队工作的员工向Tech星球表示。
2023年6月推出了新版本,主打哼唱成曲和伴奏制作,虽然在AI能力上仍不出众,但对接下来的试错和更新提供了经验。随着豆包音乐生成模型的出现,才让海绵乐队有了一战之力,最终在今年7月,更名为海绵音乐,主攻AI音乐创作赛道。目前,已经开始在各渠道进行投放推广。
需要注意的是,字节的AI产品在这两条赛道上的发展并不是独立,而是相互竞争。豆包、即梦在近期也开始推出音乐生成服务,逐步渗透到AI音乐赛道,“竞争是无可避免的,谁都想成为爆款AI产品,谁都想成为或继续保持在内部的核心位置,这无疑需要AI产品更加具有综合体验”,即梦的一位运营告诉Tech星球。