专栏名称: 中国企业家杂志
多年来持续关注企业家阶层的生意与生活。打造最快捷高效的商业资讯交互平台,实现您的商业梦想与精神追求。
目录
相关文章推荐
HR新逻辑  ·  管理六字技巧:抓大、放小、管细! ·  2 天前  
中国企业家杂志  ·  Sora挑战者,迎来商业化 ·  4 天前  
清华经管学院职业发展中心  ·  招聘 | 中信期货2025届校园招聘正式启动! ·  5 天前  
中国人力资源  ·  员工被前男友举报!泄密获利70万!知名大厂通 ... ·  5 天前  
插座APP  ·  一个人内心强大的标志:凡事不对抗 ·  6 天前  
51好读  ›  专栏  ›  中国企业家杂志

Sora挑战者,迎来商业化

中国企业家杂志  · 公众号  · 职场  · 2024-09-14 13:00

正文

整个AI生成视频领域,仍处于发展前期,需要头部玩家齐头并进,共同扩大市场

|《中国企业家》记者 孔月昕

编辑|马吉英

头图来源|视觉中国
如果说2023年ChatGPT在语言大模型领域掀起了“百模大战”,那么2024年,Sora则引发了视频大模型领域的新一轮内卷。
快手的可灵、字节的即梦、智谱的清影……无论大厂还是创业公司,纷纷开始打造自己的视频/多模态模型。
其中,生数科技被视为Sora最有力的挑战者之一。
生数科技成立于2023年3月,核心团队来自多个海内外顶级学术机构和科技企业,CEO唐家渝毕业于清华大学计算机系本科、NLP组硕士,此前曾任瑞莱智慧副总裁、腾讯优图实验室高级产品经理等。

生数科技CEO唐家渝  摄影:孔月昕
2024年6月,生数科技完成数亿元Pre-A轮融资,投资方包括启明创投、北京人工智能产业投资基金、蚂蚁集团、百度、达泰资本、BV百度风投、哈勃投资、锦秋基金等机构。据唐家渝透露,目前生数科技正在进行新一轮融资。
生数科技提出全球首个Diffusion与Transformer融合架构U-ViT,致力于打造可控多模态通用大模型,并于2024年4月发布了视频大模型Vidu。
当被问到Vidu的市场竞争优势时,唐家渝认为,目前Vidu(的能力)属于国际第一梯队的水平。“目前大家拿我们对比比较多的就是Runway和可灵,动画风格、大幅度连贯性、语义理解等方面,都是我们具有优势的地方。”唐家渝说。
在唐家渝看来,生数科技希望先去解决一些关键性问题。因此,在4月底发布支持生成16秒视频的模型后,生数科技并没有急于产品化。公司更看重如何突破技术的边界,提升现有视频能力的天花板,在此基础上进行产品落地和商业化应用。唐家渝认为,这样才能形成竞争优势。
9月11日,生数科技发布了视频大模型Vidu的最新功能——“主体参照”,用户上传任意主体的一张图片,Vidu能够锁定图片中主体的形象,通过描述词任意切换场景,输出主体一致的视频。即只要上传一张人物图片,用户就可以生成“林黛玉在咖啡馆里喝咖啡”“马斯克在埃菲尔铁塔前大步走”等动态视频。
这也意味着,AI视频即将达到普通用户能够很好地使用的节点。在唐家渝看来,这个节点在今年年底可能就会到来。
9月11日,唐家渝接受《中国企业家》等媒体采访。以下为采访整理,有删减:


谈技术:基础模型能力很重要

问:视频大模型步入多模态趋势的定位是什么?
唐家渝:我们最终的目标还是做通用大模型,视频生成是多模态生成大模型中间的一个阶段。我们现在底层的模型是通用大模型,可以做文本、图像,包括3D、音视频的生成。
只是今天我们重点聊的是视频,我们希望通用化的大模型未来能够精确地模拟世界,也就是做到多模态的准确生成。在通往这个目标的过程中,视频生成能力算是中间的一个里程碑或者节点,这并不意味着我们只做这一件事。除了视频以外,我们也有其他模态的生成能力。
问:除了视频模型之外,对模态统一方面有怎样的预判?未来这些多模态会收敛为一个统一功能吗?
唐家渝:这都是大家致力于解决的问题。我们现在是在多模态生成方面做到统一,未来我们能否有一个多模态的理解加生成统一的模型?
无论是工业界还是学术界,目前仍然处于探索阶段。主要观点分为两派:一派觉得会有这样的东西;另一派认为目前应该更好地运用实际能力,无论是生成能力还是理解能力,将多模态处理能力发挥到极致。
问:目前市场上大多数视频生成模型,只能生成较短片段,需要剪辑成片,但对于更广大的C端消费者来说,剪辑水平可能不够好,也就是产品的易用性不足。请问公司打算从哪个方向扩大易用性?
唐家渝:我们在整体策略上,是要将自己的长板做到足够长。
现阶段我们不会设置剪辑工具,因为现在市面上已经有非常多相关的产品。哪怕你现在发个小红书,它都自带片段拼接等功能,这些基础能力不是我们现在的目标。我们目前的重点还是把专业性工具做的事情简化,提升易用性。
此外,我们也会从加强底层模型的生成能力出发,比如我现在去生成一个片段,“我现在在这里讲话或者我走出会场之后下楼了”,之前的流程可能需要生成三个或者四五个场景的画面,将我描述的场景拼接起来,但实际上我们可以通过一个端到端的视频片段,直接自动化过渡中间的过程。
问:这次发布的“主体参照”功能,该功能的必要性和价值主要体现在什么地方?
唐家渝:主体参照对于实际的视频创作很关键,确保核心对象在整个视频中的连续性、一致性,从而去提升视频整体叙事的连贯性。然而,之前的视频大模型存在较强的不可控性,生成的画面容易崩坏,导致人物或对象难以保持连续。
但实际的视频创作,比如做一个故事短片,或者广告短片,是需要核心的主体对象始终固定,这是用户侧非常普遍和实际的需求,“主体参照”功能就很好地解决了这个问题,让生成的画面更加稳定可控,也更好去落地。
问:在推出“主体参照”功能之后,Vidu是否突破瓶颈实现了一致性功能?如果技术还在不断提高,具体体现在哪些方面?
唐家渝:我们现在发布的主体参照功能,在一致性生成方面带来了很大提升。
但也是还有进一步提升空间。例如一个精雕细琢的柜子等工艺品,上面有繁复花纹和镂空部分,这样复杂的结构,目前生成成功的概率依旧不高。场景生成包含很多组成因素,例如一款运动鞋,我希望它能在更复杂、更动态化的场景中有更好的表现。这些都需要不断提升模型能力。
问:现在视频生成在时长突破上需要解决的关键技术点是什么?在产品化方面会有哪些影响因素?
唐家渝:我们现在最长支持32秒,是一键端到端生成,不是拼接或者插帧生成的。不同之处在于模型对于更长时间信息的压缩,包括信息表现的能力更强。
生成时长的能力有多强,也与它对物理世界的理解和语义输入的理解能力相关。为什么要拓展生成时长,是因为我们需要提升模型对世界的抽象理解能力、信息压缩能力和信息放大能力。
不过,时长不是我们现在重点产品化的部分。我们发现,在实际创作中,大量镜头语言和画面,大概90%以上的片段都只有几秒钟。
问:目前AI视频生成工具处于一个“新手保护期”,大家觉得这是个新事物,所以相对包容,你觉得这个“新手保护期”还有多久?如何度过、跑赢“新手保护期”?
唐家渝:我认为“新手保护期”不单单针对(视频生成技术),每个新技术出现时都会有。
我也不认为这是“新手保护期”,一个新技术出现时,当大家在看到它的巨大潜力后,是可以容忍它现在的缺陷,而且愿意去发掘它可应用的点。
核心在于,这个技术的出现很大程度解决了以往的一些痛点。在解决痛点的基础上,它能够不断提升,把应用做得更深更广。这是大家拥抱新技术,将技术落地得更加扎实的过程。


谈商业化:B端更明确,C端在探索
问:Vidu产品本身的商业化模式如何?在行业落地、行业选择以及推进情况如何?
唐家渝:我们的落地商业模式有两种:一种是SaaS订阅模式,即大家现在打开网址可以直接体验到产品功能。第二种是API形式,即以模型能力输出的形式提供给大家(MaaS)。
目前在客户选择上,我们会首先关注企业和视频的相关性,例如视频内容创作、天然与视频内容相关的领域,比如广告、游戏、短剧和影视等。
另外一个大家比较容易忽视的形式是,AI视频是一个将文字、图像鲜活地生成动态内容的过程,这能衍生出一些好玩的玩法,如AI拥抱等。所以我们有一大批用户是海内外的一些C端应用公司,它们需要去接入一些比较好的基础模型能力去支撑它上层设计出来的各种各样的玩法。
问:现在国内视频大模型基本都是类Sora路线,大家在技术路线和商业化路径上是否会处于同质化状态?
唐家渝:在技术路线上,我们现在处于底层架构收敛的状态,但同质化并不代表大家所有进展的能力都相同。
例如现在的语言模型,大家都会使用Transformer架构,但现实来看,OpenAI还是明显领先的。因为在架构这一大的基础上,中间有非常多的环节,如怎么有效地去进行Scale up,视频如何有效压缩;包括生成速度,如何在保证质量的情况下实现快速,其中涉及到非常多的算法技巧、算法工程化等难点,这些是导致大家差异性的主要原因。
商业方面,从公开的情况来看,大家的选择上还是比较类似的。如Sora、Runway都在积极地拥抱好莱坞,或者广告合作等。这些是目前技术天然比较好落地的一些领域,大家利用自身的一些特点往前走。整个AI生成视频领域,仍处于发展前期,需要头部玩家齐头并进,共同扩大市场。
问:您认为未来C端市场和B端行业合作,哪个增长潜力更大?
唐家渝:B端的需求比较稳定、确定,接触过程中我们发现,他们都是实实在在的需求,并不是还没想清楚简单试一下,能带来比较直接的收入,所以B端是我们长期重点的方向。C端我们上线一个月以来,用户增长曲线非常高,所以,C端的商业化我们也在不断探索过程中。
问:如今各家大模型公司融资都面临困难,如果大家想留在牌桌上,就需要更多资金或者说造血能力,公司接下来有什么融资规划吗?
唐家渝:我们现在就在进行新一轮融资。融资过程中,技术仍是关键因素。目前的视频生成只是初步符合物理规律了,还有很高的天花板需要突破。从融资上来讲,我们的技术能力、原创性、未来的潜力,都是很重要的一环。
商业化也非常重要。我们目前阶段性交出了比较好的答卷,包括用户增速、用户活跃度,现在我们也陆续在接入一些大客户。
问:您说正在融资,在投资者的选择上有什么考量?
唐家渝:我们会(更倾向于)选择一些能长期陪伴的投资者,无论是从资源、战略协同上,还是上下游产业上。
新闻热线&投稿邮箱:[email protected]

END 

值班编辑:郭立琦  审校:张格格  制作:董斌‍‍

关注“中国企业家”视频号

看更多大佬观点和幕后故事


[ 推荐阅读 ]