将东四十条资本设为“星标⭐”,第一时间收获最新推送
除了“大模型五虎”外,目前国内多模态大模型中估值最高的初创公司之一。
近日,OpenAI的一纸“断供”通知在国内再次掀起波澜。
这则通知显示,自7月9日起阻止来自非支持国家和地区的API流量。目前,OpenAI的API向161个国家和地区开放,由于中国未在其中,这意味着OpenAI将终止对中国提供API服务。
为了在这次“断供”中率先抢占到市场份额,国内大模型厂商纷纷推出相关“搬家”活动,一时间喧嚣四起。
无疑,OpenAI的这个动作再次证明了国产人工智能的重要性。正是如此,当天二级市场上相关概念股迅速拉升,甚至多支出现了涨停。
与此同时,哈勃入股AI公司生数科技的消息开始浮出水面,在这种关键时间点,生数科技再次成为了业内关注的焦点。
这并不是生数科技第一次出圈。
今年4月,生数科技联合清华大学发布了中国首个长时长、高一致性、高动态性视频大模型—Vidu,性能全面对标Sora,当时就在国内外引起了一阵轰动。
据悉,Vidu支持一键生成长达16秒、分辨率高达1080P的高清视频内容,它不仅能够模拟真实物理世界,还拥有丰富想象力,具备多镜头生成、时空一致性高等特点。
Vidu发布后,生数科技对外表示,Vidu的视频时长会继续突破,面向未来,Vidu灵活的模型架构也将能够兼容更广泛的多模态能力。同时,对于被称为“中国版Sora”,生数科技并不算满意,因为他们的野心远比这更大。
而这种底气则来自生数科技是全球首个提出Diffusion Transformer融合架构U-ViT,在这一架构下,生数科技完成了大模型在图像、3D、视频等多模态生成任务下的性能边界的探索。
如果说这样并能让人直观感受到生数科技的技术优势,那么其实Sora背后采用的融合架构Diffusion Transformer即DiT,与生数科技的路线几乎相同。
一个插曲是,生数科技是在2002年9月就提出了该融合架构,比DiT早两个多月,由于发布时间更早,当年计算机视觉顶会CVPR 2023只收录了U-ViT论文,并以“缺乏创新”为由拒绝了由伯克利团队发表的DiT论文。似乎在理论方面,生数科技在视频大模型上的布局是完全早于OpenAI的。
只不过,提出U-ViT架构的生数科技并没有第一时间把资源都放在视频上,而是先放在了图像和3D上。
这是因为生数科技认为,真正的智能一定是通用多模态的,以人为例,声音、视觉、动作这些多模态信息同时输入和输出,人类才能够将一个事物或者概念认识和表达得足够准确。
2023年,生数科技表示,图像生成效果已经超过了Stable Diffusion最新版基础模型,并声称在年内赶超Midjourney。3D内容生成方面,也实现了文生3D和图生3D的能力。
此外,在今年,生数科技才开始在视频上的集中发力,一方面基于上述两个产品的成熟,其次也是有Sora的催化。回看生数科技在视频上的频频动作,1月份,正式上线4秒短视频生成,2月份Sora发布之后,生数科技一个月后完成了8秒的视频生成,4月份视频长度再次翻倍来到16秒。
在具体打法上,生数科技目前采取模型层和应用层两条路走路的模式。一方面,构建覆盖文本、图像、视频、3D 模型等多模态能力的底层通用大模型,面向B端提供模型服务能力;另一方面,面向图像生成、视频生成等场景打造垂类应用,按照订阅等形式收费,应用方向主要是游戏制作、影视后期等内容创作场景。
围绕这种模式,生数科技发布了自主研发的多模态通用大模型UniDiffuser,同时推出了两款应用产品视觉创意设计平台 PixWeaver 和3D 资产创建工具 VoxCraft,以及视频大模型Vidu。