相较于语言模型,多模态的Scaling Law能让模型更好地理解世界。
文|周鑫雨
编辑|苏建勋
来源|智能涌现(ID:AIEmergence)
“智能涌现”获悉,美国硅谷AI视觉领域企业“Luma AI”近日完成新一轮融资,金额为9000万美元。
该轮的投资阵容包括亚马逊、AMD、Factorial Funds、LDV Capital四家欧美企业或基金。与此同时,老股东A16Z、Amplify Partners和经纬(Matrix Partners)继续加码。
据了解,该轮融资主要用于加速视觉人工智能基础模型和产品的开发。
成立于2021年,Luma AI是一家聚焦于计算机视觉内容的技术型公司,旗下自研模型涵盖视频生成、3D生成和图片生成。2024年1月,“智能涌现”曾报道了Luma AI完成4300万美元B轮融资的消息,投资方为A16Z。
在全球范围内,AI赛道的资源分配都已经进入了“中场”。据科技媒体Techcrunch的统计,2024年下半年月均过亿融资笔数,比上半年少了10%。与此同时,热钱正在集中涌向AI应用层,尤其是AI搜索、AI销售、机器人、AI编程等领域。
模型层是基础设施,AI模型层不能单独成为产品,最终流量需要AI应用承接——无论是投资者,还是AI从业者,目前已经形成了这一共识。
2024年11月26日,主要在模型层发力的Luma AI,也发布了继视频生成模型Dream Machine出圈后的第一款AI应用型产品Dream Machine AI创意平台。
“和ChatGPT等语言模型相比,视频模型还是比较小众的领域。”Luma AI产品设计师Jiacheng Yang发现,Dream Machine的用户主要是有AI或者影视制作经验的专业人群。他对“智能涌现”解释了发布主打图像设计的AI创意平台的理由:
“相较于视频生成,图像领域的用户基础更大,有利于扩大我们的用户基数。我们的目标就是做一款AI小白和设计小白都能轻易上手的AI视觉工具。”
Dream Machine AI创意平台,可以理解为一个集合了文生图像设计、AI头脑风暴、主体/风格参考、设计图转视频等功能的设计平台。
Dream Machine AI创意平台的主体/风格参考功能。图源:Luma AI
相较于Midjourney、Stable Diffusion等文生图产品,Dream Machine AI创意平台对自然语言Prompt的理解能力更强,同时还能在图片中生成更高清和富有设计感的配文。
Dream Machine AI创意平台生成的高清配文。图源:Luma AI
Dream Machine AI创意平台易上手、性能强的原因,仍在于底层的模型能力。目前,平台的语言理解能力,来自Luma AI基于第三方语言模型构建的Agent;图片生成能力,源于Luma AI自研的图片生成模型Luma Photon;而图生视频能力,则来自2024年6月16日发布的自研视频生成模型Dream Machine。
彼时,Sora、生数科技Vidu等视频生成模型只停留于发布demo阶段,并没有对外公测。Dream Machine靠率先“免费”“公测”,以及不错的性能、“梗图”的玩法,一度在社交平台走红。
上线4天,Dream Machine的用户数就突破了100万。与此同时,Luma AI数据产品负责人Barkley Dai告诉“智能涌现”,Dream Machine的推广费用为0。
目前,Luma AI团队规模在50人左右。据Barkley介绍,2023年12月决定启动视频生成项目后,团队规模从10人扩展到了50人,主要引入了视频生成领域的顶尖人才。
高人才密度作战的效果,体现在了Dream Machine的性能上。Dream Machine目前能够用20秒左右的时间,生成5秒视频。与此同时,极为仿真的摄像机运动轨迹、自然的光影变化,以及丰富的机位,是Dream Machine的特点。在2024年9月发布的1.6版本中,用户只需要输入文字Prompt,就能调整相机的移动方向。
与此同时,靠3D生成技术起家的Luma AI旗下,还有Text to 3D工具Genie。彼时,Genie是市面上仅有的能在10秒内生成3D模型的工具。
在商业化层面,一方面,Luma AI旗下的视频、图像、3D领域的模型产品,对外提供API;另一方面,Dream Machine AI创意平台等应用层产品,将采用限免+付费订阅的收费模式。
当下,Luma AI也成了少有的在视频、图像、3D多模态领域全面布局的AI初创企业。在公开访谈中,Luma AI首席科学家Jiaming Song提到,多模态模型训练所需的Token量远大于语言,多模态的Scaling Law能让模型更好地理解世界。
36氪旗下AI公众号
👇🏻真诚推荐你关注👇🏻