AI视觉领域明星「Luma AI」完成9000万美元融资，亚马逊、AMD投了｜早起看早期

36氪 · 公众号 · 科技媒体 · 2024-12-09 08:00

正文

相较于语言模型，多模态的Scaling Law能让模型更好地理解世界。

文｜周鑫雨

编辑｜苏建勋

来源｜智能涌现（ID：AIEmergence）

封面来源｜Luma AI

“智能涌现”获悉，美国硅谷AI视觉领域企业“Luma AI”近日完成新一轮融资，金额为9000万美元。

该轮的投资阵容包括亚马逊、AMD、Factorial Funds、LDV Capital四家欧美企业或基金。与此同时，老股东A16Z、Amplify Partners和经纬（Matrix Partners）继续加码。

据了解，该轮融资主要用于加速视觉人工智能基础模型和产品的开发。

成立于2021年，Luma AI是一家聚焦于计算机视觉内容的技术型公司，旗下自研模型涵盖视频生成、3D生成和图片生成。2024年1月，“智能涌现”曾报道了Luma AI完成4300万美元B轮融资的消息，投资方为A16Z。

在全球范围内，AI赛道的资源分配都已经进入了“中场”。据科技媒体Techcrunch的统计，2024年下半年月均过亿融资笔数，比上半年少了10%。与此同时，热钱正在集中涌向AI应用层，尤其是AI搜索、AI销售、机器人、AI编程等领域。

模型层是基础设施，AI模型层不能单独成为产品，最终流量需要AI应用承接——无论是投资者，还是AI从业者，目前已经形成了这一共识。

2024年11月26日，主要在模型层发力的Luma AI，也发布了继视频生成模型Dream Machine出圈后的第一款AI应用型产品Dream Machine AI创意平台。

“和ChatGPT等语言模型相比，视频模型还是比较小众的领域。”Luma AI产品设计师Jiacheng Yang发现，Dream Machine的用户主要是有AI或者影视制作经验的专业人群。他对“智能涌现”解释了发布主打图像设计的AI创意平台的理由：

“相较于视频生成，图像领域的用户基础更大，有利于扩大我们的用户基数。我们的目标就是做一款AI小白和设计小白都能轻易上手的AI视觉工具。”

Dream Machine AI创意平台，可以理解为一个集合了文生图像设计、AI头脑风暴、主体/风格参考、设计图转视频等功能的设计平台。

Dream Machine AI创意平台的主体/风格参考功能。图源：Luma AI

相较于Midjourney、Stable Diffusion等文生图产品，Dream Machine AI创意平台对自然语言Prompt的理解能力更强，同时还能在图片中生成更高清和富有设计感的配文。

Dream Machine AI创意平台生成的高清配文。图源：Luma AI

Dream Machine AI创意平台易上手、性能强的原因，仍在于底层的模型能力。目前，平台的语言理解能力，来自Luma AI基于第三方语言模型构建的Agent；图片生成能力，源于Luma AI自研的图片生成模型Luma Photon；而图生视频能力，则来自2024年6月16日发布的自研视频生成模型Dream Machine。

彼时，Sora、生数科技Vidu等视频生成模型只停留于发布demo阶段，并没有对外公测。Dream Machine靠率先“免费”“公测”，以及不错的性能、“梗图”的玩法，一度在社交平台走红。

上线4天，Dream Machine的用户数就突破了100万。与此同时，Luma AI数据产品负责人Barkley Dai告诉“智能涌现”，Dream Machine的推广费用为0。

目前，Luma AI团队规模在50人左右。据Barkley介绍，2023年12月决定启动视频生成项目后，团队规模从10人扩展到了50人，主要引入了视频生成领域的顶尖人才。

高人才密度作战的效果，体现在了Dream Machine的性能上。Dream Machine目前能够用20秒左右的时间，生成5秒视频。与此同时，极为仿真的摄像机运动轨迹、自然的光影变化，以及丰富的机位，是Dream Machine的特点。在2024年9月发布的1.6版本中，用户只需要输入文字Prompt，就能调整相机的移动方向。

与此同时，靠3D生成技术起家的Luma AI旗下，还有Text to 3D工具Genie。彼时，Genie是市面上仅有的能在10秒内生成3D模型的工具。

在商业化层面，一方面，Luma AI旗下的视频、图像、3D领域的模型产品，对外提供API；另一方面，Dream Machine AI创意平台等应用层产品，将采用限免+付费订阅的收费模式。

当下，Luma AI也成了少有的在视频、图像、3D多模态领域全面布局的AI初创企业。在公开访谈中，Luma AI首席科学家Jiaming Song提到，多模态模型训练所需的Token量远大于语言，多模态的Scaling Law能让模型更好地理解世界。

36氪旗下AI公众号

👇🏻真诚推荐你关注👇🏻

点击关键词，查看最近的早起看早期：

餐饮：「四叶咖」「爆爆姐螺蛳粉」「墨比优创」

医疗：「无忧跳动」「Glowe 阁楼」

文娱：「山漫文化」「集卡社」

教育办公：「推推（Tuitui）」「UPDF」

工业技术：「桥田智能」「贻如生物」「芯率智能」