OpenAI 连续 12 天 “Shipmas”发布活动终于要发布让大家期待已久的视频生成模型 Sora,这再一次激起人们对图片生成、视频生成的关注。而AI Creativity 一直是我们非常关注的 GenAI 落地方向,图像生成和视频生成模型快速迭代,离商业可用越来越近。同时,创意行业的工作流很长、行业细分,用 AI 去提效其中的每一个环节都有意义,持续有值得关注的创业公司出现。
今年八月份,Stability AI 核心 research 团队创立的新公司 Black Forest Lab 亮相并发布了 Flux1 系列 Sota 模型,Ideogram 发布 2.0 版模型,Midjourney 也终于推出了网页端产品。这三家的文生图模型各有所长,Flux 是目前的 Sota 模型,Ideogram2.0 最接近商业化可用,文字渲染能力极强,在商业广告、海报等场合表现最好。Midjourney 更擅长艺术创作,新推出来的网页端工具也是生成功能最丰富全面的。另外,为专业设计师搭建的、基于图像生成的工作流平台也在不断迭代产品,其中 Krea.ai MAU 已经到达了 142 万。
视频领域,OpenAI 发布 Sora Demo 后,不断出现新一代“媲美 Sora”的模型,包括国内刚刚发布的字节豆包视频模型、minimax 海螺大模型、快手 Kling,以及海外的 Meta moviegen,Luma、Runway Gen3 这些炙手可热的视频生成公司。同时,BFL、Ideogram、Midjourney 未来也将要发布自己的视频生成模型。技术路线还没有确定,每去很难做出谁会是最终赢家的判断。有一些 startup 不去卷模型,而是专注做应用。比如 Captions、Opusclip、Creatify 等产品专注于 AI 辅助的视频编辑。这些公司都能获得不错的 ARR,但是天花板有限,面临着来自 Capcut 的竞争。
我们可以观察到,AI Creativity 领域逐渐演变出了两种形态的 Startup:一种专注提升模型能力,团队以 top researcher 为主;一种专注构建结合 AI feature 的产品,团队以产品、GTM 为主。我们将持续关注那些在模型能力上处于领先地位的团队,以及有 vision 和能力为创意工作者构建整个 workflow 产品的公司。
💡 目录 💡
01 内容生成的壁垒是什么?
02 为 AI Native 工作流设计的 AI 视频编辑工具
03 Case Study
现阶段,图像及视频生成领域的大部分明星 Startup 仍专注生成模型的训练优化,高质量的闭源模型是其核心资产。这类公司的特点是有非常强的 research 团队,获得了大量的资金支持,或背靠大公司拥有数据和资源优势。
目前很难看出谁拥有明显的壁垒,是这个赛道的赢家。图片生成领域闭源和开源的能力已经基本追平,普通用户很难感受出谁家的模型更好。特定场景下,经过专有数据集训练、做了 Lora 的开源模型可能会比性能最好的生成模型表现更好。视频生成领域还处于 GPT2 时代,从 Runway Gen2、Pika、Genmo,再到 Sora、Luma 和 Kling,如今又出现了声称将要开源 Sota 视频模型的 Black Forest Lab,技术路线还未最终确定。
模型公司仍是我们关注的重点,在其他要素不确定的情况下,更多的是在 bet 团队。我们比较看好 Luma 和 Black Forest Labs,虽然都不是最早入局视频生成的公司,但都有深厚的积累。Luma 有 3D 数据的深厚积累和 Diffusion 的顶尖 Researcher 团队,和完整的工程团队,走的是闭源路线。BLF 基本上是 StabilityAI 的原班人马,包括 Researcher 和 Infra 的成员都加入了,提出了新的路线 Rectified Flow Transformers。推出的文生图模型 Flux 在社区影响力很大,质量远超 SDXL,未来推出的视频生成模型也是很值得期待的。
专注于模型并不是说这些公司不做产品。相反,相比集成开源模型,拥有闭源模型的公司做好产品反而更容易建立产品壁垒。这些公司已经纷纷从最初的 Discord 转向用 UI 去承载模型,让用户能用熟悉的 Button 点按,而非全部都是 Prompt 的方式去使用技术。Runway 就是产品做的很好的典型代表,Midjourney 和 Ideogram 的 Web UI 也提供了不错的生成体验。
以 Midjourney 的 Web UI 为例,拥有图片搜索引擎、素材一键应用、以及可控性很强的图片生成功能。在 Explore 界面上,可以看到随机、热门、本周最佳和用户 “喜欢” 的图片,还可以输入 Prompt 搜索相关风格的图像。点击任意一张图片,都可以看到生成这张图片的 prompt,以及搜索和这个图片类似风格的作品。
在 Create 界面上,用户可以设置参考图,写入 prompt,并进行参数设置。参数设置包括滑动调节尺寸,调节风格强度、创意程度、以及随机性;还可以选择 Midjourney 提供的不同模型,以及生成速度。生成后,可以选择重新生成,或者通过 Prompt 和参数调节的方式进行修改。还有 Chat 和 Room 功能,用户可以在特定主题下交流。
一部分公司并不专注训练效果更好的模型,而是针对具体的工作场景、具体行业构建图像生成的工作流产品。包括针对设计师行业的 Visual Electric,针对时尚设计行业的 Raspberry 等。以 Visual Electric 为例,提供了 AI 生成图片后的专业编辑功能,包括无限的画布、图片参数调节、背景去除等。也提供了基于AI的编辑功能,比如 Art direction,用户描述如何更改图像,Visual Electric 自己编写 Prompt 来定义色彩和风格。
很多内容创作者也有自己微调开源模型的需求,但不具备足够的硬件设备,所以一些创业公司尽可能全面的集成开源模型,并提供编辑工具和微调接口,用户也可以用自己的数据在平台上去微调模型。如 Krea.ai、everart、Nightcafe。Krea.ai 集成化的提供了图像、视频模态模型,还提供了用摄像画面进行实时创作、集成 Photoshop、Figma、Sketch、C4D、Blender 等设计软件的创作方式。也有放大增强 (Upscale & Enhance)、参数调节、可以把文字/图案形状/logo嵌入图片等编辑功能。
为 AI Native 工作流设计的 AI 视频编辑工具
除了上文以闭源模型能力为核心的生成公司,我们还关注到了很多公司专注结合AI做视频编辑工具。
这些公司中,早进入者是传统专业编辑软件轻量化的逻辑,追求“大而全”,尽可能地集成所有 feature,覆盖workflow所有环节,包括 capcut 和 veed;而后进入的公司需要通过营销核心 feature 来破圈获取用户,精准的解决某场景的用户需求,比如 heygen 主推 avatar,captions 主推 talking video 场景,opusclip 主推素材复用。这也是因为海外用户的使用习惯:用户会想要寻找每个单点上表现最好的产品,而不是满足于一个大而全的平台提供的服务。
上述以某个核心卖点起家的产品,由于用户不断在社区中提出新需求,以及来自竞争对手的压力,也在向“大而全”的平台发展。但它们与 capcut 直接竞争没有优势,所以还是会围绕自己的核心叙事迭代产品。而 Capcut 则不断的集成新公司的核心 feature,保持“大而全”的平台地位。近半年 Capcut 的业务核心是 Commerce Pro,电商企业用户可以输入 URL 一键生成产品展示等促销广告视频,这也是 creatify 的主推 feature,再之前,capcut花费了很多精力开发类似 Heygen 的 avatar 能力。
我们认为这些公司也非常值得关注,主要原因如下:
1. 视频制作、剪辑工具的市场空间很大。早期,专业工具Adobe Premiere 和 Final Cut Pro ( Apple )、Davinci Resolve 主导该领域。随着社交媒体发展,prosumer 创作者、网红和企业对视频内容需求的增加,剪映、海外版 CapCut 吸引了大量用户,Capcut 的mau在7月份已经达到3.23亿,Sensor Tower估计,截至7月底,CapCut今年在移动应用上的累计收入已达1.25亿美元。天花板还没有见顶,未来还有很多创新和新公司的机会。我们看到的 opusclip、creatify、vozo 等主打全自动、一键化的工具进一步降低了视频创作的门槛,赋予了本来没有创作能力的用户创作机会。
2. GenAI 带来的增量市场是原本没有足够创造能力或预算,但被AI赋予了能力能够大规模生产的 smbs 和 prosumer。
a. SMBs 以电商商家为主,同时还有短剧行业的需求。SMBs 以社交媒体为主战场,类似 Prosumer 的工作流,期待高度的自动化,以及保持品牌的一致性和跨渠道的优化,重视视频发布后的数据分析。比如很多做电商营销的用户,这类用户的目的是快速、大批量的在各个社媒平台上发布产品广告视频,自己不具备视频创作能力,传统往往采取外包的模式,或者投入很少。这个领域也是目前AI视频剪辑创业公司的主战场之一,如opusclip帮助客户长剪短去适应不同的平台特点,creatify主打产品url一键生成营销视频。
b. Prosumer 主要是 YouTubers、TikTok创作者、博主等 content creator。全球超过 20 亿的短视频用户最终能有超过 10% 被转化为创作者并愿意为剪辑产品付费,可以预期一个 20B 美元体量的增量市场。他们对AI的期待是能够满足他们高频次发布、节省时间、快速编辑和多平台兼容的需求。我们从reddit反馈中观察到,目前该类用户并没有期待某个AI工具cover全部工作流,而是以传统的剪辑工具为基础,再找一个或多个AI工具用在自己工作流中的某个环节去提高效率。
3. 这个市场不会是 winner take all,产品设计逻辑和核心功能决定主要使用人群。
a. 根据对用户的观察,我们发现不同类型的用户使用的核心功能是不同的,比如以做口播为主的 KOL 会持续使用 Captions,虽然也会使用 Capcut 去完成其他任务,但不会导致用户的彻底迁移。同理,电商卖家也会持续用 Creatify,社媒营销人员也会持续使用 opuscilp。Capcut 即便集成了 Avatar、URL 一键生成营销视频等等功能,但它最初的设计逻辑就是轻量化的 adobe,并不能完全适配上述用户的使用习惯。
b. Startup 有机会通过理解特定用户群的痛点,搭建出更好用的产品。获得可观收入的新创业公司都有自己的核心业务逻辑,也在核心功能上做的更好。比如 Creatify 的逻辑就是产品 URL 直接生成视频,这是用户登录平台看到的第一个界面;而 Opusclip 的核心就是尽可能地帮用户自动化视频剪辑流程。
4. 视频应用工具的进入门槛低,团队只要有足够的产品能力,并做好 GTM,都能获得不错的收入。Heygen 和 Captions 都 ARR 都超过了 $50M。Opus 也达到了 ARR 也达到了 $20M。
随着竞争进一步加剧,对于这些视频应用公司来说,AI 功能的深度和广度都很重要:只有单个功能做得显著比竞品好,新公司才能因为差异化破圈。社区中出现破圈的 show case 后,content creator 会自发创建教学视频,人们会默认把这个产品用于某任务;但能够在更广泛的 AI 功能上都做得比竞品好,至少不差于竞品,是让用户留下来并付费的方式,我们观察到,创作者的剪辑工作流很分散,经常使用单点上效果最好的工具,但如果一个平台上能完成完整的工作流,会让用户更愿意付费,而非持续寻找免费的替代品。
以下表格梳理了各个公司的核心功能,以及对用户常用的AI feature的覆盖情况,可以看出很多创业startup对于feature的覆盖已经非常全面了。
我们对每个产品进行了试用,结合用户的评论,Heygen 在 avatar 和 lip sync 两个细分功能上优势明显,AI 自动配字幕上,capcut/veed/captions做的都不错,而 AI Dubbing 上,用户比较满意 capcut,heygen 的视频音频匹配。另外,很多用户都很满意 Opusclip 快速生成短视频的能力。
还有一类公司值得关注,那就是 to consumer、赋予每个人自我表达能力的视频创作平台。其中比较特别的是 Viggle,用 AI 让图片+视频组合生成新的视频,利用网感、GTM和病毒式传播快速起量,在TikTok上广泛传播。但是这类产品如果不能构建自己的平台,产品功能、传播方法是很容易复刻的。很多大平台起源于病毒式的 feature,比如Instagram的滤镜,snapchat的阅后即焚。Viggle的不同的点在于,它的内容是被放在tiktok上传播的,用户便不会留存在它的平台上,它的角色仍是一个工具。什么样的AI feature能够和“生成”它的平台本身紧密绑定值得我们持续研究。
根据 artificial analysis 网站,综合来看 FLUX 的质量领先优势明显,生成时间较短,价格较低,是类似生成/价格区间中质量最好的模型。
在我们的实测中,Flux 表现并不佳,原因可能是直接使用了开源的 model,并没有做任何的微调,所以生成的都是最原始的设置。这也让我们意识到,图片生成领域已经很成熟了,即便使用开源的模型底座,经过微调也能达到非常好的效果。
Generate an Eco-friendly car advertisement with natural elements
Ideogram 和 Visual Electric 的效果表现出色,MidJourney风格鲜明,但偏向超现实风格,商业化程度略不足。
Generate a Mystery thriller movie poster with a dark alley and shadowy figure
Generate a Dynamic logo for a new tech startup
这个题目Ideogram 和 MidJourney 的表现更多元,而 Visual Electric 对于 Prompt 的理解似乎稍显不足。
Cute cartoon elephant carrying a little cartoon rabbit using its long nose. They are enjoying the beautiful midnight together
比较来看,Visual Electric 的生成效果更具视觉吸引力。
Ideogram 能精准生成文字,其字体渲染效果最好;而 MidJourney 的海报设计感更强,文字内容准确但清晰度略有欠缺。
A vibrant music festival poster features a backdrop of colorful stage lights and an enthusiastic crowd. At the center of the poster, in bold and dynamic typography, it reads: "2024 Summer Music Festival".
flux(用的是同一个prompt,前后生成了两次,一次文字是准确的一次不准确)
mj效果图(算都对,在处理文字的排布上有自己的想法)
Visual electric(可以观察到,第一幅的festival,第二幅图的summer拼错了)
Krea.AI效果图(中间的两幅图漏掉了music)
Black forest labs 今年 8 月 1 日对外正式宣布成立,目前推出了 flux1 文本生成图像模型 API,包括三个版本:Pro、Dev 和 Schnell。同时,BFL 是一家视频生成公司,图片生成只是road map的第一步,未来将推出 SOTA 视频模型。技术路线上,BFL 提出 Rectified Flow Transformers,传统的 Diffusion model 需要多步的噪声处理,修正流模型(rectified flow model) 在数据和噪声之间采用直线连接路径,理论上更简洁。
模型质量上来看,根据用户反馈,Flux 质量/性价比确实是最好的那一档,突出优势是手部和细节的处理、提示词遵循度高、Flux Schnell 生成速度快。与 Stable Diffusion 3、Midjourney 和 DALL·E 3 等模型相比,Flux 在视觉质量和提示遵循方面表现更好。
问题在于 Flux 开源模型由于是蒸馏模型,难以进行微调,影响了模型的可训练性。Flux也不是完善的,部分用户也提到了在某些特定细节(如脚部)仍需要提高,在处理复杂提示时也会遗漏某些元素。我们的尝试也发现还是有问题,比如生成了3只手,文字没准确的表示出来等等。
图一的问题是有三只手,图二的问题是并不是每张卡片上的文字都是准确的,图三尝试生成黑悟空IP
BFL团队由前stability ai核心成员组成,是stable diffusion项目的原班人马,已经成功训练出被社区广泛采用的SDXL文生图模型、SDV视频模型。团队的 research能力、训模型经验都是top tier。
Co-founder Robin Rombach是Stable Diffusion的第一作者,参与了 Stable Diffusion XL(SDXL)、Stable Video Diffusion 和 Rectified Flow Transformers、Latent Diffusion 等工作。Patrick Esser 也是 Stable Diffusion 项目的核心人物之一,同时还参与了 VQGAN 和 Latent Adversarial Diffusion Distillation (LADD) 等项目。Andreas Blattmann 在高分辨率图像生成领域做出了重要贡献,还参与了 Stable Video Diffusion。
董事会成员 Michael Ovitz 是娱乐行业中极具影响力的人物之一,1974年创立了创意艺术家经纪公司(Creative Artists Agency, CAA)。参与了许多重大交易,比如三大好莱坞电影公司的出售。在1995年至1997年期间担任迪士尼公司总裁,并推动了多个知名的广告和营销活动,包括可口可乐的北极熊广告。Matthias Bethge是neural style transfer技术的开创者之一,在欧洲AI研究有很高的地位。
种子轮融资金额:3100 万美元,Andreessen Horowitz 领投,天使投资人Brendan Iribe 、Michael Ovitz、Garry Tan、Timo Aila和Vladlen Koltun跟投;获得了General Catalyst和MätchVC的后续投资
8.21日,Ideogram 更新了最新的2.0版本文生图模型,非常适合做海报、logo以及文字。一些值得highlight的点:
• 对图像风格的控制增强了,包括general、现实、设计、3D 和动漫。
Futuristic cityscape for a technology magazine cover
• 工具:增加了新的样式、调色板,以及 iOS app 和 API。
• 可以搜索社区图片了
• Magic Prompt:使用“describe”根据用户提供的原始图像生成详细的文本prompt,再使用“Magic Prompt”来丰富,提供4种不同的prompt,然后使用“生成”将这些提示生成图像。
• 根据官网的测评,Ideogram 2.0 在图像提示一致性、真实感和文本渲染质量方面取得了显著进步。用户评估认为 Ideogram 2.0 比 Flux Pro 和 DALL·E 3 也效果更好。
• API 定价有竞争力,低于 DALL·E 3,与 Flux Pro 持平。
团队中的前四位成员是谷歌 Imagen Video 论文的作者:
• Mohammad Norouzi, CEO, 之前是 Google Brain Staff Research Scientist, 加拿大多伦多大学 PHD
• William Chan, Cofounder/CTO, 之前也是 Google staff Research Scientist, 卡内基梅隆大学 PHD,曾在 AMD、英伟达、英特尔、谷歌、亚马逊和道明证券公司实习
• Chitwan Saharia,Google Brain senior research scientist
• Jonathan Ho,Google Brain Research scientist, 2017 - 2018在OpenAI做了一年 Research scientist
2023年完成1650万美元种子轮,a16z和Index Ventures领投,其他投资者包括AIX Ventures, Golden Ventures, Two Small Fish Ventures等机构投资者和Google人工智能部门的负责人Jeff Dean, OpenAI联合创始人Andrej Karpathy,GitHub联合创始人Tom Preston-Werner等个人投资者
2024 年 2 月底,完成 8000万美金的 A 轮融资,a16z领投,Index Ventures、Redpoint Ventures、Pear VC 和 SV Angel 等参投。
2024年8月推出了网页版图片编辑器,同时正式官宣进入AI硬件领域,硬件的特征包括 “go inside in",与元宇宙资产结合。
经测评,我们认为midjourney的网页版是目前所有产品中目前功能最全、ui设计最好的。
KREA成立于2022年,旨在革新人类创意表达。Krea 产品的主要思路是在 AI 生成的基础上,通过集成、微调开源模型,涵盖后续编辑工作(AI-native 结合生成+编辑的更全栈的平台)。核心功能包括实时生成(Real-Time Generation)和图像增强(Upscale & Enhance),并允许用户在平台上训练自己的模型。可以生成图片,也可以生成视频,视频生成可操作性也很强,包括自定义首尾帧、无限转场(自己设置关键帧和提示词),对于电脑配置要求不高的用户也非常友好。
创始团队由Diego Rodriguez和Victor Perez组成。Victor在创立 Krea 之前是 Various companies的ML engineer以及Plyzer intelligence的head of ML,co-founder diego 2021年毕业于康奈尔大学,曾计划去stripe工作,但最后决定进行krea的创业。Victor六年前开始研究生成模型,曾参与早期生成AI应用ArtBreeder的开发。两人通过HF0(类似YC的技术创始人孵化项目)一起创建了KREA。
公司创立后,迅速从Facebook AI Research的创始人Keith Adams和OpenAI创始团队成员Pamela Vagata获得了资金支持。
2022年11月成立,是专注为图形设计师、广告创意人员和艺术家构建的图像生成工具。采用开源stable diffusion模型。
Visual electric 保持了持续的产品更新:
三位co-founder的背景都与做拖拽、图形化界面和无代码工具有关。Colin Dunn (CEO) 是 Universe的前高管,还曾在 Facebook 和 Dropbox 工作过。 Adam Menges (Chief Product Officer)前苹果员工,其初创公司Lobe (设计工具)和Lowkey (AR 游戏公司)分别被微软和 Niantic 收购。Zach Stiggelbout (CTO) 曾在 Microsoft 负责 Lobe 项目。
Universe: 移动端网站构建平台,帮助用户在手机上创建和发布网站,不用写代码,成立于2018年,支持电子商务功能,用户可以在自己网站上销售商品或服务。
Lobe:让用户无需编程就能创建和训练机器学习模型。Lobe 提供了一个直观的、图形化的用户界面,用户可以通过拖放方式导入数据、设计模型、并实时查看模型的训练和预测结果。使得没有编程背景的人也能参与到 AI 模型的开发。Lobe 最初是独立的初创公司,后来被微软收购。
2023年3月Sequoia Capital领投了250万美元的种子轮,跟投包括Terrence Rohan,Designer Fund,BoxGroup
Captions 由 Snap 的高管在 21 年创立,定位是 AI-powered creative studio,主打移动端短视频剪辑,但相较 CapCut 更聚焦于 Talking Video(人物口播类视频)和字幕相关功能,整体使用体验更简洁易上手,符合欧美用户的使用习惯。Captions App 没有免费版本,所有创作者必须付费才能使用,定价为 ~$10 美元/月。
Captions 提供完整的短视频生产工作流程功能,涵盖从前期到后期的各个环节:在前期制作阶段,支持通过 AI 自动生成剧本;在制作阶段,提供实时录制和提词器功能;在后期制作阶段,支持视频剪辑、将 YouTube 长视频生成短视频片段,以及通过 AI 进行配音,全面满足短视频内容创作需求。
近半年,Captions还是将重点放在加强Talking Video的能力,包括 AI Skits(两个AI形象相互讨论的视频),AI Twins(克隆)。另外,Captions也在向其他被使用较多的场景扩展,比如一键生成视频广告、AI自动化编辑、3D avatar、Voice Clone。
Captions 的 CEO 来自 Snap,曾经和他的 Co-Founder 在 Locallytics 共事,口碑很好,Sequoia Capital 等天使轮投资者都是 bet 人的逻辑进行的投资。
CEO - Gaurav Misra:CS@BU,曾陆续在 Lattice Engines、Microsoft、Localytics 作为 SWE 工作,16 年加入 Snap,晋升为 Head of Design Engineering 负责新产品的软件开发 + 设计团队,21 年离职创办 Captions。
COO - Dwight Churchill:作为开发者陆续在 Gilt Groupe、Taboola、Localytics 等工作公司,16 年到 19 年在高盛 Marcus 团队负责 Clarity Money 的产品,随后在 Klaviyo 作为产品经理工作了一年,21 年离职创办 Captions。
2024年7月29日完成6000万美元的C轮融资,由Index Ventures领投,老股东Kleiner Perkins、红杉资本和Andreessen Horowitz以及新股东Adobe Ventures、HubSpot Ventures和Jared Leto参与投资。融资总金额超过 1 亿美元,公司估值为 5 亿美元。
更早轮次的主要投资者是 Sequoia Capital、a16z、KP 3 家一线基金,具体的项目负责人都有 To-C 从业或投资的经验。
Veed 是一个在浏览器端的专业视频编辑器,功能全面,用户评价它“非常容易上手,提供完整的剪辑功能,字幕功能也很不错,但价格稍贵”。Basic 方案每月收费 12 美元,Pro 方案每月收费 24 美元。每月有 1200 万用户,其中 100,000 名付费订阅用户。Veed 由 Sabba Keynejad 于 2018 年创立,通过bootstrap的方式发展起来,目前已获得 Sequoia Capital 的投资。
从首页可以看到,veed 目前已经由一个general 的编辑工具,变成了场景导向的产品了,general 的编辑浓缩到"create new project"这个功能上,record video, 生成 AI Avatar,长视频转短视频,text to video 以及提供了大量的模板。另外,还有一些用户常见的需求作为单独的入口,比如移除背景、生成字幕、翻译多种语言、eye contact、移除背景音、智能剪辑停顿。最近发布了 Video GPT,使用 ChatGPT 的 GPT 的视频创作工具。
总体来看,veed这家公司偏传统,AI功能很全,但效果比较一般,更像一个网页端的视频编辑器,不断地加入一些AI feature。
CEO Sabba Keynejad,曾是自雇的产品设计师,并在创意设计公司FITCH和The Partners工作。拥有伦敦艺术大学中央圣马丁学院的设计与视觉传播学士学位。Co-founder Tim Mamedov, 2017年毕业于伦敦国王学院,拥有计算机科学学士学位。毕业后就创业,创立了 VEED.IO。
两人在黑客马拉松上相识,Keynejad使用了个人积蓄的4万英镑来启动公司。公司成立初期,他们曾尝试筹资但失败,陷入经济困境。后来Mamedov找到了一份BT的合同工作后,将自己一半的工资交给Keynejad来继续推动公司的发展,这种情况持续了六个月。目前 veed 年收入从零增长至2600万美元。
2023年成立,核心是帮助企业制作视频广告,企业提供产品URL或描述,在几分钟内自动转化为精炼营销内容,减少用于视频广告制作的时间和资源。Creatify 也可以生成适合不同平台的内容。这对于本身没有足够营销预算的小型企业和初创公司特别有价值,因为这些企业本身没有足够的营销预算。近半年,这也是capcut的发展重点。
产品的主要功能包括:
1. 短视频广告制作:能够将产品URL转换成视频广告(或手动上传)。
2. AI Script Writer:大语言模型将自动判断产品主要卖点,自动生成多个广告脚本,供用户选择
3. 生成预览视频,包括AI Avatar头像:根据选定的文字脚本内容,Creatify自动生成分镜剧本和数字人内容。1分钟左右自动渲染生成多个可以预览的广告片段;提供超370个AI头像。URL to video 有多种样式可以选择
4. 云剪编辑功能:可调整每一帧的物料、文字、字幕、特效元素
5. 渲染导出成片
另外还包括功能:
• Text-to-Speech:提供140多种AI语音,为广告配音
• Custom Avatar自定义头像:用户可以将自己的形象转换成一个自定义的AI头像,保持一致的形象
• Batch Mode批处理模式:允许用户组合产品网址、脚本、模板和AI头像来生成多个广告版本
Creatify 的团队来自 Meta、Google、Snap 和阳狮集团(法国最大的广告传播公司)等。
• CEO Yinan Na:清华大学本科、斯坦福大学计算机硕士。曾在Snap负责内容审核和开发Discover产品,为Meta Feed广告团队的早期成员,创立了Meta的首个视频广告模型。
• Chief Scientist Ledell Wu:北大本科、多伦多大学计算机硕士。曾在FAIR、BAAI任职,主导开发StarSpace模型,并参与PyTorch-BigGraph项目。
• CTO Xin Zhou:北京交通大学本科、纽约大学计算机硕士。曾任Meta Reels推荐平台工程经理及Airbnb定价团队技术主管。
Heygen近半年围绕数字人主线不断增加新功能,包括所有免费用户都可创建数字分身、根据PPT/PDF自动生成带avatar的presentation视频、Motion 1.0 全身数字人,也在持续推出新的avatar形象。其他新功能还包括可以直接输入产品URL生成数字人营销视频、长视频剪辑成短视频、配音升级等等。
Opusclip 2022年成立,是一款专注于将长视频批量生成短视频的工具,功能包括自动裁剪视频、调整视频大小、添加字幕、自动裁切人物主体、生成标题和文案、并添加字幕与emoji表情,用于YouTube Shorts、TikTok和Instagram Reels等平台上。目前用户已经突破 600 万,ARR 预估在 2000 万美金左右。 billboard.com、西班牙电信以及 Univision 等也是 OpusClip 的客户。
Opus Clip 的主要使用场景包括:内容创作者将长视频制作成适合 YouTube 和 Instagram 等平台的短片;营销人员快速生成宣传视频;社交媒体用户保持稳定内容输出;教育工作者将讲座或课程制作成简短片段。然而,其局限在于仅支持人物出现在视频中的场景,对 vlog、MV 或游戏类视频的批量处理能力有限,插入图片或表格等内容需要借助其他工具。
CEO 赵洋曾担任 LinkedIn 用户体验设计师,并于2015年联合创立再惠科技。他将 Opus Clip 定位为自主视频编辑代理,致力于根据用户反馈和内容偏好,自动进行视频摄取、理解和剪辑。公司在美国组建新团队,并推出了多模态 AI 剪辑工具 ClipAnything。该工具通过视觉、音频和情感线索剪辑视频,核心功能包括:
1. 智能视频分析:分析视频每一帧,识别物体、场景、声音等,并为片段的传播潜力评分。
2. 个性化剪辑:通过用户自定义prompt,捕捉关键时刻。比如“所有走红毯的片段。”
3. 智能重构:自动调整视频比例,优化内容适应不同社交平台。
OpusClip刚刚完成了 A 轮融资,金额为 3000 万美金,Millennium New Horizons 领投,Samsung Next、GTMfund 和 DCM Ventures 跟投。
Viggle 的核心能力是用 AI 让图片+视频组合生成新内容。上传一张照片,再上传一段人物跳舞、踢球或任意的动作视频,结合生成,就可以将照片中的人脸替换到视频中的人脸上,做出视频中人物的动作。
Viggle的破圈方式是与TikTok做了很好的结合,实现了病毒式传播。因为模型生成的视频质量本身比较粗糙,所以Viggle不靠视频的精致程度取胜,而是主打鬼畜好玩,包括卡通人物踢足球,美女踢足球,足球明星跳舞等等。相比之前的通义千问、Boogie AI 等跳舞换脸工具,Viggle 模板更多,很戳用户喜欢的点。另一个巧妙的点是用户也可以自己制作模板,制作门槛非常低,可以是在足球比赛中节选的鬼畜画面,也可以是自己录制的跳舞视频,这让viggle的内容生态可以很快的繁荣起来。
不过viggle的用户数量在爆火之后快速下降,仅靠一时的新意去吸引用户是不够的,AI产品还是需要找到能够让用户长期留在平台上的功能。
Anthropic 创始人最看好的领域,AI for Science 深度解读
Dario Amodei:Scaling Law 还没遇到上限