作为大厂中最后两个推出大模型的公司之一,字节以短跑速度狂奔了一年。现在,它实现了在模型覆盖、产品矩阵和用户数量上的全面反超。
12月18日至19日,字节跳动在火山引擎Force冬季大会上公布了AI模型和应用层的多项更新。其中包括一款类o1模型的视觉理解模型和一个3D视频生成模型,前者使字节成为国内最早推出类o1模型的大公司,此前,国内仅有初创公司
月之暗面(后简称Kimi)推出过类似模型
;后者则使字节加入「世界模拟器」的参赛阵营。
对于大公司和初创公司,字节采取了不同的竞争策略。考察了各大公司的模型能力后,字节几乎将最看重的阿里大模型人才洗劫一空。而对于初创公司
,第一财经「新皮层」获得的消息称,字节最为看重的对手是Kimi,从模型技术路线到产品功能,字节都紧逼Kimi。
视觉理解模型的推出只是两家公司的对战之一,此前,Kimi发起长文本、广告投流、推出AI搜索功能不久,豆包都迅速跟进了,并借助其资金实力反超。人才上,Kimi类o1模型的技术负责人刘征瀛在入职之前,字节跳动高层也曾争取其加入字节大模型团队。
语言模型能力赶上对手后,字节现在在视觉模型领域投出了更多炸弹。
12月18日的发布会上,字节剪映业务负责人张楠带队发布了即梦的一系列更新。即梦是字节在豆包之外另一款核心原生AI产品,主要功能是图片和视频生成。最新更新中,即梦开始能控制图片中的文字生成,成为国内首个能在图像中生成文字的大模型产品。
在字节,豆包所在的Flow团队由朱骏带领,即梦所在的剪映团队由张楠带领。豆包和即梦分别侧重语言应用和视觉应用。
这是张楠在2月辞去抖音集团CEO、转任剪映负责人后的首次公开露面。今年2月,张楠发表内部信,称辞去抖音集团CEO一职,接下来要把精力聚焦剪映和CapCut(剪映海外版)业务。内部信中,她强调生成式AI对图像、视频领域的颠覆和机会。加入字节之前,张楠曾创办图片社区「图吧」,「图吧」被字节收购后,张楠加入字节,从0到1推出抖音、火山小视频等视频产品。即梦相当于是张楠的第3次创业。
12月18日的发布会中,
张楠称,视觉模型将极大改变我们观看视频的方式——实际上,用户将不再是被动观看,而是可以在任何时刻介入、参与和影响剧情走向或者观看不同的故事分支。
不仅如此,技术还可以使生物脑电波可视化,意味着我们可以探索潜意识的创作之路。「科学家估算过,人的一生可以容纳 10 亿个想法。」张楠说,如果抖音是记录「真实世界的相机」,即梦就是一款「想象力的相机」。
目前,字节还没有从其对大模型领域的大手笔投入赚钱。不过由于这些投入,字节在因生成式AI产生的云计算需求上获得了回报。国际数据公司IDC最新发布的报告显示,2024年上半年,火山引擎在GenAI IaaS市场位居第二,仅次于阿里云。12月19日有消息称,苹果公司正与腾讯、字节跳动、智谱等公司商谈,将其大模型整合到在中国销售的iPhone中。
以下是字节在这场发布会上值得关注的更新: