专栏名称: 新皮层NewNewThing
关注人工智能与人类智能。
目录
相关文章推荐
雷科技  ·  自研影像芯片,彻底凉凉了? ·  昨天  
歸藏的AI工具箱  ·  最强多模态模型!人人都能精准 P 图 ·  3 天前  
歸藏的AI工具箱  ·  最强多模态模型!人人都能精准 P 图 ·  3 天前  
技术最前线  ·  字节跳动:辞退 353 人,追刑责 39 人 ·  3 天前  
51好读  ›  专栏  ›  新皮层NewNewThing

张楠卸任抖音CEO后首露面,为即梦站台|大公司

新皮层NewNewThing  · 公众号  ·  · 2024-12-20 17:31

正文

记者:陆彦君

编辑:吴洋洋


Key Points


首次推出类o1的视觉理解模型,与Kimi旗下的K1模型对阵;


现在,即梦能控制图片中的文字生成;


李飞飞和Google之后,字节也有3D生成模型了;


豆包抢夺浏览器市场后,还要再抢占文档编辑器市场;


价格战继续:豆包最强模型价格只有GPT-4o的1/8。


作为大厂中最后两个推出大模型的公司之一,字节以短跑速度狂奔了一年。现在,它实现了在模型覆盖、产品矩阵和用户数量上的全面反超。

12月18日至19日,字节跳动在火山引擎Force冬季大会上公布了AI模型和应用层的多项更新。其中包括一款类o1模型的视觉理解模型和一个3D视频生成模型,前者使字节成为国内最早推出类o1模型的大公司,此前,国内仅有初创公司 月之暗面(后简称Kimi)推出过类似模型 ;后者则使字节加入「世界模拟器」的参赛阵营。

对于大公司和初创公司,字节采取了不同的竞争策略。考察了各大公司的模型能力后,字节几乎将最看重的阿里大模型人才洗劫一空。而对于初创公司 ,第一财经「新皮层」获得的消息称,字节最为看重的对手是Kimi,从模型技术路线到产品功能,字节都紧逼Kimi。

视觉理解模型的推出只是两家公司的对战之一,此前,Kimi发起长文本、广告投流、推出AI搜索功能不久,豆包都迅速跟进了,并借助其资金实力反超。人才上,Kimi类o1模型的技术负责人刘征瀛在入职之前,字节跳动高层也曾争取其加入字节大模型团队。

语言模型能力赶上对手后,字节现在在视觉模型领域投出了更多炸弹。

12月18日的发布会上,字节剪映业务负责人张楠带队发布了即梦的一系列更新。即梦是字节在豆包之外另一款核心原生AI产品,主要功能是图片和视频生成。最新更新中,即梦开始能控制图片中的文字生成,成为国内首个能在图像中生成文字的大模型产品。

在字节,豆包所在的Flow团队由朱骏带领,即梦所在的剪映团队由张楠带领。豆包和即梦分别侧重语言应用和视觉应用。

这是张楠在2月辞去抖音集团CEO、转任剪映负责人后的首次公开露面。今年2月,张楠发表内部信,称辞去抖音集团CEO一职,接下来要把精力聚焦剪映和CapCut(剪映海外版)业务。内部信中,她强调生成式AI对图像、视频领域的颠覆和机会。加入字节之前,张楠曾创办图片社区「图吧」,「图吧」被字节收购后,张楠加入字节,从0到1推出抖音、火山小视频等视频产品。即梦相当于是张楠的第3次创业。

12月18日的发布会中, 张楠称,视觉模型将极大改变我们观看视频的方式——实际上,用户将不再是被动观看,而是可以在任何时刻介入、参与和影响剧情走向或者观看不同的故事分支。 不仅如此,技术还可以使生物脑电波可视化,意味着我们可以探索潜意识的创作之路。「科学家估算过,人的一生可以容纳 10 亿个想法。」张楠说,如果抖音是记录「真实世界的相机」,即梦就是一款「想象力的相机」。

目前,字节还没有从其对大模型领域的大手笔投入赚钱。不过由于这些投入,字节在因生成式AI产生的云计算需求上获得了回报。国际数据公司IDC最新发布的报告显示,2024年上半年,火山引擎在GenAI IaaS市场位居第二,仅次于阿里云。12月19日有消息称,苹果公司正与腾讯、字节跳动、智谱等公司商谈,将其大模型整合到在中国销售的iPhone中。

以下是字节在这场发布会上值得关注的更新:

首次推出视觉理解模型,与Kimi旗下的K1模型对阵

据火山引擎总裁谭待介绍,豆包视觉理解模型不仅能精准识别视觉内容,还具备出色的理解和推理能力,可根据图像信息进行复杂的逻辑计算,完成分析图表、处理代码、解答学科问题等任务。

在豆包视觉理解模型推出之前两天,12月16日, 月之暗面刚刚发布过同类视觉理解模型K1 ,月之暗面称该模型在后训练阶段采用强化学习技术,具有「推理」能力,不需要借助外部的OCR或额外的视觉模型才能理解图像。该技术路线与 OpenAI推出的o1系列模型 相似,豆包视觉理解模型也采用相似技术路线。

目前,该模型已接入豆包App和PC端,根据图像信息,可以分析体检报告、指正代码错误、通过动物的影子辨认出小猫、阅读微积分题目给出推理过程和解题思路,还能识别火山引擎总部位置,给出前往北京南站的出差方案。字节跳动称,在应用方面,该模型可落地图片问答、医疗健康、教育科研、电商购物、生活助手等场景。







请到「今天看啥」查看全文