都说 AI 还在等待超级应用,或许月活接近 6 亿的 ChatGPT 在某种程度上已经是了。而在国内月活超过千万的 AI 应用也屈指可数,其中用户量最大的就是豆包,月活达到 5998 万,仅次于 ChatGPT 位列全球第二,年底 1 亿月活的目标也似乎不是遥不可及。今天豆包又迎来了一个重磅更新,视觉理解模型正式发布。我们在今年的 GPT-4o、Google 的 Project Astra,以及 iPhone 16 和一众旗舰机型上都看到了视觉理解模型在加速落地,让多模态交互降低用户的使用门槛,辅助完成一系列复杂的任务。那么豆包的视觉理解模型有什么不同?在看完发布会和简单实测后,我发现这个模型有这几个特点:非常强的内容识别能力,不仅能精准识别图像中的物体类别和形状等基本元素,还能深入理解它们之间的关系、空间结构以及场景的整体语义。具备强大的理解和推理能力,除了能够更高效地识别内容,还能基于文字与图像信息进行复杂的逻辑推演与计算。比如给它一张动物影子的照片,它可以根据轮廓识别出这是一只猫。还有一个我旅行时很爱用的功能,只要拍下一个建筑,它就能给你介绍这背后的历史和各种细节。而在推理能力,在 o1 推出后,这也成为各种模型的大考。豆包这次将推理能力到视觉理解模型中,在解答微积分题和今年的高考物理题时可以看到,豆包视觉理解模型都能正确理解题意,并根据提示给出清晰解题思路。豆包甚至还能出类似知识点给你出新的练习题,可以说是家长辅导作业的神器。对于内容创作需求,豆包也有了提升。比如随手画一幅涂鸦,就能让它编写一个故事。结合视觉理解模型,豆包这些 AI 创作功能也有了更多可玩性,比如根据一张风景照让豆包作一首诗,然后将诗句创作成海报。在现场,字节还放出了一个更重磅的消息,将豆包视觉理解的价格打到了每千 tokens 0.003 元,相当于一块钱可以处理 284 张 720P 的图片。视觉理解模型都以厘定价了,这在如今大模型中到底多炸裂?GPT-4o 128k 的价格是每千 Tokens 一分七厘。阿里的qwen-vl-max 32k 是 2 分钱,豆包比行业平均价格降低 85%,打了个骨折。在今年国产大模型掀起的价格战中,字节手持的屠刀也越来越大。5 月份豆包将通用模型 pro-32k 版的价格定在0.0008元/千 tokens,比行业均价低 99.3%,花一元钱就能让豆包处理 200 万个汉字,相当于三本《三国演义》,让行业其他玩家不得不跟进。关注 AI 第一新媒体,率先获取 AI 前沿资讯和洞察
快速的模型迭代,丰富的应用生态和激进的定价,共同助推了豆包的高速增长。火山引擎总裁谭待表示,截止到上周日,12 月 15 号,豆包大模型的日均 tokens 数已经突破了 4 万亿,在 7 个月的时间里增长超过 33 倍。据不完全统计字节今年发布的 AI 应用就有接近 20 款,基本覆盖了图像、语音、音乐、视频、3D 等主流的模态和场景,还推出了 AI 耳机 Ola Friend 等硬件产品。以 App 工厂闻名的字节,似乎要将这个策略沿用到这场 AI 新浪潮中。既然没有人能笃定什么是 AI 杀手级场景,那么就用饱和式打法,这也让字节成为 AI 军火库中最为齐全的一家科技公司。在大模型从快速扩张进入到淘汰赛的阶段,以字节的财务状况和算力资源,也让它可以采用 AI 几小龙无法做到的打法,来打造下一个爆款 AI 应用。据悉在字节内部,已经提升了即梦的优先级,希望通过新的路径塑造「AI 时代的抖音」,而即梦的负责人,也是 0 到 1 打造出抖音的张楠。今天张楠在发布会上表示,抖音是一个「真实世界」的相机,而即梦希望借助 GenAI 技术成为想象力世界的相机,也可见字节对于即梦的期待值有多高。不过被寄予这一厚望的字节产品,恐怕也不会只有一款。