主要观点总结
文章介绍了豆包作为国内月活用户数最多的AI应用之一,发布了新的视觉理解模型,具备强大的内容识别、理解和推理能力。其特点包括识别图像中的基本元素和复杂关系,进行视觉描述和创作。此外,豆包支持在图片生成中文,丰富了AI创作功能。价格方面,豆包视觉理解模型的价格比行业均价低很多,引发了行业内的价格竞争。字节发布了多款AI应用,并试图通过饱和式打法打造下一个爆款AI应用。
关键观点总结
关键观点1: 豆包发布视觉理解模型,具备强大的内容识别、理解和推理能力。
新模型能识别图像中的物体、关系、空间结构和场景语义,进行复杂的逻辑推演与计算,提供视觉描述和创作功能。
关键观点2: 豆包支持在图片生成中文,丰富了AI创作功能。
结合视觉理解模型,用户可以根据风景照让豆包作诗并生成海报,提高了创作的可玩性。
关键观点3: 豆包视觉理解模型价格比行业均价低很多。
其定价策略引发行业内价格竞争,推动了AI应用的发展。
关键观点4: 字节发布多款AI应用,试图通过饱和式打法打造下一个爆款AI应用。
字节今年发布了多款AI应用,涵盖图像、语音、音乐、视频、3D等主流模态和场景。他们试图通过多样化策略打造下一个爆款AI应用,如即梦项目,期望成为“AI时代的抖音”。
正文
都说 AI 还在等待超级应用,或许月活接近 6 亿的 ChatGPT 在某种程度上已经是了。
而在国内月活超过千万的 AI 应用也屈指可数,其中用户量最大的就是豆包,月活达到 5998 万,仅次于 ChatGPT 位列全球第二,年底 1 亿月活的目标也似乎不是遥不可及。
今天豆包又迎来了一个重磅更新,
视觉理解模型正式发布。
我们在今年的 GPT-4o、Google 的 Project Astra,以及 iPhone 16 和一众旗舰机型上都看到了视觉理解模型在加速落地,让多模态交互降低用户的使用门槛,辅助完成一系列复杂的任务。
那么豆包的视觉理解模型有什么不同?在看完发布会和简单实测后,我发现这个模型有这几个特点:
非常强的内容识别能力,不仅能精准识别图像中的物体类别和形状等基本元素,还能深入理解它们之间的关系、空间结构以及场景的整体语义。
具备强大的理解和推理能力,除了能够更高效地识别内容,还能基于文字与图像信息进行复杂的逻辑推演与计算。
比如给它一张动物影子的照片,它可以根据轮廓识别出这是一只猫。
还有一个我旅行时很爱用的功能,只要拍下一个建筑,它就能给你介绍这背后的历史和各种细节。
而在推理能力,在 o1 推出后,这也成为各种模型的大考。
豆包这次将推理能力到视觉理解模型中,在解答微积分题和今年的高考物理题时可以看到,豆包视觉理解模型都能正确理解题意,并根据提示给出清晰解题思路。
豆包甚至还能出类似知识点给你出新的练习题,可以说是家长辅导作业的神器。
对于内容创作需求,豆包也有了提升。比如随手画一幅涂鸦,就能让它编写一个故事。
结合视觉理解模型,豆包这些 AI 创作功能也有了更多可玩性,比如根据一张风景照让豆包作一首诗,然后将诗句创作成海报。
在现场,字节还放出了一个更重磅的消息,将豆包视觉理解的价格打到了每千 tokens 0.003 元,相当于一块钱可以处理 284 张 720P 的图片。
视觉理解模型都以厘定价了,这在如今大模型中到底多炸裂?
GPT-4o 128k 的价格是每千 Tokens 一分七厘。阿里的qwen-vl-max 32k 是 2 分钱,豆包比行业平均价格降低 85%,打了个骨折。
在今年国产大模型掀起的价格战中,字节手持的屠刀也越来越大。
5 月份豆包将通用模型 pro-32k 版的价格定在0.0008元/千 tokens,比行业均价低 99.3%,花一元钱就能让豆包处理 200 万个汉字,相当于三本《三国演义》,让行业其他玩家不得不跟进。
关注 AI 第一新媒体,率先获取 AI 前沿资讯和洞察
快速的模型迭代,丰富的应用生态和激进的定价,共同助推了豆包的高速增长。
火山引擎总裁谭待表示,截止到上周日,12 月 15 号,豆包大模型的日均 tokens 数已经突破了 4 万亿,
在 7 个月的时间里增长超过 33 倍。
据不完全统计字节今年发布的 AI 应用就有接近 20 款,基本覆盖了图像、语音、音乐、视频、3D 等主流的模态和场景,还推出了 AI 耳机 Ola Friend 等硬件产品。
以 App 工厂闻名的字节,似乎要将这个策略沿用到这场 AI 新浪潮中。
既然没有人能笃定什么是 AI 杀手级场景,那么就用饱和式打法,这也让字节成为 AI 军火库中最为齐全的一家科技公司。
在大模型从快速扩张进入到淘汰赛的阶段,以字节的财务状况和算力资源,也让它可以采用 AI 几小龙无法做到的打法,来打造下一个爆款 AI 应用。