专栏名称: APPSO

让智能手机更好用的秘密。

目录

相关文章推荐

小众软件 · 另外两件事[250310] · 6 小时前

APPSO · 刚刚，前华为天才少年发布首个通用具身基座模型 ... · 13 小时前

小众软件 · 另外两件事[250309] · 昨天

小众软件 · 广告拦截工具 AdGuard 买断版限时 38 折 · 3 天前

小众软件 · 求不到邀请码？OpenManus ... · 3 天前

51好读 › 专栏 › APPSO

杀疯了！豆包发布视觉理解大模型，又把价格打骨折

APPSO · 公众号 · app · 2024-12-18 15:12

主要观点总结

文章介绍了豆包作为国内月活用户数最多的AI应用之一，发布了新的视觉理解模型，具备强大的内容识别、理解和推理能力。其特点包括识别图像中的基本元素和复杂关系，进行视觉描述和创作。此外，豆包支持在图片生成中文，丰富了AI创作功能。价格方面，豆包视觉理解模型的价格比行业均价低很多，引发了行业内的价格竞争。字节发布了多款AI应用，并试图通过饱和式打法打造下一个爆款AI应用。

关键观点总结

关键观点1: 豆包发布视觉理解模型，具备强大的内容识别、理解和推理能力。

新模型能识别图像中的物体、关系、空间结构和场景语义，进行复杂的逻辑推演与计算，提供视觉描述和创作功能。

关键观点2: 豆包支持在图片生成中文，丰富了AI创作功能。

结合视觉理解模型，用户可以根据风景照让豆包作诗并生成海报，提高了创作的可玩性。

关键观点3: 豆包视觉理解模型价格比行业均价低很多。

其定价策略引发行业内价格竞争，推动了AI应用的发展。

关键观点4: 字节发布多款AI应用，试图通过饱和式打法打造下一个爆款AI应用。

字节今年发布了多款AI应用，涵盖图像、语音、音乐、视频、3D等主流模态和场景。他们试图通过多样化策略打造下一个爆款AI应用，如即梦项目，期望成为“AI时代的抖音”。

正文

都说 AI 还在等待超级应用，或许月活接近 6 亿的 ChatGPT 在某种程度上已经是了。

而在国内月活超过千万的 AI 应用也屈指可数，其中用户量最大的就是豆包，月活达到 5998 万，仅次于 ChatGPT 位列全球第二，年底 1 亿月活的目标也似乎不是遥不可及。

今天豆包又迎来了一个重磅更新， 视觉理解模型正式发布。

我们在今年的 GPT-4o、Google 的 Project Astra，以及 iPhone 16 和一众旗舰机型上都看到了视觉理解模型在加速落地，让多模态交互降低用户的使用门槛，辅助完成一系列复杂的任务。

那么豆包的视觉理解模型有什么不同？在看完发布会和简单实测后，我发现这个模型有这几个特点：

非常强的内容识别能力，不仅能精准识别图像中的物体类别和形状等基本元素，还能深入理解它们之间的关系、空间结构以及场景的整体语义。

具备强大的理解和推理能力，除了能够更高效地识别内容，还能基于文字与图像信息进行复杂的逻辑推演与计算。

细致入微的视觉描述和创作能力

比如给它一张动物影子的照片，它可以根据轮廓识别出这是一只猫。

还有一个我旅行时很爱用的功能，只要拍下一个建筑，它就能给你介绍这背后的历史和各种细节。

而在推理能力，在 o1 推出后，这也成为各种模型的大考。

豆包这次将推理能力到视觉理解模型中，在解答微积分题和今年的高考物理题时可以看到，豆包视觉理解模型都能正确理解题意，并根据提示给出清晰解题思路。

豆包甚至还能出类似知识点给你出新的练习题，可以说是家长辅导作业的神器。

对于内容创作需求，豆包也有了提升。比如随手画一幅涂鸦，就能让它编写一个故事。

不久前豆包也正式支持在图片生成中文，填补了 AI 应用生成中文的空白。（使用技巧可点击《豆包支持在图片生成中文！AI 文生图的难题终于被解决了》）

结合视觉理解模型，豆包这些 AI 创作功能也有了更多可玩性，比如根据一张风景照让豆包作一首诗，然后将诗句创作成海报。

在现场，字节还放出了一个更重磅的消息，将豆包视觉理解的价格打到了每千 tokens 0.003 元，相当于一块钱可以处理 284 张 720P 的图片。

视觉理解模型都以厘定价了，这在如今大模型中到底多炸裂？

GPT-4o 128k 的价格是每千 Tokens 一分七厘。阿里的qwen-vl-max 32k 是 2 分钱，豆包比行业平均价格降低 85%，打了个骨折。

在今年国产大模型掀起的价格战中，字节手持的屠刀也越来越大。

5 月份豆包将通用模型 pro-32k 版的价格定在0.0008元/千 tokens，比行业均价低 99.3%，花一元钱就能让豆包处理 200 万个汉字，相当于三本《三国演义》，让行业其他玩家不得不跟进。

关注 AI 第一新媒体，率先获取 AI 前沿资讯和洞察

快速的模型迭代，丰富的应用生态和激进的定价，共同助推了豆包的高速增长。

火山引擎总裁谭待表示，截止到上周日，12 月 15 号，豆包大模型的日均 tokens 数已经突破了 4 万亿， 在 7 个月的时间里增长超过 33 倍。

据不完全统计字节今年发布的 AI 应用就有接近 20 款，基本覆盖了图像、语音、音乐、视频、3D 等主流的模态和场景，还推出了 AI 耳机 Ola Friend 等硬件产品。

以 App 工厂闻名的字节，似乎要将这个策略沿用到这场 AI 新浪潮中。

既然没有人能笃定什么是 AI 杀手级场景，那么就用饱和式打法，这也让字节成为 AI 军火库中最为齐全的一家科技公司。

在大模型从快速扩张进入到淘汰赛的阶段，以字节的财务状况和算力资源，也让它可以采用 AI 几小龙无法做到的打法，来打造下一个爆款 AI 应用。

请到「今天看啥」查看全文

推荐文章

小众软件 · 另外两件事[250310]

6 小时前

APPSO · 刚刚，前华为天才少年发布首个通用具身基座模型！机器人看视频就能学习做家务

13 小时前

小众软件 · 另外两件事[250309]

昨天

小众软件 · 广告拦截工具 AdGuard 买断版限时 38 折

3 天前

小众软件 · 求不到邀请码？OpenManus 只用了3个小时，就开源复刻了 Manus ...吗？

3 天前

微精选 · 这件小事竟然可以让人一夜暴富?!

8 年前

枕边阅读 · 致每个陪睡的妈妈，全世界欠你一个拥抱

7 年前

百思不得姐 · 健身房失误合集，真是笑炸了，太能作死了！【劲爆短视频】

7 年前

广东公共DV现场 · 视听盛宴！“一带一路”微视频《大道之行》震撼来袭！

7 年前

上海闵行 · 【便民】P+R生态停车场、夜跑圣地、71种奇花异卉竞相绽放......银都路地铁站旁，一片多功能高颜值的绿地已建成开放！

7 年前

Sov5搜索 · 小百科 · 今天看啥 · 移动版

51好读 - 好文章就要读起来!