专栏名称: APPSO
让智能手机更好用的秘密。
目录
相关文章推荐
小众软件  ·  比听快10倍!播客版小美与小帅 ·  2 天前  
APPSO  ·  OpenAI 前首席科学家 ... ·  3 天前  
小众软件  ·  近期 GOG、Epic、Steam ... ·  4 天前  
APPSO  ·  ChatGPT 年底重磅第 7 ... ·  5 天前  
51好读  ›  专栏  ›  APPSO

杀疯了!豆包发布视觉理解大模型,又把价格打骨折

APPSO  · 公众号  · app  · 2024-12-18 15:12

正文

都说 AI 还在等待超级应用,或许月活接近 6 亿的 ChatGPT 在某种程度上已经是了。
而在国内月活超过千万的 AI 应用也屈指可数,其中用户量最大的就是豆包,月活达到 5998 万,仅次于 ChatGPT 位列全球第二,年底 1 亿月活的目标也似乎不是遥不可及。
今天豆包又迎来了一个重磅更新,视觉理解模型正式发布。
我们在今年的 GPT-4o、Google 的 Project Astra,以及 iPhone 16 和一众旗舰机型上都看到了视觉理解模型在加速落地,让多模态交互降低用户的使用门槛,辅助完成一系列复杂的任务。
那么豆包的视觉理解模型有什么不同?在看完发布会和简单实测后,我发现这个模型有这几个特点:

非常强的内容识别能力,不仅能精准识别图像中的物体类别和形状等基本元素,还能深入理解它们之间的关系、空间结构以及场景的整体语义。

具备强大的理解和推理能力,除了能够更高效地识别内容,还能基于文字与图像信息进行复杂的逻辑推演与计算。

细致入微的视觉描述和创作能力
比如给它一张动物影子的照片,它可以根据轮廓识别出这是一只猫。
还有一个我旅行时很爱用的功能,只要拍下一个建筑,它就能给你介绍这背后的历史和各种细节。
而在推理能力,在 o1 推出后,这也成为各种模型的大考。
豆包这次将推理能力到视觉理解模型中,在解答微积分题和今年的高考物理题时可以看到,豆包视觉理解模型都能正确理解题意,并根据提示给出清晰解题思路。
豆包甚至还能出类似知识点给你出新的练习题,可以说是家长辅导作业的神器。
对于内容创作需求,豆包也有了提升。比如随手画一幅涂鸦,就能让它编写一个故事。
不久前豆包也正式支持在图片生成中文,填补了 AI 应用生成中文的空白。(使用技巧可点击《豆包支持在图片生成中文!AI 文生图的难题终于被解决了》
结合视觉理解模型,豆包这些 AI 创作功能也有了更多可玩性,比如根据一张风景照让豆包作一首诗,然后将诗句创作成海报。
在现场,字节还放出了一个更重磅的消息,将豆包视觉理解的价格打到了每千 tokens 0.003 元,相当于一块钱可以处理 284 张 720P 的图片。
视觉理解模型都以厘定价了,这在如今大模型中到底多炸裂?
GPT-4o 128k 的价格是每千 Tokens 一分七厘。阿里的qwen-vl-max 32k 是 2 分钱,豆包比行业平均价格降低 85%,打了个骨折。
在今年国产大模型掀起的价格战中,字节手持的屠刀也越来越大。
5 月份豆包将通用模型 pro-32k 版的价格定在0.0008元/千 tokens,比行业均价低 99.3%,花一元钱就能让豆包处理 200 万个汉字,相当于三本《三国演义》,让行业其他玩家不得不跟进。

关注 AI 第一新媒体,率先获取 AI 前沿资讯和洞察

快速的模型迭代,丰富的应用生态和激进的定价,共同助推了豆包的高速增长。
火山引擎总裁谭待表示,截止到上周日,12 月 15 号,豆包大模型的日均 tokens 数已经突破了 4 万亿,在 7 个月的时间里增长超过 33 倍。
据不完全统计字节今年发布的 AI 应用就有接近 20 款,基本覆盖了图像、语音、音乐、视频、3D 等主流的模态和场景,还推出了 AI 耳机 Ola Friend 等硬件产品。
以 App 工厂闻名的字节,似乎要将这个策略沿用到这场 AI 新浪潮中。
既然没有人能笃定什么是 AI 杀手级场景,那么就用饱和式打法,这也让字节成为 AI 军火库中最为齐全的一家科技公司。
在大模型从快速扩张进入到淘汰赛的阶段,以字节的财务状况和算力资源,也让它可以采用 AI 几小龙无法做到的打法,来打造下一个爆款 AI 应用。
据悉在字节内部,已经提升了即梦的优先级,希望通过新的路径塑造「AI 时代的抖音」,而即梦的负责人,也是 0 到 1 打造出抖音的张楠。
今天张楠在发布会上表示,抖音是一个「真实世界」的相机,而即梦希望借助 GenAI 技术成为想象力世界的相机,也可见字节对于即梦的期待值有多高。
不过被寄予这一厚望的字节产品,恐怕也不会只有一款。