专栏名称: 六合商业研选

六合咨询立足新经济，挖掘明日之星，发现价值，传播价值；国际化视野、多角度观察、深度思考、体系化研究，持续提升研究广度与深度，全面覆盖一级、新三板、二级（A股+美股+港股）；深度剖析优质企业商业模式与投资价值，前瞻性洞察行业本质与发展趋势。

【智能前线】第16期：豆包视觉理解模型正式发布，通用模型能力全面对齐GPT-4o，视觉理解大模型能力实测

六合商业研选 · 公众号 · · 2024-12-25 06:30

正文

请到「今天看啥」查看全文

2024年12月18日，字节火山引擎冬季Force原动力大会，豆包大模型家族迎来全面升级，发布豆包视觉理解模型，升级版豆包主力通用模型、视频生成模型、音乐生成模型、文生图模型等。

豆包视觉理解模型首次亮相，具有强大视觉感知能力，在识别物体、理解场景、文化知识方面表现出色，能结合视觉与语言输入进行深度思考与创作，可在教育、旅游、电商等多个场景应用，预示大模型在辅助人类完成复杂工作方面潜力。

豆包主力通用模型升级，全面对齐GPT-4o，价格仅为1/8。豆包视频生成模型、音乐模型、文生图模型也得到升级，豆包在多模态创作与理解方面进步巨大。豆包大模型日均Tokens调用量突破4万亿， 7个月增长幅度33倍，在汽车、手机、智能终端等新兴行业，豆包大模型调用量增长超过50倍。

火山引擎冬季Force原动力大会，剪映业务负责人张楠、豆包战略研究负责人周昊，分别分享即梦AI、豆包愿景与应用。即梦AI致力成为想象力世界的相机，作为创意催化剂。豆包作为通用型AI产品，在日常生活、教育、工作中应用广泛，致力成为用户身边的智能伙伴。

本期智能前线，选择字节火山引擎冬季Force原动力大会相关文章与分析，豆包大模型团队、火山引擎、字节范儿、豆包、数字生命卡兹克发布，六合商业研选精校，分享给大家，Enjoy！

正文：

全文11,256字

预计阅读23分钟

豆包视觉理解模型正式发布，通用模型能力全面对齐GPT-4o

时间：2024年12月18日

来源：豆包大模型团队

字数：2,355

豆包·视觉理解模型，12月18日在火山引擎Force原动力大会首次亮相。该模型具备非常强的内容识别能力，拥有出色的理解推理与细腻的视觉描述表现。

一同亮相的，还有升级版豆包主力通用模型、豆包·音乐生成模型、豆包·文生图模型等。

现在，豆包大模型可以看懂世界。

今天，火山引擎Force原动力大会现场，豆包大模型家族公布新成员豆包·视觉理解模型。它不仅具备强大的视觉感知能力，还能融合视觉与语言输入，进行综合的深度思考与创作。

根据图像信息，豆包·视觉理解模型，可以完成诸多复杂的逻辑计算任务，包括解微积分题、分析论文图表、诊断真实代码问题等挑战性任务。

直观了解豆包·视觉理解模型的强大能力：

除豆包·视觉理解模型外，本次还官宣豆包主力通用模型、豆包·音乐生成模型、豆包·文生图模型升级，3D模型一并发布。

视觉理解模型不仅能看，还能思考

视觉，是人类理解这个世界最重要的手段。对大模型也是如此，掌握完备的视觉理解能力，才能处理好真实世界的信息，辅助人类完成一系列复杂工作。

通过豆包·视觉理解模型，用户可以同时输入文本与图像相关的问题，模型经综合理解，可给出准确的回答。这将极大简化开发流程，解锁更多大模型价值场景。

为支持上述需求，豆包·视觉理解模型提供三大能力：

更强的内容识别能力

豆包·视觉理解模型有非常强的内容识别能力，不仅可以识别出图像中物体类别、形状、纹理等基本要素，还能理解物体间关系、空间布局、场景整体含义，甚至背后的文化知识。

视觉理解模型不仅可以识别现实中物品，还能根据光影、轮廓、位置等特征，一眼识别出小动物的影子，认出这是一只猫。

当你在清晨跑步，看到光线从树林间洒出来，可以随手拍张照，问问豆包大模型这是什么科学现象，它能识别这是丁达尔效应并科普原理。

更强的理解推理能力

豆包·视觉理解模型具备出色的理解与推理能力。模型不仅能识别图文信息，还能进行复杂的逻辑计算。

拍下一道需要进行微积分运算的数学题，豆包·视觉理解模型能很好理解图片问题，根据提示词进行对应推理计算，给出答题思路。

学术论文同样也能读懂。对下面这篇论文《How Far is Video Generation from World Model:A Physical Law Perspective》中的图表，模型可以做到准确理解，解析图表呈现出的趋势与结论。

看代码同样不在话下，模型能识别真实代码用途，介绍每行代码分别在实现什么操作。

更细腻的视觉描述能力

豆包·视觉理解模型还有非常细腻的视觉描述与创作能力。

当想设计一款文创产品赠送客户，模型可基于产品造型或寓意写一段真挚走心的祝福语。

一张小孩的涂鸦画，足够让豆包·视觉理解模型创作奇幻的故事。

应用方面，豆包·视觉理解模型可落地图片问答、医疗健康、教育科研、电商购物、生活助手等诸多场景。

通用模型能力全面对齐GPT-4o，视频生成模型即将开放企业服务

主力通用模型升级，全面对齐GPT-4o

视觉理解模型外，大会现场官宣豆包语言大模型升级。

相比5月版本，豆包最强模型Doubao-PRO能力大幅提升。

面向MMLU_PRO评测集，模型综合能力提升32%，与GPT-4o持平，使用价格仅为GPT-4o的1/8。

Doubao-PRO指令遵循能力提升9%，代码能力提升58%，GPQA专业知识方面能力提升54%，数学能力提升43%，推理能力提升13%，全面对齐GPT-4o水平。

豆包·视频生成模型即将面向企业开放服务

9月24日，豆包·视频生成模型发布，此后模型通过即梦APP与网页端，已对C端用户开放使用，经由创作者之手，诞生出很多精美视频。

面向企业客户与开发者，豆包·视频生成模型，将于2025年1月，依托火山引擎正式对外开放服务。

音乐模型、文生图模型升级

豆包·音乐模型，2024年9月首次发布，时隔3个月后，已能支持3分钟的完整音乐作品生成，实现包括前奏、主歌、副歌、间奏、过渡段等复杂结构的作品创作。

全新版本模型，可合理运用旋律、节奏、与声等信息，使全曲保持在风格、情感等音乐元素上的连贯性。

如对生成歌词不满意，可进行局部修改，给原调赋新词，让音乐创作更自由灵活。

文生图模型新增一键P图，一键海报技能。

基于豆包大模型团队成果SeedEdit，豆包文生图模型2.1版，支持通过自然语言对图像进行一键P图，包括换装、美化、涂抹、风格转化等任意编辑指令。

豆包文生图模型支持一键海报，可实现精准控制的文字图案生成。

通过打通LLM与DiT构架，豆包文生图模型构建高质量文字渲染能力，可大幅提升文字生成准确率。这种原生的文字渲染能力，让文字与整体画面的融合更为自然与实用。

豆包3D模型发布

面向3D仿真领域，豆包大模型家族新增3D生成模型，该模型采用3D-DiT架构，可生成高质量3D模块。

该模型与火山引擎数字孪生平台veOmniverse结合使用，可以高效完成智能训练、数据合成与数字资产制作，成为一套支持AIGC创作的物理世界仿真模拟器。

举例来说，用户只需输入文本，即可实时生成、搭建起一个工厂车间场景。通过快速批量生成，上传至云空间，布局师可实时调用并完成场景设计，提升创作效率与协作体验。

写在最后

2024年5月豆包大模型家族正式发布，到12月冬季原动力大会，短短7个月时间，豆包大模型团队发布Doubao-PRO、Seed-TTS、Seed-ASR、Seed-Music、SeedEdit、视频生成模型、视觉理解模型等多项重磅成果，在语言能力、多模态理解与生成、模型推理、代码生成等方面不断提升。

不少前沿技术，已应用于豆包APP、即梦等C端产品，通过火山引擎服务众多行业的企业客户。

目前，豆包大模型日均tokens调用量突破4万亿，7个月增长幅度达33倍。

尤其在汽车、手机、智能终端等新兴行业，豆包大模型调用量增长50倍以上。

未来，豆包大模型团队将持续加大投入，着眼研发真正关键、有价值的大模型技术，不断降低大模型训练推理成本，促进AI应用繁荣。

豆包大模型家族全面升级，重磅发布视觉理解模型

时间：2024年12月18日

来源：火山引擎

字数：1,724

2024 火山引擎FORCE原动力大会·冬，火山引擎带来豆包大模型家族全新升级。

豆包大模型，2024年12月日均tokens，使用量超过4万亿，较5月发布时期增长超过33倍。

tokens调用规模化增长的同时，豆包大模型在不同场景中都在快速增长、全面开花。

不断增加的调用量与多场景覆盖，让豆包大模型越来越全面，迎来重磅升级。

豆包·视觉理解模型发布，拓宽大模型场景边界

视觉，是人类理解世界最重要的手段。对大模型也是如此，只有做好视觉理解，才能让模型有能力处理好真实世界信息，辅助人类完成一系列复杂工作。

通过豆包·视觉理解模型，用户可以同时输入文本与图像相关的问题。模型能够综合理解，给出准确回答。这将极大简化应用开发流程，解锁更多大模型价值场景。

更强的内容识别能力

不仅可以识别出图像中的物体类别、形状等基本要素，还能理解物体间关系、空间布局、场景的整体含义。

识别影子

识别自然知识

更强的理解与推理能力

不仅能更好识别内容，还能根据所识别的文字与图像信息，进行复杂的逻辑计算。

图表推理

物理推理

更细腻的视觉描述能力

基于图像信息，更细腻描述图像呈现的内容，进行多种文体创作。

图像故事创作

图像诗歌创作

基于以上能力，豆包·视觉理解模型，在教育、旅游、电商等场景有非常广泛的应用。

例如教育场景中，为学生优化作文、科普知识；旅游场景中，帮助游客看外文菜单、讲解照片中建筑的背景知识；电商营销场景中，帮助商家充分描述商品细节，高效发布种草广告等。

视觉理解能力，将极大拓展大模型的场景边界，为大模型场景使用打开天花板，在金融、医疗、建筑、地理、体育、物流等诸多行业，还有非常广阔的应用前景。

教育场景

旅游场景

电商营销场景

豆包·视觉理解的输入价格，为每千tokens 0.003元，比行业平均价格降低85%，相当于1元钱可以处理284张720P图片，视觉理解模型正式走进厘时代。

火山引擎将提供更高的初始流量，每分钟请求次数RPM（Requests Per Minute）达到15,000次，每分钟处理事务数TPM（Transactions Per Minute）达到 120万，让企业与开发者用好视觉理解模型，找到更多创新场景。

豆包大模型家族再进化，豆包通用模型PRO迭代新版本

本次大会中，火山引擎除了推出视觉理解模型，还发布、升级多个其他模型。

大模型家族成员更丰富，大模型能力再提升。豆包通用模型PRO完成新版本迭代，综合任务处理能力较5月提升32%，推理提升13%，指令遵循上提升9%，代码上提升58%，数学上提升43%，专业知识领域能力提升54%。

全域搜素、高效记忆，为模型落地加速

除提供模型层种类丰富、功能强大的豆包大模型家族，火山引擎AI应用开发平台就是让大模型长出手与脚，在企业中便捷落地。

火山方舟、扣子平台、HiAgent等平台，持续升级，加速大模型落地，为企业与开发者提供高效工具。

为帮助企业轻松应对信息获取与搜索推荐的挑战，火山引擎推出全域AI搜索，通过场景化搜索推荐一体化服务、企业私域信息整合服务、联网问答服务，将企业信息、业务与用户需求紧密结合，帮助企业实现发现更多，推荐更准，搜索无限可能。

记忆对大模型非常重要，记忆未来会是大模型必备能力。

火山引擎融合更好的上下文缓存技术与RAG技术，发布大模型记忆方案，将通过更快响应速度、更低使用成本、更精准效果、亿级别记忆片段，帮助客户构建更有效的记忆方案。

扣子1.5发布，让AI离应用再近一步

HiAgent1.5 发布，敏捷构建企业级 A 原生应用的能力中心

模型落地加速，将为企业带来更多机遇，助力多行业加速智能化转型。

汽车领域，过去7个月，豆包大模型汽车行业日均tokens消耗增长50倍，目前已服务国内市场近八成汽车品牌，稳坐汽车行业大模型服务商第一梯队。

智能终端领域，豆包大模型服务终端行业客户50+AI应用场景，覆盖超过3亿个终端设备，为消费者带来更加智能的生活与工作体验，来自智能终端的豆包大模型日均tokens调用量，从5月到12月，增长100倍。

技术架构面向A全面转型，AI云与基础设施持续创新

火山引擎在基础架构、数据分析等层面带来新服务，为企业打造更便捷、更高效、更安全的AI体验。

未来，火山引擎将持续，提升模型能力，优化模型服务，推动AI在各行业的深度融合与创新应用。

更强模型、更低价格、更易落地的豆包大模型，将助力开启更智能、高效、便捷的AI未来。

剪映业务负责人张楠：即梦，想象力的相机

时间：2024年12月18日

来源：字节范儿

字数：2,244

12月18日，剪映业务负责人张楠，在火山引擎Force冬季大会上发表演讲。

张楠表示，正如抖音是记录美好生活的真实世界相机，借助GenAI技术，即梦希望成为想象力世界的相机，记录每个人奇思妙想，帮助每个有想法的人，轻松表达、自由创作。

即梦AI，是剪映2024年5月上线的AI内容平台，支持通过自然语言、图片输入，生成高质量图像、视频。

张楠说，这种极其简单的方式，可以把每个人脑子里奇思妙想快速视觉化，像做梦一样，这也是即梦产品与名字由来。

鉴于目前产品与技术都还在非常早期阶段，相比什么是最好的产品技术范式，更想谈谈即梦最关注的事情：想象的力量。

演讲实录

作为一个i人，每次在这种时刻我都很紧张。不是没有表达欲，只是语言作为一种模态、一种媒介，不够丰富立体，常常表达不出我脑子里那些天马行空的想法。

请大家发挥想象力，脑补一下我没有表达好的地方。

即梦的起源

今天主题是，聊聊即梦。

不知道大家是否观察过一个婴儿成长过程，他们用眼睛扫描世界，用耳朵聆听世界，用小手、小脚来触摸世界，这是他们对世界建模的过程。

这个过程中，婴儿开始逐渐区分真实世界与想象世界。

真实世界里，我们已经可以熟练使用100多年前就发明的摄影术，来捕捉光影。

就像我们用抖音记录美好生活一样，保存美好的时光。

抖音，是真实世界的相机。既然如此，想象的世界，是不是也可以有像抖音一样，用来记录与表达的相机。

2022年一个早上，我在播客里听到DALL·E2，就在那个瞬间，一个久久盘旋在我脑子里的念头被点亮：这不就是想象力的相机？

你只需要输入某一刻想法，借助GenAI技术，画面可以瞬间被呈现在眼前。这种极其简单的方式，可以把每个人脑子里的奇思妙想快速视觉化，像做梦一样。

这也是即梦产品与名字由来：我们希望借助即梦这个想象力的相机，帮助每一个有想法的人轻松表达、自由创作。

目前产品与技术，都还在非常早期阶段，还不成熟。

今天我不会谈什么是最好的产品技术范式，而是想谈即梦最关注的事情：想象的力量。

人类所有的发明、创造，都始于想象，想象力是每个人大脑里表达出来的与未曾表达出来的念头、画面、情绪、思想、创意、故事。

有科学家估算过，人一生可以容纳10亿个想法。

我们大脑里神经元的数量，甚至与宇宙中恒星的数量差不多，可见人类想象力是多么活跃与丰富。

如果我们把每个人脑子里精彩的想法，都用视觉语言表达出来，那将是多么庞大的多元宇宙，多么丰富的精神世界。

想象力不应该被现实束缚，更不应该被技术门槛所遮蔽。

我们应该用未来的技术，创造想象力的相机，让更多人，类似设计师、作家、导演一般，充分表达想象，向世界展现他们创意与故事。

我特别喜欢艺术让人思考生命的意义Art makes people human，美与意义是人类特有的精神追求。

天马行空的想象力、对常规事物的突破，这种超越性，也正是我们希望即梦与大家一起探索的。

分享两个短片，分别来自即梦两位创作者。

第一个短片，创作者是编剧小文，也是一位戏剧学院的老师。她用不到5天时间，制作动人的故事，还原电影发展史，从默片时代到有声时代，讲述一位女明星的奇幻旅程。

另一部作品，是科幻短剧《觉醒》，一共8集，来自悟空AI团队，只有3人，他们用3个多月业余时间，完成这部巨作。在抖音上，收到广泛关注与好评，也是首部单日点赞破40万的AI短剧。

AI短片《绿宝石》即梦创作者小文

AI科幻短剧《觉醒》即梦创作者悟空AI团队

现在产品与技术只是雏形，每次打开即梦，那些精心打磨的作品，总是让我非常敬佩与感动，让我为创作者们想象力惊叹不已。

从最开始的纯视觉冲击，到有叙事结构的故事短片；从作曲、作词、演绎都是由AI完成的MV，再到最近的动态海报，AI已经在改变我们想象与创造这个世界的方式。

即梦希望成为新的创造与体验方式

试想一下，未来创作的时候，身边会有一个世界上最强大的跨学科专家团队：你的专属AI Agent，不仅精通各学科知识，还兼具艺术家审美与最强执行力，能将你需要的不同领域的元素，融入到作品当中；它还具备非凡推理能力，可以与你深入探讨各种问题，进行真正头脑风暴，持续激发你的创意，拓宽你认知的边界，根本无法预测接下来会碰撞出什么更精彩的创意。

当你的视频故事，需要独特的世界观时，它不仅可以帮你构建时代背景、人物弧光、情节冲突，甚至还能为你无限推演剧情不同走向。

最令人惊艳的是，这一切创作的过程，也许不像传统的电影创作，需要从文字开始，而是可用最符合直觉的交互方式来进行。

就像我们面前的真实世界，眼睛可以看到，耳朵可以听到，双手可以交互。

随着视频创作的变化，消费也会变化。

今天，人们还是被动观看一个视频，跟随导演的蒙太奇，体验剧情的起伏，未来的故事体验是否还有别的可能性？

体验者是否有可能从故事的任意位置进入，跟随自己喜欢的角色探索故事不同分支？

又或者，有更个性化的剧情发展，不再追随导演安排？

甚至我们可以脑洞再大一点，很多艺术家与诗人都是在半睡半醒之间创作，也许未来即梦可以结合专业的脑电波设备，帮助人们把睡觉时的梦境记录下来，把猫咪、小狗，甚至是一棵树的脑电波与生物磁场，用可视化的方式表达出来，探索潜意识、甚至是无意识的创作，呈现不同物种在这个世界的想象与表达。

想象力的局限，永远不是技术的局限，而是认知的局限。AI时代，无限画布可以变成空间画布。创作的过程，可以是跳出过往任何经验的发散与思想实验，GenAI如果是种语言，应该是更广泛的多模态的语言，应该包含世间万物，智能也应该有更广义的理解。

我们希望即梦可以激发每个人想象力，成为想象力的相机，帮助每个人表达，创造独特的体验与价值。

什么都问问豆包，问问豆包最快

时间：2024年12月18日

来源：豆包

字数：2,560

12月18日，火山引擎Force冬季大会在上海举行，豆包战略研究负责人周昊发表演讲，分享豆包在生活、学习与工作等各类场景中的广泛应用。

周昊表示，作为通用型AI产品，豆包致力满足不同用户具体、真实的需求，让用户像开口问身边朋友一样，快捷方便与豆包沟通，真正做到什么都问问豆包。

演讲全文

过往公司做APP，在早期阶段心得，是把最关键用户需求解决到非常好。

比如抖音是视频创作与分享、头条是看新闻、飞书是协同办公等。

对大模型产品，好像很难定义哪一个是最关键的用户需求。它天生是一个通用型产品，每个用户打开它时，想要解决的问题都不一样。我们要做的，是满足好不同用户在不同场景下的需求。

豆包发展过程中，我们做了很多用户访谈，发现各种不同下载理由、使用场景。

AI产品很神奇的地方是，它真的能够同时满足这些看上去非常不同的需求。

日常生活问问豆包

日常生活里各种知识与经验问答，豆包总能快速为用户答疑解惑。

最近上海到了银杏季节，一位用户说，他问豆包上海哪里可以看银杏？

豆包很快列出市中心与郊区观赏地、特点，配上银杏树照片与路线视频攻略，非常方便。

2024年，黑神话悟空特别火，带动山西旅游，很多人山西看佛像。

用户访谈中大家提到，山西逛博物馆时，会请豆包介绍北魏的佛像风格，讲中国佛像艺术在历史中演化过程。

借助豆包，旅游时对历史文物的了解，不再局限展牌上简短介绍，可以深入展品背后历史故事与文化内涵。

有朋友尝试把体检报告拍给豆包，说心电图报告里不少专业术语与符号，尝试豆包拍图解读，把医学术语翻译成浅显易懂的语言，更方便自己理解。

教育学习问问豆包

很多用户反馈，豆包能很快很好满足学习与教育的各种需求。

身边有不少朋友，近几年成为新手爸妈，他们尝试用豆包解决新的家庭教育难题。

比如一些奥数题，小朋友没什么思路，家长不太知道怎么讲解，请豆包给小朋友解答。

豆包还能提供详尽解题步骤，引导小朋友理解题目解法。

如果小朋友对某类题目掌握的不太牢固，家长会请豆包再给小朋友出几道同类知识点题目巩固练习。

英语口语练习，也是大家很喜欢的教育场景。

用户反馈说，豆包的发音、词汇量、句型，都远远超过他自己。通过豆包实时语音通话功能，与豆包一来一回练英语，毫不尴尬，也省了请老师辅导的开销。

生成的英语对话，还配有字幕，退出后还可以复习。

工作中问问豆包

最近听到最多的，是在工作场景问问豆包。

今天现场很多听众都是AI行业相关从业者，AI发展很快，经常需要阅读前沿论文补充认知。

论文，是很多用户问问豆包的高频场景。大家不仅可以让豆包总结，划词解释专业名词，还可以多追问，不论是图片还是实验数据，都可以截图问问豆包，它都能给出清晰的图表解释与实验含义。

最近豆包大模型团队，发表一篇关于图像编辑的论文，非技术背景的同事读起来有点吃力。我们可以打开豆包电脑版，上传论文，点击预设提示词，豆包可以生成清晰的脑图与总结，帮助我们快速理解论文框架，提炼核心信息。

有了豆包帮助，阅读论文门槛大大降低，非专业人士也能更快了解关键信息。

文字、图片、音乐、视频的创作上，大家也都会问问豆包。

前段时间，豆包上线一键生成带有指定文字图片的功能。

我们设计同学用豆包，直接生成一张海报，发在豆包官号上，效果不错。

同事们开玩笑说，豆包自食其力，自己努力宣传自己。

后来设计同学告诉我，现在他们做设计，第一反应也都是问问豆包。

豆包做图很快，不会因为最后重新选回第一版而不满。它给的方案不完美，也能提供不少思路与灵感，减少许多前置的工作，提升工作效率。

用户的故事还有更多，我们问自己，为什么大家在遇到问题时都愿意选择豆包？我觉得答案应该是问问豆包最快。

产品设计上，我们一直在努力，让用户输入更快、更方便。

我们非常注重多模态的输入与打磨，尤其是语音输入。输入速度上，普通人打字速度大概每分钟60~80个字，普通人的语速每分钟可以到250~300字。如果是语速快的主持人，甚至可以达到每分钟400字。

一般情况下，语音输入效率，至少是键盘输入3倍以上。语音的率天然更高，更快。

豆包语音，能准确转录各种语音信号，识别不同语言、方言、口音。

我们有个产品经理是广东人，他很喜欢给豆包发粤语，豆包也能识别的不错。

大家如果用的多，还会发现豆包对人名、生词，也能结合上下文做出准确分析。

背后都是基于豆包语音识别大模型的强大能力，这个语音模型在火山引擎已经发布，有兴趣的朋友可以联系火山购买。

这些能力储备，让用户像开口问身边朋友一样与豆包交流，真正做到什么都问问豆包。

语音以外，我们上线视觉识别模型。

前面提到不管是读心电图、还是拍奥数题，都依靠视觉输入。

人与世界沟通中，视觉是很重要的一环。

相比用语言描述心电图上的复杂信息，直接拍下来问问豆包，更快更方便。

豆包离用户场景更近、更快。

2024年，我们发布AI智能体耳机Ola Friend。这样轻便的可穿戴设备，让豆包能够成为用户耳边伴随的朋友，在路上随时与豆包对话，最快。

运动、逛街、旅行时，用户无需拿出手机或其他设备，直接通过耳机就能与豆包对话，快速获取信息。

这种无缝连接的交互方式，让豆包真正成为用户身边的智能伙伴，陪伴用户度过每一个需要知识与帮助的时刻。

2024年，我们重点建设豆包电脑版。大家可以把电脑版当成浏览器，直接打开网页。在浏览中遇到需要提问、翻译或总结时，直接点击问问豆包，就能轻松唤起，获得帮助。

我们即将上线文档编辑器功能，采取全新交互方式，生成文档后，用户可以在画布中自由编辑，让AI针对特定词语与段落优化改写，可以一键全文润色、调整长度，全网搜图等，让创作更轻松。

在看不到的地方，模型能力让问问豆包成为最快的解决方式。

当用户提出较为复杂的搜索或写作需求时，豆包快速识别用户意图，推理、拆解内容，再进行多步骤分析与推理，调度搜索，呈现总结后的结果。

豆包还能将搜索到的文本信息与视频内容相结合，为用户提供更加丰富与直观的体验。

在快的背后，是模型帮助用户做了意图识别、信息收集、处理、整合与分析。

用户带着不同需要打开豆包，大模型应用能解决非常广泛的问题，用户在使用中也会逐渐发现更多的场景。

AI是非常前沿的话题，一款AI产品成长，是需要走进真实的用户与真实生活中。工具是有限的，人对探索、求知、美好生活的追求，是无限的。

最近，我很喜欢一句话，我们要爱具体的人，做具体的事，过具体的生活。

一款AI产品也是一样，满足具体、真实的需求，关心用户具体、真实的生活。

一手实测豆包新发布的视觉理解大模型

时间：2024年12月18日

来源：数字生命卡兹克

字数：2,168（有删减）

看完全场，觉得最值得写一写，聊一聊的，是豆包视觉理解模型。

效果不仅出奇的好，最关键是价格，价格直接低85%，直接把视觉理解模型拉入厘时代。

过去1~2年，人人都在讲文字推理，讲大语言模型爆点。但视觉理解，才一直是我们认知世界的第一道关卡。

当你来到这个世界，睁开眼睛第一刻，没有学会语言的时候，靠的就是眼睛。

我们先看到光影、颜色，才逐渐分辨出父母面孔，屋子的空间，那时没有词汇、没有句子，只有模糊的光影与轮廓。

当我们对这个世界，通过视觉，一步步认识父母的脸，认识身边的玩具，认识窗外的树影，有了基本认知后，才有学语的过程。

它是我们触及世界的第一道门，不仅是看见什么，更是用看建立理解，触发思考与关联。

语言是有门槛的，要先懂词语意思。视觉先于语言，是不需要翻译的输入。

有太多普通人，不知道如何描绘自己需求，无法组织语言清楚表达一件事，但把图片扔给AI，问一下，这是任何人都会的。

上至80岁老人、下至10岁孩童，都可以。

对视觉理解模型，我才如此看重。

这次新发布的豆包视觉理解模型，除了在火山开放API，也已经在豆包上线，可以直接体验。

我第一时间，在发布会现场拉着朋友跑了大概100个case，跟GPT-4o对比做详细评测。

我们测的第一波例子，也是很多视觉大模型最痛苦的，就是数数。

我这有一个万恶之源的图，在好多论文里面都出现过，就是让大模型来数这张图里面有几只狗。

正常人类直接数中间的狗头，都非常清晰的能数清楚，一共是12只狗。

对AI那就炸了。数数这事，是最难的。

GPT-4o非常自信给了11只的答案。

Claude3.5自信爆出11只的答案，Claude与GPT差点弄的我以为自己数错了。

直到把这张图发给豆包。

我怕豆包是不是幻觉了，连续roll了5次，每次都是坚定不移的12只。

相比GPT，准确识别这是金毛巡回犬的幼犬，在答案的准确性与丰富度上，都比GPT-4o要强。

我又让它俩，做了另一件更难的事。

红框里有几个手办？分别是什么角色？

不仅需要精准识别出数量，还要知道每个角色是什么，这个能答上来，才是真的懂。

结果GPT直接抽风，上来忽悠我4个。

角色也在那瞎掰，槽点太多。

再回头看豆包。

数量6个对了，4个《火影》系列的手办，从左到右是波风水门、漩涡鸣人、迪达拉、蝎，豆包对了前面两个水门与鸣人，再加漫威一个雷神与绿巨人。

正确率66%，没能完美识别，也算是巨大进步。

这一波， GPT-4o摁在地上打。

测完数数后，又测了一波看图识景点。

直接掏出黑悟空里面十大景点，测了一波。

大部分GPT-4o与豆包都差不太多，几乎打个平手，像大足石刻、悬空寺、开元寺这种都识别出来，小西天、水陆庵野都一起翻车。

我觉得这两会在这个点上打个平手，结果，最后一题，GPT-4o翻车。

这个塔林，是山东济南灵岩寺塔林。自唐以降，墓塔成林。早为钟，黄昏为鼓，白为方，才有晨钟暮鼓白天方。

豆包，在这最后一题上，守住自己荣耀，回答上来，险胜GPT-4o一筹。

在一些世界常识中，GPT-4o落败。

比如经典的滚珠丝杆，做个视觉误导，问哪根最长。

豆包没啥问题，准确的回答左边第二根最长。

GPT-4o又翻车，我roll了5次，每一次都信誓旦旦说最左边最长。

我们做了非常详细的统计表格。

把豆包与GPT-4o评测，每个跑三次，放在一起对比。

看出来，大多数任务上，豆包视觉理解大模型，都比GPT-4o识别的更精准、更详细，对中国文化一些内容，懂的更多。

还有个很有趣的点，GPT-4o坑爹到家的安全限制，他没法看到任何人脸，豆包可以。

并不是说豆包在视觉理解上，就强到爆炸。

不行的点，当然也有。

我们发现，在一些数学公式计算上，错误率还是会有一些，比如这道题。

答案是A，扔给豆包时，会发现，回答还是会有一些错误。

一些复杂计算上，还是有一些差距，做题一直以来都是大模型短板。

整体看，这波升级，就是解决很多基础的常识性问题，让大模型有了更强的眼睛，也有了更好的脑子，还是非常有用的。

文章最后，我突然想说关于我朋友与他想要AI的故事。

这哥们是大概40岁出头的中年人，压力很大，背着房贷，四脚吞金兽还在地上跑。

人在一线城市，平时要上班养家糊口，又在业余时间搞了点自己小买卖，想减轻一点家里的压力。

他以前与我说过，他最大痛苦是没有时间学更专业技能，他那个网店是卖点数码的小玩意，自己不会拍好看的商品图，不懂设计，没有钱请专业摄影师与设计师。

我当时给他推荐了一些电商AI生图工具，能自动给产品做美化背景，能改色调、能帮他处理一些杂事。

有个问题，哥们没啥想象力，审美上有点差异，对AI绘图的Prompt描述能力不行，总是词不达意，AI给出的图经常有点离谱。

后来有天，他跟我说过，他真正想要的AI产品，是他不用管乱七八糟，是想让自己数码小玩意融入一个夏日海滩场景的时候，他只需要拍张桌上堆满物品的乱七八糟的图，把那个产品圈出来，对AI说：给我用这件单品，搞夏日风海报，把我桌面上杂乱的东西都变成整洁的道具摆放。

AI看懂后，直接创作出一张清爽的营销图，完事。

这个哥们跟我聊天说这样需求时，他眼睛里放光，问我有没有这样的东西。

我说，现在还真没有。

看着他可惜的眼神，嘴角轻轻的叹了口气。

我相信，随着视觉理解模型的进步，随着一句话改图的进步，随着这两者，发光发热继续融合。

一定会有那么一天，能让哥们，有眼睛里发光的那天。

可能，就在不远的将来。

让每个人，都能享受科技的乐趣，这就是技术，真正该发挥的作用。不是替代，而是帮助，帮助一个普通人在沉重生活里找到一丝自我创造的乐趣。帮助那些有想法、缺手段的人，让他们用更少时间把脑中蓝图变为现实。我觉得，这可能才是，最酷的事。

六合年度报告全库会员，欢迎扫描识别下方图中二维码或点击文末“阅读原文”购买

智能时代专题，欢迎扫描识别下方图中二维码或点击文末“阅读原文”购买

智能时代专题第二季，欢迎扫描识别下方图中二维码或点击文末“阅读原文”购买

智能时代专题第一季，欢迎扫描识别下方图中二维码或点击文末“阅读原文”购买

六合商业研选付费专题报告，欢迎扫描识别下方图中二维码或点击文末“阅读原文”购买

元宇宙专题，欢迎扫描识别下方图中二维码或点击文末“阅读原文”购买

头号玩家第二季，欢迎扫描识别下方图中二维码或点击文末“阅读原文”购买

头号玩家第一季，欢迎扫描识别下方图中二维码或点击文末“阅读原文”购买

智能电动汽车专题，欢迎扫描识别下方图中二维码或点击文末“阅读原文”购买

相关研报：

【智能时代】现象级游戏《黑神话：悟空》的思考，游戏二元属性，文化与科技

【智能时代】自动驾驶：汽车iPhone时刻，中国三大流派演化形成中

诸神之战：美国科技巨头，从春秋五霸进入战国七雄｜GBAT 2023 大湾区智能时代产业峰会

人类未来文明三部曲之二：智能时代专题预售开启，奇点临近，未来已来

九宇资本赵宇杰：智能时代思考，认知思维，存在原生、降维、升维三波认知红利

九宇资本赵宇杰：智能时代思考，以史为鉴，科技浪潮，从互联网到AI

九宇资本赵宇杰：智能时代思考，宇宙视角，从碳基生物，到硅基智能体

人类未来文明三部曲之一：元宇宙专题预售开启，59期45万字

九宇资本赵宇杰：1.5万字头号玩家年度思考集，科技创新，无尽前沿

九宇资本赵宇杰：1.5万字智能电动汽车年度思考集，软件定义，重塑一切

【重磅】前沿周报：拥抱科技，洞见未来，70期合集打包送上

【重磅】六合年度报告全库会员正式上线，5年多研究成果系统性交付

【智能电动汽车专题预售】百年汽车产业加速变革，智能电动汽车时代大幕开启

【头号玩家第一季预售】：科技巨头探索未来，头号玩家梯队式崛起

【头号玩家第二季预售】：科技创新带来范式转换，拓展无尽新边疆

【首份付费报告+年度会员】直播电商14万字深度报告：万亿级GMV风口下，巨头混战与合纵连横

【重磅】科技体育系列报告合集上线，“科技+体育”深度融合，全方位变革体育运动

【重磅】365家明星公司，近600篇报告，六合君4年多研究成果全景呈现

九宇资本赵宇杰：CES见闻录，开个脑洞，超级科技巨头将接管一切

【万字长文】九宇资本赵宇杰：5G开启新周期，进入在线世界的大航海时代｜GBAT 2019 大湾区5G峰会

九宇资本赵宇杰：抓住电子烟这一巨大的趋势红利，抓住产业变革中的变与不变

【IPO观察】第一季：中芯国际、寒武纪、思摩尔、泡泡玛特、安克创新等11家深度研报合集

【IPO观察】第二季：理想、小鹏、贝壳、蚂蚁、Snowflake、Palantir等12家公司深度研报合集

【IPO观察】第三季：Coinbase、Roblox、快手、雾芯科技等12家公司深度研报合集

【重磅】年度观察2019系列合集：历时3个多月，超20万字近500页，复盘过去，展望未来，洞悉变与不变

【珍藏版】六合宝典：300家明星公司全景扫描，历时3年，210万字超5,000页，重磅推荐

九宇资本赵宇杰：对智能电动汽车产业的碎片化思考

九宇资本赵宇杰：九宫格分析法，语数外教育培训领域的道与术

【2023回乡见闻录】90、00后小伙伴们万字记录，生活回归正轨，春节年味更浓

【2022回乡见闻录】20位90、00后2万字，4国13地，全方位展现国内外疫情防疫、春节氛围、发展现状差异

【2021回乡见闻录】22位90后2万字，就地过年与返乡过年碰撞，展现真实、立体、变革的中国

【2020回乡见闻录】20位90后2万字，特殊的春节，时代的集体记忆

【重磅】22位“90后”2万字回乡见闻录，讲述他们眼中的中国县城、乡镇、农村

六合君3周岁生日，TOP 60篇经典研报重磅推荐

下午茶，互联网世界的三国杀

5G助推AR开启新产业周期，AR眼镜开启专用AR终端时代

新商业基础设施持续丰富完善，赋能新品牌、新模式、新产品崛起，打造新型多元生活方式

【重磅】中国新经济龙头，赴港赴美上市报告合辑20篇

知识服务+付费+音频，开启内容生产新的产业级机遇，知识经济10年千亿级市场规模可期

从APP Store畅销榜4年更替，看内容付费崛起

新三板破万思考：新三板日交易量10年100倍？

九宇资本赵宇杰：科技改变消费，让生活更美好｜2017 GNEC 新经济新消费峰会

九宇资本赵宇杰：创业时代的时间法则，开发用户平行时间｜2016 GNEC 新经济新智能峰会

九宇资本赵宇杰：互联网引领新经济，内容创业连接新生态｜2016 GNEC 新经济新营销峰会

请务必阅读免责声明与风险提示

【智能前线】第16期： 豆包视觉理解模型正式发布，通用模型能力全面对齐GPT-4o，视觉理解大模型能力实测

正文

请到「今天看啥」查看全文

请到「今天看啥」查看全文

【智能前线】第16期：豆包视觉理解模型正式发布，通用模型能力全面对齐GPT-4o，视觉理解大模型能力实测