专栏名称: 六合商业研选
六合咨询立足新经济,挖掘明日之星,发现价值,传播价值;国际化视野、多角度观察、深度思考、体系化研究,持续提升研究广度与深度,全面覆盖一级、新三板、二级(A股+美股+港股);深度剖析优质企业商业模式与投资价值,前瞻性洞察行业本质与发展趋势。
目录
相关文章推荐
51好读  ›  专栏  ›  六合商业研选

【智能前线】第16期: 豆包视觉理解模型正式发布,通用模型能力全面对齐GPT-4o,视觉理解大模型能力实测

六合商业研选  · 公众号  ·  · 2024-12-25 06:30

正文

请到「今天看啥」查看全文



2024年12月18日,字节火山引擎冬季Force原动力大会,豆包大模型家族迎来全面升级,发布豆包视觉理解模型,升级版豆包主力通用模型、视频生成模型、音乐生成模型、文生图模型等。

豆包视觉理解模型首次亮相,具有强大视觉感知能力,在识别物体、理解场景、文化知识方面表现出色,能结合视觉与语言输入进行深度思考与创作,可在教育、旅游、电商等多个场景应用,预示大模型在辅助人类完成复杂工作方面潜力。

豆包主力通用模型升级,全面对齐GPT-4o,价格仅为1/8。豆包视频生成模型、音乐模型、文生图模型也得到升级,豆包在多模态创作与理解方面进步巨大。豆包大模型日均Tokens调用量突破4万亿, 7个月增长幅度33倍,在汽车、手机、智能终端等新兴行业,豆包大模型调用量增长超过50倍。

火山引擎冬季Force原动力大会,剪映业务负责人张楠、豆包战略研究负责人周昊,分别分享即梦AI、豆包愿景与应用。即梦AI致力成为想象力世界的相机,作为创意催化剂。豆包作为通用型AI产品,在日常生活、教育、工作中应用广泛,致力成为用户身边的智能伙伴。

本期智能前线,选择字节火山引擎冬季Force原动力大会相关文章与分析,豆包大模型团队、火山引擎、字节范儿、豆包、数字生命卡兹克发布,六合商业研选精校,分享给大家,Enjoy!

正文:

全文11,256字

预计阅读23分钟

豆包视觉理解模型正式发布,通用模型能力全面对齐GPT-4o

时间:2024年12月18日

来源:豆包大模型团队

字数:2,355

豆包·视觉理解模型,12月18日在火山引擎Force原动力大会首次亮相。该模型具备非常强的内容识别能力,拥有出色的理解推理与细腻的视觉描述表现。

一同亮相的,还有升级版豆包主力通用模型、豆包·音乐生成模型、豆包·文生图模型等。

现在,豆包大模型可以看懂世界。

今天,火山引擎Force原动力大会现场,豆包大模型家族公布新成员豆包·视觉理解模型。它不仅具备强大的视觉感知能力,还能融合视觉与语言输入,进行综合的深度思考与创作。

根据图像信息,豆包·视觉理解模型,可以完成诸多复杂的逻辑计算任务,包括解微积分题、分析论文图表、诊断真实代码问题等挑战性任务。

直观了解豆包·视觉理解模型的强大能力:

除豆包·视觉理解模型外,本次还官宣豆包主力通用模型、豆包·音乐生成模型、豆包·文生图模型升级,3D模型一并发布。

视觉理解模型不仅能看,还能思考

视觉,是人类理解这个世界最重要的手段。对大模型也是如此,掌握完备的视觉理解能力,才能处理好真实世界的信息,辅助人类完成一系列复杂工作。

通过豆包·视觉理解模型,用户可以同时输入文本与图像相关的问题,模型经综合理解,可给出准确的回答。这将极大简化开发流程,解锁更多大模型价值场景。

为支持上述需求,豆包·视觉理解模型提供三大能力:

更强的内容识别能力

豆包·视觉理解模型有非常强的内容识别能力,不仅可以识别出图像中物体类别、形状、纹理等基本要素,还能理解物体间关系、空间布局、场景整体含义,甚至背后的文化知识。

视觉理解模型不仅可以识别现实中物品,还能根据光影、轮廓、位置等特征,一眼识别出小动物的影子,认出这是一只猫。

当你在清晨跑步,看到光线从树林间洒出来,可以随手拍张照,问问豆包大模型这是什么科学现象,它能识别这是丁达尔效应并科普原理。

更强的理解推理能力

豆包·视觉理解模型具备出色的理解与推理能力。模型不仅能识别图文信息,还能进行复杂的逻辑计算。

拍下一道需要进行微积分运算的数学题,豆包·视觉理解模型能很好理解图片问题,根据提示词进行对应推理计算,给出答题思路。

学术论文同样也能读懂。对下面这篇论文《How Far is Video Generation from World Model:A Physical Law Perspective》中的图表,模型可以做到准确理解,解析图表呈现出的趋势与结论。


看代码同样不在话下,模型能识别真实代码用途,介绍每行代码分别在实现什么操作。

更细腻的视觉描述能力

豆包·视觉理解模型还有非常细腻的视觉描述与创作能力。

当想设计一款文创产品赠送客户,模型可基于产品造型或寓意写一段真挚走心的祝福语。

一张小孩的涂鸦画,足够让豆包·视觉理解模型创作奇幻的故事。

应用方面,豆包·视觉理解模型可落地图片问答、医疗健康、教育科研、电商购物、生活助手等诸多场景。

通用模型能力全面对齐GPT-4o,视频生成模型即将开放企业服务

主力通用模型升级,全面对齐GPT-4o

视觉理解模型外,大会现场官宣豆包语言大模型升级。

相比5月版本,豆包最强模型Doubao-PRO能力大幅提升。

面向MMLU_PRO评测集,模型综合能力提升32%,与GPT-4o持平,使用价格仅为GPT-4o的1/8。

Doubao-PRO指令遵循能力提升9%,代码能力提升58%,GPQA专业知识方面能力提升54%,数学能力提升43%,推理能力提升13%,全面对齐GPT-4o水平。

豆包·视频生成模型即将面向企业开放服务

9月24日,豆包·视频生成模型发布,此后模型通过即梦APP与网页端,已对C端用户开放使用,经由创作者之手,诞生出很多精美视频。

面向企业客户与开发者,豆包·视频生成模型,将于2025年1月,依托火山引擎正式对外开放服务。

音乐模型、文生图模型升级

豆包·音乐模型,2024年9月首次发布,时隔3个月后,已能支持3分钟的完整音乐作品生成,实现包括前奏、主歌、副歌、间奏、过渡段等复杂结构的作品创作。

全新版本模型,可合理运用旋律、节奏、与声等信息,使全曲保持在风格、情感等音乐元素上的连贯性。

如对生成歌词不满意,可进行局部修改,给原调赋新词,让音乐创作更自由灵活。

文生图模型新增一键P图,一键海报技能。

基于豆包大模型团队成果SeedEdit,豆包文生图模型2.1版,支持通过自然语言对图像进行一键P图,包括换装、美化、涂抹、风格转化等任意编辑指令。

豆包文生图模型支持一键海报,可实现精准控制的文字图案生成。

通过打通LLM与DiT构架,豆包文生图模型构建高质量文字渲染能力,可大幅提升文字生成准确率。这种原生的文字渲染能力,让文字与整体画面的融合更为自然与实用。

豆包3D模型发布

面向3D仿真领域,豆包大模型家族新增3D生成模型,该模型采用3D-DiT架构,可生成高质量3D模块。

该模型与火山引擎数字孪生平台veOmniverse结合使用,可以高效完成智能训练、数据合成与数字资产制作,成为一套支持AIGC创作的物理世界仿真模拟器。

举例来说,用户只需输入文本,即可实时生成、搭建起一个工厂车间场景。通过快速批量生成,上传至云空间,布局师可实时调用并完成场景设计,提升创作效率与协作体验。

写在最后

2024年5月豆包大模型家族正式发布,到12月冬季原动力大会,短短7个月时间,豆包大模型团队发布Doubao-PRO、Seed-TTS、Seed-ASR、Seed-Music、SeedEdit、视频生成模型、视觉理解模型等多项重磅成果,在语言能力、多模态理解与生成、模型推理、代码生成等方面不断提升。

不少前沿技术,已应用于豆包APP、即梦等C端产品,通过火山引擎服务众多行业的企业客户。

目前,豆包大模型日均tokens调用量突破4万亿,7个月增长幅度达33倍。

尤其在汽车、手机、智能终端等新兴行业,豆包大模型调用量增长50倍以上。

未来,豆包大模型团队将持续加大投入,着眼研发真正关键、有价值的大模型技术,不断降低大模型训练推理成本,促进AI应用繁荣。

豆包大模型家族全面升级,重磅发布视觉理解模型

时间:2024年12月18日

来源:火山引擎

字数:1,724

2024 火山引擎FORCE原动力大会·冬,火山引擎带来豆包大模型家族全新升级。

豆包大模型,2024年12月日均tokens,使用量超过4万亿,较5月发布时期增长超过33倍。

tokens调用规模化增长的同时,豆包大模型在不同场景中都在快速增长、全面开花。

不断增加的调用量与多场景覆盖,让豆包大模型越来越全面,迎来重磅升级。

豆包·视觉理解模型发布,拓宽大模型场景边界

视觉,是人类理解世界最重要的手段。对大模型也是如此,只有做好视觉理解,才能让模型有能力处理好真实世界信息,辅助人类完成一系列复杂工作。

通过豆包·视觉理解模型,用户可以同时输入文本与图像相关的问题。模型能够综合理解,给出准确回答。这将极大简化应用开发流程,解锁更多大模型价值场景。

更强的内容识别能力

不仅可以识别出图像中的物体类别、形状等基本要素,还能理解物体间关系、空间布局、场景的整体含义。

识别影子

识别自然知识

更强的理解与推理能力

不仅能更好识别内容,还能根据所识别的文字与图像信息,进行复杂的逻辑计算。

图表推理

物理推理

更细腻的视觉描述能力

基于图像信息,更细腻描述图像呈现的内容,进行多种文体创作。

图像故事创作

图像诗歌创作

基于以上能力,豆包·视觉理解模型,在教育、旅游、电商等场景有非常广泛的应用。

例如教育场景中,为学生优化作文、科普知识;旅游场景中,帮助游客看外文菜单、讲解照片中建筑的背景知识;电商营销场景中,帮助商家充分描述商品细节,高效发布种草广告等。

视觉理解能力,将极大拓展大模型的场景边界,为大模型场景使用打开天花板,在金融、医疗、建筑、地理、体育、物流等诸多行业,还有非常广阔的应用前景。

教育场景

旅游场景

电商营销场景

豆包·视觉理解的输入价格,为每千tokens 0.003元,比行业平均价格降低85%,相当于1元钱可以处理284张720P图片,视觉理解模型正式走进厘时代。

火山引擎将提供更高的初始流量, 每分钟请求 次数RPM(Requests Per Minute)达到15,000次,每分钟处理事务数TPM(Transactions Per Minute)达到 120万, 让企业与开发者用好视觉理解模型,找到更多创新场景。

豆包大模型家族再进化,豆包通用模型PRO迭代新版本

本次大会中,火山引擎除了推出视觉理解模型,还发布、升级多个其他模型。

大模型家族成员更丰富,大模型能力再提升。豆包通用模型PRO完成新版本迭代,综合任务处理能力较5月提升32%,推理提升13%,指令遵循上提升9%,代码上提升58%,数学上提升43%,专业知识领域能力提升54%。

全域搜素、高效记忆,为模型落地加速

除提供模型层种类丰富、功能强大的豆包大模型家族,火山引擎AI应用开发平台就是让大模型长出手与脚,在企业中便捷落地。

火山方舟、扣子平台、HiAgent等平台,持续升级,加速大模型落地,为企业与开发者提供高效工具。

为帮助企业轻松应对信息获取与搜索推荐的挑战,火山引擎推出全域AI搜索,通过场景化搜索推荐一体化服务、企业私域信息整合服务、联网问答服务,将企业信息、业务与用户需求紧密结合,帮助企业实现发现更多,推荐更准,搜索无限可能。

记忆对大模型非常重要,记忆未来会是大模型必备能力。

火山引擎融合更好的上下文缓存技术与RAG技术,发布大模型记忆方案,将通过更快响应速度、更低使用成本、更精准效果、亿级别记忆片段,帮助客户构建更有效的记忆方案。

扣子1.5发布,让AI离应用再近一步

HiAgent1.5 发布,敏捷构建企业级 A 原生应用的能力中心

模型落地加速,将为企业带来更多机遇,助力多行业加速智能化转型。

汽车领域,过去7个月,豆包大模型汽车行业日均tokens消耗增长50倍,目前已服务国内市场近八成汽车品牌,稳坐汽车行业大模型服务商第一梯队。

智能终端领域,豆包大模型服务终端行业客户50+AI应用场景,覆盖超过3亿个终端设备,为消费者带来更加智能的生活与工作体验,来自智能终端的豆包大模型日均tokens调用量,从5月到12月,增长100倍。

技术架构面向A全面转型,AI云与基础设施持续创新

火山引擎在基础架构、数据分析等层面带来新服务,为企业打造更便捷、更高效、更安全的AI体验。

未来,火山引擎将持续,提升模型能力,优化模型服务,推动AI在各行业的深度融合与创新应用。

更强模型、更低价格、更易落地的豆包大模型,将助力开启更智能、高效、便捷的AI未来。

剪映业务负责人张楠:即梦,想象力的相机

时间:2024年12月18日

来源:字节范儿

字数:2,244

12月18日,剪映业务负责人张楠,在火山引擎Force冬季大会上发表演讲。

张楠表示,正如抖音是记录美好生活的真实世界相机,借助GenAI技术,即梦希望成为想象力世界的相机,记录每个人奇思妙想,帮助每个有想法的人,轻松表达、自由创作。

即梦AI,是剪映2024年5月上线的AI内容平台,支持通过自然语言、图片输入,生成高质量图像、视频。

张楠说,这种极其简单的方式,可以把每个人脑子里奇思妙想快速视觉化,像做梦一样, 这也是即梦产品与名字由来。

鉴于目前产品与技术都还在非常早期阶段,相比什么是最好的产品技术范式,更想谈谈即梦最关注的事情:想象的力量。

演讲实录

作为一个i人,每次在这种时刻我都很紧张。不是没有表达欲,只是语言作为一种模态、一种媒介,不够丰富立体,常常表达不出我脑子里那些天马行空的想法。

请大家发挥想象力,脑补一下我没有表达好的地方。

即梦的起源

今天主题是,聊聊即梦。

不知道大家是否观察过一个婴儿成长过程,他们用眼睛扫描世界,用耳朵聆听世界,用小手、小脚来触摸世界,这是他们对世界建模的过程。

这个过程中,婴儿开始逐渐区分真实世界与想象世界。

真实世界里,我们已经可以熟练使用100多年前就发明的摄影术,来捕捉光影。

就像我们用抖音记录美好生活一样,保存美好的时光。

抖音,是 真实世界的相机。既然如此,想象的世界,是不是也可以有像抖音一样,用来记录与表达的相机。

2022年一个早上,我在播客里听到DALL·E2,就在那个瞬间,一个久久盘旋在我脑子里的念头被点亮:这不就是想象力的相机?

你只需要输入某一刻想法,借助GenAI技术,画面可以瞬间被呈现在眼前。这种极其简单的方式,可以把每个人脑子里的奇思妙想快速视觉化,像做梦一样。

这也是即梦产品与名字由来:我们希望借助即梦这个想象力的相机,帮助每一个有想法的人轻松表达、自由创作。

目前产品与技术,都还在非常早期阶段,还不成熟。

今天我不会谈什么是最好的产品技术范式,而是想谈即梦最关注的事情:想象的力量。

人类所有的发明、创造,都始于想象,想象力是每个人大脑里表达出来的与未曾表达出来的念头、画面、情绪、思想、创意、故事。

有科学家估算过,人一生可以容纳10亿个想法。

我们大脑里神经元的数量,甚至与宇宙中恒星的数量差不多,可见人类想象力是多么活跃与丰富。

如果我们把每个人脑子里精彩的想法,都用视觉语言表达出来,那将是多么庞大的多元宇宙,多么丰富的精神世界。

想象力不应该被现实束缚,更不应该被技术门槛所遮蔽。

我们应该用未来的技术,创造想象力的相机,让更多人,类似设计师、作家、导演一般,充分表达想象,向世界展现他们创意与故事。

我特别喜欢艺术让人思考生命的意义Art makes people human,美与意义是人类特有的精神追求。

天马行空的想象力、对常规事物的突破,这种超越性,也正是我们希望即梦与大家一起探索的。

分享两个短片,分别来自即梦两位创作者。

第一个短片,创作者是编剧小文,也是一位戏剧学院的老师。她用不到5天时间,制作动人的故事,还原电影发展史,从默片时代到有声时代,讲述一位女明星的奇幻旅程。

另一部作品,是科幻短剧《觉醒》,一共8集,来自悟空AI团队,只有3人,他们用3个多月业余时间,完成这部巨作。在抖音上,收到广泛关注与好评,也是首部单日点赞破40万的AI短剧。

AI短片《绿宝石》 即梦创作者小文

AI科幻短剧《觉醒》 即梦创作者悟空AI团队

现在产品与技术只是雏形,每次打开即梦,那些精心打磨的作品,总是让我非常敬佩与感动,让我为创作者们想象力惊叹不已。

从最开始的纯视觉冲击,到有叙事结构的故事短片;从作曲、作词、演绎都是由AI完成的MV,再到最近的动态海报,AI已经在改变我们想象与创造这个世界的方式。

即梦希望成为新的创造与体验方式

试想一下,未来创作的时候,身边会有一个世界上最强大的跨学科专家团队:你的专属AI Agent,不仅精通各学科知识,还兼具艺术家审美与最强执行力,能将你需要的不同领域的元素,融入到作品当中;它还具备非凡推理能力,可以与你深入探讨各种问题,进行真正头脑风暴,持续激发你的创意,拓宽你认知的边界,根本无法预测接下来会碰撞出什么更精彩的创意。

当你的视频故事,需要独特的世界观时,它不仅可以帮你构建时代背景、人物弧光、情节冲突,甚至还能为你无限推演剧情不同走向。

最令人惊艳的是,这一切创作的过程,也许不像传统的电影创作,需要从文字开始,而是可用最符合直觉的交互方式来进行。

就像我们面前的真实世界,眼睛可以看到,耳朵可以听到,双手可以交互。

随着视频创作的变化,消费也会变化。

今天,人们还是被动观看一个视频,跟随导演的蒙太奇,体验剧情的起伏,未来的故事体验是否还有别的可能性?

体验者是否有可能从故事的任意位置进入,跟随自己喜欢的角色探索故事不同分支?

又或者,有更个性化的剧情发展,不再追随导演安排?

甚至我们可以脑洞再大一点,很多艺术家与诗人都是在半睡半醒之间创作,也许未来即梦可以结合专业的脑电波设备,帮助人们把睡觉时的梦境记录下来,把猫咪、小狗,甚至是一棵树的脑电波与生物磁场,用可视化的方式表达出来,探索潜意识、甚至是无意识的创作,呈现不同物种在这个世界的想象与表达。

想象力的局限,永远不是技术的局限,而是认知的局限。AI时代,无限画布可以变成空间画布。创作的过程,可以是跳出过往任何经验的发散与思想实验,GenAI如果是种语言,应该是更广泛的多模态的语言,应该包含世间万物,智能也应该有更广义的理解。

我们希望即梦可以激发每个人想象力,成为想象力的相机,帮助每个人表达,创造独特的体验与价值。

什么都问问豆包,问问豆包最快

时间:2024年12月18日

来源:豆包

字数:2,560

12月18日,火山引擎Force冬季大会在上海举行,豆包战略研究负责人周昊发表演讲,分享豆包在生活、学习与工作等各类场景中的广泛应用。

周昊表示,作为通用型AI产品,豆包致力满足不同用户具体、真实的需求,让用户像开口问身边朋友一样,快捷方便与豆包沟通,真正做到什么都问问豆包。

演讲全文

过往公司做APP,在早期阶段心得,是把最关键用户需求解决到非常好。

比如抖音是视频创作与分享、头条是看新闻、飞书是协同办公等。

对大模型产品,好像很难定义哪一个是最关键的用户需求。它天生是一个通用型产品,每个用户打开它时,想要解决的问题都不一样。我们要做的,是满足好不同用户在不同场景下的需求。

豆包发展过程中,我们做了很多用户访谈,发现各种不同下载理由、使用场景。

AI产品很神奇的地方是,它真的能够同时满足这些看上去非常不同的需求。

日常生活问问豆包

日常生活里各种知识与经验问答,豆包总能快速为用户答疑解惑。

最近上海到了银杏季节,一位用户说,他问豆包上海哪里可以看银杏?

豆包很快列出市中心与郊区观赏地、特点,配上银杏树照片与路线视频攻略,非常方便。

2024年,黑神话悟空特别火,带动山西旅游,很多人山西看佛像。

用户访谈中大家提到,山西逛博物馆时,会请豆包介绍北魏的佛像风格,讲中国佛像艺术在历史中演化过程。

借助豆包,旅游时对历史文物的了解,不再局限展牌上简短介绍,可以深入展品背后历史故事与文化内涵。

有朋友尝试把体检报告拍给豆包,说心电图报告里不少专业术语与符号,尝试豆包拍图解读,把医学术语翻译成浅显易懂的语言,更方便自己理解。

教育学习问问豆包

很多用户反馈,豆包能很快很好满足学习与教育的各种需求。

身边有不少朋友,近几年成为新手爸妈,他们尝试用豆包解决新的家庭教育难题。

比如一些奥数题,小朋友没什么思路,家长不太知道怎么讲解,请豆包给小朋友解答。

豆包还能提供详尽解题步骤,引导小朋友理解题目解法。

如果小朋友对某类题目掌握的不太牢固,家长会请豆包再给小朋友出几道同类知识点题目巩固练习。

英语口语练习,也是大家很喜欢的教育场景。

用户反馈说,豆包的发音、词汇量、句型,都远远超过他自己。通过豆包实时语音通话功能,与豆包一来一回练英语,毫不尴尬,也省了请老师辅导的开销。

生成的英语对话,还配有字幕,退出后还可以复习。

工作中问问豆包

最近听到最多的,是在工作场景问问豆包。

今天现场很多听众都是AI行业相关从业者,AI发展很快,经常需要阅读前沿论文补充认知。

论文,是很多用户问问豆包的高频场景。大家不仅可以让豆包总结,划词解释专业名词,还可以多追问,不论是图片还是实验数据,都可以截图问问豆包,它都能给出清晰的图表解释与实验含义。

最近豆包大模型团队,发表一篇关于图像编辑的论文,非技术背景的同事读起来有点吃力。我们可以打开豆包电脑版,上传论文,点击预设提示词,豆包可以生成清晰的脑图与总结,帮助我们快速理解论文框架,提炼核心信息。

有了豆包帮助,阅读论文门槛大大降低,非专业人士也能更快了解关键信息。

文字、图片、音乐、视频的创作上,大家也都会问问豆包。

前段时间,豆包上线一键生成带有指定文字图片的功能。

我们设计同学用豆包,直接生成一张海报,发在豆包官号上,效果不错。

同事们开玩笑说,豆包自食其力,自己努力宣传自己。

后来设计同学告诉我,现在他们做设计,第一反应也都是问问豆包。

豆包做图很快,不会因为最后重新选回第一版而不满。它给的方案不完美,也能提供不少思路与灵感,减少许多前置的工作,提升工作效率。

用户的故事还有更多,我们问自己,为什么大家在遇到问题时都愿意选择豆包?我觉得答案应该是问问豆包最快。

产品设计上,我们一直在努力,让用户输入更快、更方便。

我们非常注重多模态的输入与打磨,尤其是语音输入。输入速度上,普通人打字速度大概每分钟60~80个字,普通人的语速每分钟可以到250~300字。如果是语速快的主持人,甚至可以达到每分钟400字。

一般情况下,语音输入效率,至少是键盘输入3倍以上。语音的率天然更高,更快。

豆包语音,能准确转录各种语音信号,识别不同语言、方言、口音。

我们有个产品经理是广东人,他很喜欢给豆包发粤语,豆包也能识别的不错。

大家如果用的多,还会发现豆包对人名、生词,也能结合上下文做出准确分析。

背后都是基于豆包语音识别大模型的强大能力,这个语音模型在火山引擎已经发布,有兴趣的朋友可以联系火山购买。

这些能力储备,让用户像开口问身边朋友一样与豆包交流,真正做到什么都问问豆包。

语音以外,我们上线视觉识别模型。

前面提到不管是读心电图、还是拍奥数题,都依靠视觉输入。

人与世界沟通中,视觉是很重要的一环。

相比用语言描述心电图上的复杂信息,直接拍下来问问豆包,更快更方便。

豆包离用户场景更近、更快。

2024年,我们发布AI智能体耳机Ola Friend。这样轻便的可穿戴设备,让豆包能够成为用户耳边伴随的朋友,在路上随时与豆包对话,最快。

运动、逛街、旅行时,用户无需拿出手机或其他设备,直接通过耳机就能与豆包对话,快速获取信息。

这种无缝连接的交互方式,让豆包真正成为用户身边的智能伙伴,陪伴用户度过每一个需要知识与帮助的时刻。

2024年,我们重点建设豆包电脑版。大家可以把电脑版当成浏览器,直接打开网页。在浏览中遇到需要提问、翻译或总结时,直接点击问问豆包,就能轻松唤起,获得帮助。

我们即将上线文档编辑器功能,采取全新交互方式,生成文档后,用户可以在画布中自由编辑,让AI针对特定词语与段落优化改写,可以一键全文润色、调整长度,全网搜图等,让创作更轻松。

在看不到的地方,模型能力让问问豆包成为最快的解决方式。

当用户提出较为复杂的搜索或写作需求时,豆包快速识别用户意图,推理、拆解内容,再进行多步骤分析与推理,调度搜索,呈现总结后的结果。

豆包还能将搜索到的文本信息与视频内容相结合,为用户提供更加丰富与直观的体验。

在快的背后,是模型帮助用户做了意图识别、信息收集、处理、整合与分析。

用户带着不同需要打开豆包,大模型应用能解决非常广泛的问题,用户在使用中也会逐渐发现更多的场景。

AI是非常前沿的话题,一款AI产品成长,是需要走进真实的用户与真实生活中。工具是有限的,人对探索、求知、美好生活的追求,是无限的。

最近,我很喜欢一句话,我们要爱具体的人,做具体的事,过具体的生活。

一款AI产品也是一样,满足具体、真实的需求,关心用户具体、真实的生活。

一手实测豆包新发布的视觉理解大模型

时间:2024年12月18日

来源:数字生命卡兹克

字数:2,168(有删减)

看完全场,觉得最值得写一写,聊一聊的,是豆包视觉理解模型。

效果不仅出奇的好,最关键是价格,价格直接低85%,直接把视觉理解模型拉入厘时代。

过去1~2年,人人都在讲文字推理,讲大语言模型爆点。但视觉理解,才一直是我们认知世界的第一道关卡。

当你来到这个世界,睁开眼睛第一刻,没有学会语言的时候,靠的就是眼睛。

我们先看到光影、颜色,才逐渐分辨出父母面孔,屋子的空间,那时没有词汇、没有句子,只有模糊的光影与轮廓。

当我们对这个世界,通过视觉,一步步认识父母的脸,认识身边的玩具,认识窗外的树影,有了基本认知后,才有学语的过程。

它是我们触及世界的第一道门,不仅是看见什么,更是用看建立理解,触发思考与关联。

语言是有门槛的,要先懂词语意思。视觉先于语言,是不需要翻译的输入。

有太多普通人,不知道如何描绘自己需求,无法组织语言清楚表达一件事,但把图片扔给AI,问一下,这是任何人都会的。

上至80岁老人、下至10岁孩童,都可以。

对视觉理解模型,我才如此看重。

这次新发布的豆包视觉理解模型,除了在火山开放API,也已经在豆包上线,可以直接体验。

我第一时间,在发布会现场拉着朋友跑了大概100个case,跟GPT-4o对比做详细评测。

我们测的第一波例子,也是很多视觉大模型最痛苦的,就是数数。

我这有一个万恶之源的图,在好多论文里面都出现过,就是让大模型来数这张图里面有几只狗。

正常人类直接数中间的狗头,都非常清晰的能数清楚,一共是12只狗。


对AI那就炸了。数数这事,是最难的。

GPT-4o非常自信给了11只的答案。

Claude3.5自信爆出11只的答案,Claude与GPT差点弄的我以为自己数错了。

直到把这张图发给豆包。

我怕豆包是不是幻觉了,连续roll了5次,每次都是坚定不移的12只。

相比GPT,准确识别这是金毛巡回犬的幼犬,在答案的准确性与丰富度上,都比GPT-4o要强。

我又让它俩,做了另一件更难的事。

红框里有几个手办?分别是什么角色?

不仅需要精准识别出数量,还要知道每个角色是什么,这个能答上来,才是真的懂。

结果GPT直接抽风,上来忽悠我4个。

角色也在那瞎掰,槽点太多。

再回头看豆包。

数量6个对了,4个《火影》系列的手办,从左到右是波风水门、漩涡鸣人、迪达拉、蝎,豆包对了前面两个水门与鸣人,再加漫威一个雷神与绿巨人。

正确率66%,没能完美识别,也算是巨大进步。

这一波, GPT-4o摁在地上打。

测完数数后,又测了一波看图识景点。

直接掏出黑悟空里面十大景点,测了一波。

大部分GPT-4o与豆包都差不太多,几乎打个平手,像大足石刻、悬空寺、开元寺这种都识别出来,小西天、水陆庵野都一起翻车。

我觉得这两会在这个点上打个平手,结果,最后一题,GPT-4o翻车。

这个塔林,是山东济南灵岩寺塔林。自唐以降,墓塔成林。早为钟,黄昏为鼓,白为方,才有 晨钟暮鼓白天方。

豆包,在这最后一题上,守住自己荣耀,回答上来,险胜GPT-4o一筹。

在一些世界常识中,GPT-4o落败。

比如经典的滚珠丝杆,做个视觉误导,问哪根最长。

豆包没啥问题,准确的回答左边第二根最长。

GPT-4o又翻车,我roll了5次,每一次都信誓旦旦说最左边最长。

我们做了非常详细的统计表格。

把豆包与GPT-4o评测,每个跑三次,放在一起对比。

看出来,大多数任务上,豆包视觉理解大模型,都比GPT-4o识别的更精准、更详细,对中国文化一些内容,懂的更多。

还有个很有趣的点,GPT-4o坑爹到家的安全限制,他没法看到任何人脸,豆包可以。

并不是说豆包在视觉理解上,就强到爆炸。

不行的点,当然也有。

我们发现,在一些数学公式计算上,错误率还是会有一些,比如这道题。

答案是A,扔给豆包时,会发现,回答还是会有一些错误。

一些复杂计算上,还是有一些差距,做题一直以来都是大模型短板。

整体看,这波升级,就是解决很多基础的常识性问题,让大模型有了更强的眼睛,也有了更好的脑子,还是非常有用的。

文章最后,我突然想说关于我朋友与他想要AI的故事。

这哥们是大概40岁出头的中年人,压力很大,背着房贷,四脚吞金兽还在地上跑。

人在一线城市,平时要上班养家糊口,又在业余时间搞了点自己小买卖,想减轻一点家里的压力。

他以前与我说过,他最大痛苦是没有时间学更专业技能,他那个网店是卖点数码的小玩意,自己不会拍好看的商品图,不懂设计,没有钱请专业摄影师与设计师。

我当时给他推荐了一些电商AI生图工具,能自动给产品做美化背景,能改色调、能帮他处理一些杂事。

有个问题,哥们没啥想象力,审美上有点差异,对AI绘图的Prompt描述能力不行,总是词不达意,AI给出的图经常有点离谱。

后来有天,他跟我说过,他真正想要的AI产品,是他不用管乱七八糟,是想让自己数码小玩意融入一个夏日海滩场景的时候,他只需要拍张桌上堆满物品的乱七八糟的图,把那个产品圈出来,对AI说:给我用这件单品,搞夏日风海报,把我桌面上杂乱的东西都变成整洁的道具摆放。

AI看懂后,直接创作出一张清爽的营销图,完事。

这个哥们跟我聊天说这样需求时,他眼睛里放光,问我有没有这样的东西。

我说,现在还真没有。

看着他可惜的眼神,嘴角轻轻的叹了口气。

我相信,随着视觉理解模型的进步,随着一句话改图的进步,随着这两者,发光发热继续融合。

一定会有那么一天,能让哥们,有眼睛里发光的那天。

可能,就在不远的将来。

让每个人,都能享受科技的乐趣,这就是技术,真正该发挥的作用。不是替代,而是帮助,帮助一个普通人在沉重生活里找到一丝自我创造的乐趣。帮助那些有想法、缺手段的人,让他们用更少时间把脑中蓝图变为现实。我觉得,这可能才是,最酷的事。


六合年度报告全库会员,欢迎扫描识别下方图中二维码或点击文末“阅读原文”购买

智能时代专题,欢迎扫描识别下方图中二维码或点击文末“阅读原文”购买


智能时代专题第二季,欢迎扫描识别下方图中二维码或点击文末“阅读原文”购买


智能时代专题第一季,欢迎扫描识别下方图中二维码或点击文末“阅读原文”购买


六合商业研选付费专题报告,欢迎扫描识别下方图中二维码或点击文末“阅读原文”购买

元宇宙专题,欢迎扫描识别下方图中二维码或点击文末“阅读原文”购买

头号玩家第二季,欢迎扫描识别下方图中二维码或点击文末“阅读原文”购买

头号玩家第一季,欢迎扫描识别下方图中二维码或点击文末“阅读原文”购买

智能电动汽车专题,欢迎扫描识别下方图中二维码或点击文末“阅读原文”购买

相关研报:

【智能时代】现象级游戏《黑神话:悟空》的思考,游戏二元属性,文化与科技

【智能时代】自动驾驶:汽车iPhone时刻,中国三大流派演化形成中

诸神之战:美国科技巨头,从春秋五霸进入战国七雄|GBAT 2023 大湾区智能时代产业峰会

人类未来文明三部曲之二:智能时代专题预售开启,奇点临近,未来已来

九宇资本赵宇杰:智能时代思考, 认知思维,存在原生、降维、升维三波认知红利

九宇资本赵宇杰:智能时代思考,以史为鉴,科技浪潮,从互联网到AI

九宇资本赵宇杰:智能时代思考,宇宙视角,从碳基生物,到硅基智能体

人类未来文明三部曲之一:元宇宙专题预售开启,59期45万字

九宇资本赵宇杰:1.5万字头号玩家年度思考集,科技创新,无尽前沿

九宇资本赵宇杰:1.5万字智能电动汽车年度思考集,软件定义,重塑一切

【重磅】前沿周报:拥抱科技,洞见未来,70期合集打包送上

【重磅】六合年度报告全库会员正式上线,5年多研究成果系统性交付

【智能电动汽车专题预售】百年汽车产业加速变革,智能电动汽车时代大幕开启

【头号玩家第一季预售】:科技巨头探索未来,头号玩家梯队式崛起

【头号玩家第二季预售】:科技创新带来范式转换,拓展无尽新边疆

【首份付费报告+年度会员】直播电商14万字深度报告:万亿级GMV风口下,巨头混战与合纵连横

【重磅】科技体育系列报告合集上线,“科技+体育”深度融合,全方位变革体育运动

【重磅】365家明星公司,近600篇报告,六合君4年多研究成果全景呈现

九宇资本赵宇杰:CES见闻录,开个脑洞,超级科技巨头将接管一切

【万字长文】九宇资本赵宇杰:5G开启新周期,进入在线世界的大航海时代|GBAT 2019 大湾区5G峰会

九宇资本赵宇杰:抓住电子烟这一巨大的趋势红利,抓住产业变革中的变与不变

【IPO观察】第一季:中芯国际、寒武纪、思摩尔、泡泡玛特、安克创新等11家深度研报合集

【IPO观察】第二季:理想、小鹏、贝壳、蚂蚁、Snowflake、Palantir等12家公司深度研报合集

【IPO观察】第三季:Coinbase、Roblox、快手、雾芯科技等12家公司深度研报合集

【重磅】年度观察2019系列合集:历时3个多月,超20万字近500页,复盘过去,展望未来,洞悉变与不变

【珍藏版】六合宝典:300家明星公司全景扫描,历时3年,210万字超5,000页,重磅推荐

九宇资本赵宇杰:对智能电动汽车产业的碎片化思考

九宇资本赵宇杰:九宫格分析法,语数外教育培训领域的道与术

【2023回乡见闻录】90、00后小伙伴们万字记录,生活回归正轨,春节年味更浓

【2022回乡见闻录】20位90、00后2万字,4国13地,全方位展现国内外疫情防疫、春节氛围、发展现状差异

【2021回乡见闻录】22位90后2万字,就地过年与返乡过年碰撞,展现真实、立体、变革的中国

【2020回乡见闻录】20位90后2万字,特殊的春节,时代的集体记忆

【重磅】22位“90后”2万字回乡见闻录,讲述他们眼中的中国县城、乡镇、农村

六合君3周岁生日,TOP 60篇经典研报重磅推荐

下午茶,互联网世界的三国杀

5G助推AR开启新产业周期,AR眼镜开启专用AR终端时代

新商业基础设施持续丰富完善,赋能新品牌、新模式、新产品崛起,打造新型多元生活方式

【重磅】中国新经济龙头,赴港赴美上市报告合辑20篇

知识服务+付费+音频,开启内容生产新的产业级机遇,知识经济10年千亿级市场规模可期

从APP Store畅销榜4年更替,看内容付费崛起

新三板破万思考:新三板日交易量10年100倍?

九宇资本赵宇杰:科技改变消费,让生活更美好|2017 GNEC 新经济新消费峰会

九宇资本赵宇杰:创业时代的时间法则,开发用户平行时间|2016 GNEC 新经济新智能峰会


九宇资本赵宇杰:互联网引领新经济,内容创业连接新生态 |2016 GNEC 新经济新营销峰会


请务必阅读免责声明与风险提示







请到「今天看啥」查看全文