今天早上看了一下火山的 Force 大会,豆包模型家族又壮大了,而且继续卷价格。
主要发布内容有: #AI创造营#
- 发布豆包视觉理解模型
- 豆包音乐模型升级
- 发布豆包 3D 生成模型
- 豆包文生图模型升级
发布豆包视觉理解模型:
更强的内容识别能力:动作情绪、位置、中国特色内容、文字符号理解能力都有很大提升。
更强的推理能力:解视觉内容中的文字、图像、图表等信息,进行数学、逻辑、代码等推理。
更细腻的视觉描述能力:可以更详细的描述图像呈现的内容,基于图像内容进行文字创作。
可以在豆包 app 体验这些能力。而且面向企业级的市场,豆包视觉理解模型一千 Token 只需要 0.003 元大幅低于其他模型
另外豆包通用模型 Pro 截止 12 月的日均 Token 调用量已经超过 4 万亿。
豆包音乐模型升级:用户只需要上传图片或者文字描述就能生成超过 3 分钟的音乐作品,包含十多种风格和情绪。可以在海绵音乐体验。
发布 3D 生成模型:支持文生图生和多模态生成,只需要 1 分钟就可以生成 3D 资产。
豆包文生图模型升级:实现产品化通用图片编辑,可以通过文字编辑图像。而且现在可以写中文,用来生成海报等中文营销内容很有帮助。
火山引擎还宣布,2025年春季将推出豆包端到端实时语音模型和视频生成模型1.5版。端到端实时语音模型支持多角色演绎和方言转换等新能力,视频生成模型1.5版支持1分钟长视频生成。
主要发布内容有: #AI创造营#
- 发布豆包视觉理解模型
- 豆包音乐模型升级
- 发布豆包 3D 生成模型
- 豆包文生图模型升级
发布豆包视觉理解模型:
更强的内容识别能力:动作情绪、位置、中国特色内容、文字符号理解能力都有很大提升。
更强的推理能力:解视觉内容中的文字、图像、图表等信息,进行数学、逻辑、代码等推理。
更细腻的视觉描述能力:可以更详细的描述图像呈现的内容,基于图像内容进行文字创作。
可以在豆包 app 体验这些能力。而且面向企业级的市场,豆包视觉理解模型一千 Token 只需要 0.003 元大幅低于其他模型
另外豆包通用模型 Pro 截止 12 月的日均 Token 调用量已经超过 4 万亿。
豆包音乐模型升级:用户只需要上传图片或者文字描述就能生成超过 3 分钟的音乐作品,包含十多种风格和情绪。可以在海绵音乐体验。
发布 3D 生成模型:支持文生图生和多模态生成,只需要 1 分钟就可以生成 3D 资产。
豆包文生图模型升级:实现产品化通用图片编辑,可以通过文字编辑图像。而且现在可以写中文,用来生成海报等中文营销内容很有帮助。
火山引擎还宣布,2025年春季将推出豆包端到端实时语音模型和视频生成模型1.5版。端到端实时语音模型支持多角色演绎和方言转换等新能力,视频生成模型1.5版支持1分钟长视频生成。