最新A股正宗豆包语音大模型概念股梳理

题材小表格 · 公众号 · 股市科技自媒体 · 2025-01-21 15:27

正文

2025年1月20日，字节跳动发布豆包实时语音大模型，该模型是一款语音理解和生成一体化的模型，实现了端到端语音对话。相比传统级联模式，该模型在语音表现力、控制力、情绪承接方面表现较强，并具备低时延、对话中可随时打断等特性。在数据收集中，团队筛选并整理大量包含丰富情感的语音数据，涵盖各种场景与情绪状态。在预训练阶段，团队对各模态交织数据进行深入训练，精准捕捉并高效压缩海量语音信息，通过Scaling，最大程度实现语音与文本能力深度融合和能力涌现。在后训练阶段，团队使用了高质量数据与RL算法，进一步提供模型高情商对话能力与安全性，并使大模型同时兼具“智商”与“情商”。

架构支持多模态输入输出，涌现出较强声音控制、声音扮演等能力

在架构方面，豆包团队研发端到端框架，深度融合语音与文本模态，该框架面向语音生成和理解进行统一联合建模，实现多模态输入和输出效果，涵盖S2S（语音到语音）、S2T（语音到文本）、T2S（文本到语音）、T2T（文本到文本）等多种模式。模型涌现多种能力：在声音控制方面，模型不仅能依照基础指令输出，还可遵循丰富的复杂指令；在声音扮演方面，目前模型部分方言和口音，主要源自于预训练阶段数据泛化，而非针对性训练。此外，模型支持实时联网功能，能够根据问题，动态获取最新信息，问题回答时效性强。从测评结来看，豆包实时语音大模型在情绪理解和情感表达方面优势明显，整体满意度方面，豆包实时语音大模型评分为4.36，GPT-4o为3.18，豆包模型表现更优。

机构表示，ToB和ToC端大模型齐飞，重视字节跳动等相关产业链投资机会

以下是A股豆包语音大模型概念股梳理：