DeepSeek R1模型的横空出世引发了AI行业的剧烈震荡,这场看似突如其来的“爆款效应”,实则是AI技术发展到临界点的必然结果,也为整个行业带来了范式级的变革信号。
本次爱分析邀请来也科技联合创始人兼CTO胡一川博士在线对谈,深入剖析DeepSeek引发的技术变革以及其对AI产业格局带来的深远影响。
内容已做精简,如需获取专家完整版视频,请扫码领取。
01
纯强化学习下的长思维链和工作流是相互融合、相互补充的
DeepSeek R1技术实现采用了Pure RL方式,这一技术层面的突破验证了纯粹用强化学习可以提升模型在解决特定复杂问题时的能力,使模型具备深度的思考和强推理的能力。
在具体场景如解数学题和写代码上,Pure RL方式带来了显著的影响。
一方面,它降低了模型在特定复杂任务上提升能力时对标注数据的依赖。
过去,要让模型具备解数学题和编程能力,需要标注大量的高质量题目,但这样的数据并不易得,且标注成本高昂。
而现在,通过强化学习,模型可以在较少的标注数据下达到一个不错的水平,并进一步提升至更高水平。
另一方面,Pure RL方式的影响还体现在其应用场景的广泛性上。虽然数学和编程任务因其公开性和可校验性成为强化学习的试验田,但真实生活和工作中还有大量场景,如客服解答客户诉求、营销人员获取销售线索等,这些都可以描述成有最终结果的任务。对于这类任务,做Agent平台的公司可以用强化学习在特定的场景上训练Agent模型,使其具备复杂的推理能力和解决特定问题的能力。
关于工作流路线能否延续,取决于模型的强度和应用场景。
理
论上
,如果模型足够强,工作流是可以在模型做深度推理时生成出来的。
特别是在一些长尾场景中,工作流很难事先描述或设计,此时让模型学会并在推理过程中生成工作流将更为合适
。
然而,在ToB场景下,工作流路线仍然是适合的。
因为ToB场景对准确性、稳定性和可靠性要求很高,如果每次工作流都要靠模型生成,可能存在不可靠性。
此外,在很多ToB场景下,工作流本身就已经存在,如文档、流程图或专家脑中,此时让模型直接遵循工作流将更为高效。
过去,人们先设计工作流,然后在不同节点上用大模型解决特定问题;现在有了长思维链后,模型可以在思维链中直接体现工作流的逻辑。因此,工作流和思维链之间并非矛盾关系,而是可以相互融合、相互补充的。未来可以基于强化学习的长思维链和工作流,以融合的方式各自解决不同的问题。在长思维链中,模型可以生成工作流,也可以调用工作流。
02
AI在ToC与ToB场景中,有哪些超级应用的机会
大模型出来之后,增加了在ToC场景下产生超级应用的可能性。要成为一个ToC的AI超级应用,需要具备三个先决条件:一是模型的智能水平足够强,二是能够连接到c端用户所需的信息、内容、服务等,三是拥有足够多的c端用户数据,以提供个性化的体验和服务。
目前,巨头在这些方面拥有很大的优势,因为他们有数据、有用户、有生态。然而,这并不意味着没有其他机会,因为在一些今天还没有很好被满足的C端场景,以及在巨头还没有拥有足够的用户和数据的场景,仍然是有机会的。
面对toB场景,与ToC不同。ToB很难说会有一个所谓的入口级的机会。然而,在大模型时代,尤其是深度推理大模型的出现,ToB的场景会有一个很大的商业模式上的变化。过去,ToB更多卖的是企业级的软件,按照软件的license或者坐席去订阅。但现在,软件可能会往Agent的方向发展,即变成一个智能体,能够卖最终的价值,而不是软件本身。这种变化带来了很大的空间和机会,而且很多机会并不一定是属于巨头的。因为巨头在这里面的优势虽然存在,但并不那么明显。相反,很多初创公司也开始在ToB的场景下,借助AI、借助智能体,开始创造了新的产品形态、新的交付模式和新的商业模式。