专栏名称: 芥末堆看教育
芥末堆是一个专注于教育产业信息挖掘与传递的行业内资讯服务媒体平台。 我们观察整个教育行业产业链上下游的动态发展,发现行业内具备创新与机遇的公司与产品,解读政府政策及市场变化,及时、高质地为业内各方提供深度价值信息。
目录
相关文章推荐
新闻广角  ·  不要去!不要去!确认1人身亡 ·  22 小时前  
新闻广角  ·  致癌!致癌!致癌!春节别吃 ·  4 天前  
51好读  ›  专栏  ›  芥末堆看教育

网易有道CEO周枫:大模型的“产模一体”

芥末堆看教育  · 公众号  ·  · 2024-05-27 19:04

正文

图源:Unsplash


今年大模型进入落地年,大家自然对于应用和商业化的关注程度大幅上升,近来看到一个观点值得关注: 是否对于一家大模型公司来说,产品和模型同时做,同时优化,是最佳的应用和落地模式?


MiniMax的闫俊杰说“产模一体化”,


闫俊杰: ... 比如我们看美国的公司,OpenAI 是都做,Anthropic 之前只做模型、昨天他们把 Instagram 的 CTO 也招过去了,我不知道是不是它们也有可能做产品。 我觉得至少对做模型的公司来说,自己做产品几乎是必然的选择。 我们算是比较坚决的,有些公司后面变成这样了,这是必然的。


反过来,其实对做产品的公司也是一样的。比如说我们国内的开放平台上,有很多做产品的公司和客户,其实规模还挺大的,大概有接近一千家。这里面有大的公司,也有小的创业公司。其实坦白说,对所有这些公司来说, 如果它们的产品得很大,他们也希望自己掌控模型的。 这也是必然的一个路。


出门问问的李志飞讲“产模结合”:


之所以「产模结合」这么重要,是因为产品对于模型来说,有一个非常重要的 「定向」或「灯塔」 作用,为模型的研发指引方向。产品的需求可以倒逼模型能力的优化方向,也更容易检验模型能力的实际表现。有了产品,就有了大模型的聚焦,而不是漫无边际地拓展大模型的能力边界。


软件2.0


我对“产模一体”这个方向是赞同的,科技企业做的事情,本质上是数字化生意,就是用机器的能力来驱动商业流程,而这个的主要手段是通过软件的研发。以前的软件都靠程序员编写,而 大模型和神经网络的出现,带来了Andrej Karpathy所说的“软件2.0” 。他认为软件1.0能做出的产品非常局限,而软件2.0则能大大拓展可开发的产品空间:


Karpathy说:


相反,我们的方法是在理想程序的行为上指定一些目标(例如,"满足一个输入输出对实例的数据集",或者 "赢得一盘围棋"),编写一个粗略的代码骨架(即一个神经网络架构),确定一个程序空间的子集进行搜索,并使用我们所掌握的计算资源在这个空间中搜索一个有效的程序。在神经网络的情况下,我们将搜索限制在程序空间的一个连续子集上,在这个子集上,搜索过程可以通过反向传播和随机梯度下降而变得高效(有点令人惊讶)。


换句话说,模型即程序,而这个程序通过训练由机器自动产生,而不是由程序员手工编写。训练模型的过程,就是一个新的生成软件的过程。更重要的,这个过程能解决的问题,比传统的“PM+Dev+Test”的软件1.0要更多,更广泛,可以识别图像,可以进行翻译,可以进行企业知识推理,可以自动匹配广告。同时,和所有的软件研发过程一样,从需求出发,不断迭代提升能力,更好满足用户需求,也是软件2.0成功的关键,区别在于这一迭代是基于机器训练,而不再是人工编码。


既然模型本身就是程序,模型的能力因为Scaling Law快速提升,那么必然的一个结果,就是大模型原生的产品中,模型不能是一个简单的标准化组件和工具,而是产品的关键环节,甚至就是产品的主体和本身。因此,传统软件研发的过程也自然被颠覆,要从以手工编码为中心,转向以模型为中心。那么,这意味着:


对于模型公司, 如果产品的主体、提供90%能力的模型都已经做了,这时候不做终端产品的话,就既带来方向感的缺乏,也带来不必要的商业化的迂回。 因此模型公司纷纷做2C产品。


反过来,对于产品公司, 简单地将标准大模型“套壳”而形成的产品,因为核心的模型不能主动、持续大幅进步、无法形成差异化,注定无法成为大模型落地的主力 。所以,产品公司也必然做模型。


因此,产模一体是个顺理成章的事情。剩下的,就是选择哪个切口进入,如何差异化,以及在企业资源框架下做的问题。


困难与机会







请到「今天看啥」查看全文