本文整理自 InfoQ 策划的 DeepSeek 系列直播第 11 期节目。在直播中,极客邦科技创始人 &CEO 霍太稳对话北电数智的首席科学家、复旦大学计算机学院特聘教授窦德景,DeepSeek 爆火之后,距离实现下一个小目标还有多远,以及在这个过程中衍生出了哪些新的市场需求和产业机遇。
就像历史上蒸汽机的发明并没有减少煤炭的消耗,飞机燃油效率的提升也没有减少航空燃油的消耗。窦德景教授强调,如今 DeepSeek 虽然节省了训练和推理的算力,但它反而会驱动算力和芯片需求的激增。
下文为直播部分内容精选,完整直播回放可点击链接查看:
以下为窦德景教授的分享实录部分(经编辑):
DeepSeek 的出现无疑给行业带来了巨大冲击。它不仅重新洗牌了全球大模型格局,还迫使其他厂商加速技术迭代。DeepSeek V3 和 R1 已成为开源模型中的佼佼者。更令人惊艳的是,DeepSeek 在训练过程中仅使用了非常小的算力,甚至比早期的 Bert 和其他 Transformer 模型还少。这不仅颠覆了传统的“Scaling law”,还为 AI 产业发展提供了新的思路。
DeepSeek 的成功也对其他大模型厂商产生了深远影响。它
证明了即使在参数较少的情况下,通过优化也能达到与最大参数模型相当的性能
。这使得其他厂商开始重新思考如何在减少训练成本的同时提升模型性能。DeepSeek 的开源特性使其在 GitHub 上两个月内获得了超过 8.35 万的收藏量,超越了 OpenAI。它不仅降低了训练和推理成本,还为科研和大模型发展提供了新路径。
正如杰文斯效应阐述的那样,尽管 DeepSeek 加速了 AI 技术的降本过程,但它反而会驱动算力和芯片需求的激增。历史上,蒸汽机的发明并没有减少煤炭的消耗,反而使其增加;同样,飞机燃油效率的提升也没有减少航空燃油的消耗,反而使其增多。如今,DeepSeek 虽然节省了训练和推理的算力,但对芯片的需求反而会进一步增加。
从国内来看,AI 行业的“六小虎”等企业资源相对有限,但在 DeepSeek 出现后,大家意识到即使资源不多,也能开展 AI 研发。这表明 AI 的门槛已经被大幅降低,更多企业将参与其中。事实上,DeepSeek 推出后,每天都有新闻报道各个行业(无论是政府国企还是民营企业)接入 DeepSeek 的案例。与 ChatGPT 刚出现时相比,
如今企业对大模型的使用已经呈现出井喷式增长
。此外,利用 DeepSeek 的技术和架构,可以显著降低垂类模型开发的成本。过去,企业可能需要先选择一个基础大模型,再考虑是否需要开发行业模型(如医疗或金融),然后才能进行垂类专业模型的落地。但现在,
基于 DeepSeek 的架构和基础模型,直接开发垂类模型已经成为可能
。
在 C 端,DeepSeek 的用户量迅速增长,其日活跃用户在国内已经位居前列。基于如此庞大的用户基础,企业可以开发出更具影响力的超级应用。这为开发者提供了强大的动力。
在 AI 产业化的广阔前景中,我们看到了一个约 10 万亿规模的巨大市场。
随着 DeepSeek 等技术的出现,端侧算力的需求将极大增加
。如果大家基于 DeepSeek 开发超级应用或针对 C 端进行开发,端侧算力的重要性将愈发凸显。
目前,我们已经着手重点关注金融、制造、汽车、政务、教育和医疗等领域的 AI 产业化布局。未来,我们还会拓展到更多行业。有些行业可能仍处于变革的早期阶段,而有些行业,比如通讯和互联网,由于与科技距离较近,已经发展得相对成熟。关键在于如何将 AI 融入这些行业并实现应用落地。我们相信,DeepSeek 开启了行业模型的新起点,无论是传统行业、重点关注的行业,还是科技领先的行业,DeepSeek 都将发挥重要的促进作用。
北电数智的路径非常清晰,希望拥抱这个广阔的 AI 市场,在多个领域打造垂类大模型。春节过后,我们就已经把 DeepSeek 与我们的智算中心相融合,其最大的特点是,我们实现了多种国产芯片与 DeepSeek 的适配。这意味着在我们的智算平台上,多种芯片可以同时运行并支持 DeepSeek。这不仅具有技术意义,也体现了我们对国产芯片的支持。
我们希望打造行业影响力、产业凝聚力和创新驱动力。
DeepSeek 的成功只是一个开始,未来还会有更多公司投入到大模型领域
,这是一件好事。竞争将促使我们不断进步,开发出更便宜、更高效的大模型,服务各行各业,构建 AI 生态体系。
以下是对话交流环节实录(经编辑)。
InfoQ:您既有研究者的身份,又有实践者的身份,那么您认为当前 AI 最亟需突破的边界是什么?
窦德景教授:
目前 AI 的发展趋势整体向好,DeepSeek 的出现为全球 AI 发展注入了新的活力和动力。过去,以 OpenAI 为代表的美国团队坚持 Scaling Law 理念,通过堆叠算力和增加模型参数来提升模型性能,例如马斯克的 Grok 3 可能使用了 10 万到 20 万张 GPU 卡来训练,参数规模应该超过万亿级别。这种直接通过扩大模型规模来提升性能的方法虽然有效,但边际效益会随着参数增长而递减。从技术角度来看,GPT-5 预计会达到约 10 万亿参数,这可能是模型规模的一个顶点。
进一步扩大模型规模的意义和效益有限
,因为人类大脑虽然有约 100 万亿个神经元之间的连接(对应大模型 100 万亿参数),但实际使用的比例不到 1/10。因此,未来 AI 的发展方向就应该是优化模型,而不是继续把模型做得更大,DeepSeek 在这方面已经给出了很好的启发。
另一个重要的方向是
降低成本,使 AI 大模型能够在特定行业和专业领域实现盈利
。目前,大模型公司普遍面临成本高昂、难以盈利的问题,用户越多,成本越高。未来,AI 公司需要探索新的商业模式,例如互联网的广告或其他盈利方式,以实现可持续发展。此外,AI 的商业化应用也面临挑战。尽管 AI 能够提升产品性能,但企业需要思考用户是否愿意为 AI 性能加持的产品付费。这不仅是技术问题,更是商业模式的探索。未来,AI 公司需要找到真正能够落地并持久发展的商业模式。
InfoQ:北电数智作为一家国企,如何平衡技术创新与产业使命之间的关系?是否有可能探索出一条新的破局之道?
窦德景教授:
我们不能认为国企就缺乏创新能力,这种逻辑本身就不成立。北电数智虽然是国资背景,由北电控股占主导股份,但我们仍是一家初创公司。我们既继承了国企的文化,也受益于北电的良好基础。北电旗下的京东方和北方华创都是千亿市值的上市公司,这足以说明国企同样能够成就一番事业。
我选择加入北电数智担任首席科学家,是因为我在波士顿咨询担任首席数据科学家时,曾为北电数智做过战略和技术规划。从技术角度出发,我们不能仅仅局限于提供算力。虽然我们不做芯片,但我们可以利用多种国产芯片,这是北京市国资委支持的项目。将多种国产芯片整合并协同运行并非易事,但我们认为这是值得尝试且可行的。我们始终保持着创新的驱动力,因为我们做的事情,无论是国企还是民企,都未曾真正做好。作为一家初创企业,我们拥有较大的灵活性,这与传统国企的“条条框框”形成鲜明对比,这也是我们的优势所在。
InfoQ:DeepSeek 爆火之后,很多人都在关心如何用 AI 技术赋能各行各业,对此您有什么建议?
窦德景教授:
各行业使用大模型本质上并无区别,以餐饮行业(注:有观众提问餐饮行业怎么用 AI?)为例,即使是传统上与 AI 距离较远的行业,也可以通过以下步骤实现大模型的应用:
-
选择基础模型
。DeepSeek 的优势在于其性能与 GPT-4 相当,且在国内可直接使用。这解决了许多企业在选择基础模型时的难题,因为 DeepSeek 不仅开源,还降低了使用门槛。
-
针对餐饮行业,需要
结合自身数据进行优化
。这些数据可能来自企业自身的数据库,如销售记录、客户反馈等。同时,还需收集更多餐饮行业的公开数据,进行所谓的“后训练”,以帮助 DeepSeek 更好地理解餐饮行业的特点。
-
通过强化学习或微调
,将 DeepSeek 应用于具体场景,如菜品推荐、顾客情绪识别、智能点餐等。例如,根据顾客的历史订单和偏好生成个性化菜单,或者通过情绪识别技术实时反馈服务质量。
这种模式不仅适用于餐饮行业,其他行业如养老、零售等也可通过类似步骤实现大模型的落地应用。
InfoQ:针对智能制造、医疗、金融等 B 端场景的 AI 应用,您有什么期待吗?
窦德景教授:
B 端应用相对容易一些。只要企业认为 AI 能够带来效果,比如提升效率、节省人力,他们就会愿意使用。现在很多企业,包括美国企业,已经开始减少程序员的雇佣,因为 AI 在编写程序方面确实有效。比如,我家孩子计算机系硕士毕业,原本一天需要花 8 小时写程序,现在借助 ChatGPT,一天只需要 2 小时。所以,B 端应用的持续发展是必然的。
相比之下,C 端应用要难一些。C 端用户需要愿意使用,但更重要的是愿意付费。免费提供给 C 端用户使用,增加用户数量固然重要,但这只是(互联网行业)早期阶段的策略。如果能在一两年内出现一款既能让 C 端用户愿意使用,又愿意付费的产品,那当然更好。不过,我也不确定一两年内能否出现这样的产品。
InfoQ:如果将数据放到大模型上进行训练,如何确保这些数据不会被大模型直接拿走或稀释?从您的角度来看,技术手段和制度设计应该如何协同,以解决这个问题?
窦德景教授:
在百度研究院工作期间,我开始建议联邦学习研究和技术应用,当时主要是利用百度的搜索和地图数据,结合高校的模型及疾控中心的数据集,开展疫情分析和预测合作。数据隐私问题并非 AI 时代才出现,只要涉及数据的传输和共享,就会存在风险。目前,大模型公司如 OpenAI、DeepSeek 和百度等,通常会通过免责声明或协议来保证用户数据的安全,但这更多是一种“君子协定”,缺乏技术层面的绝对保障。
为了解决这一问题,我曾建议北电数智
构建可信数据空间,通过联邦学习、加密技术等手段,实现数据的“可用不可见”
。例如,联邦学习允许数据在本地进行训练,仅将加密后的模型参数上传和合作方的模型进行聚合,从而保护数据隐私。此外,我知道百度也尝试过使用加密数据进行大模型训练,进一步提升数据安全性。
关于安全问题,比如
可信计算和可信 AI
,其实早在大模型出现之前就已经发展多年了。无论是学术研究还是产业应用,包括联邦学习,很多人都在探索。对于联邦学习来说,主要任务是训练神经网络模型。如果多方共同训练,其实不需要把数据放在同一个地方。各方可以保留自己的数据,训练自己的模型,最后通过交互模型参数(而不是数据)来完成协同训练。例如,模型参数可能是一些数值,如 0.123、0.456,但这些数值无法反推出原始数据是什么样的。
这一领域其实有很多解决方案。但问题是,这些方案往往会有额外的开销。比如,如果加入联邦学习或加解密过程,显然会增加算力需求、时间和成本。毕竟,世界上没有免费的午餐,你不能既要又要还要。比如,你不能既要求安全,又要求省算力,还要求数据量少、模型性能高。这些都是不可能同时实现的。你必须有所取舍,牺牲一些东西来换取获得另一些东西。这并不是 AI 带来的新问题,整个计算机领域一直如此——这是一个权衡(tradeoff) 的问题。
InfoQ:有学者指出高质量语料库将在 2027 年面临枯竭。对于 AI 技术和产业应用领域的不同企业而言,如何应对数据危机?合成数据训练或联邦学习是否会成为下一代技术底座?
窦德景教授:
如果数据都是合成的,隐私问题自然就不存在了。不过,就合成数据本身而言,目前大家都在使用 AI 生成合成数据来训练 AI 模型,这已经成为一种常见的做法。
我的预期是,
在未来的某个阶段,我们可能不再需要依赖大量的真实训练数据
。这让我联想到 AlphaGo 和 AlphaGo Zero 的区别。AlphaGo 使用了 100 万盘人类高手的棋局作为训练数据,而 AlphaGo Zero 则完全摒弃了人类棋局,仅基于围棋的基本规则,通过两个程序互相训练,就像金庸小说里面的左右互搏,最终成为绝世围棋高手。
未来,AI 训练可能会进入类似的阶段。当 AI 对物理世界的理解达到一定水平后,我们或许不再需要采集任何真实数据,而是可以直接根据物理世界的原理或规则生成所需的训练数据。当然,这可能在一两年内还难以实现。目前,所有真实数据加在一起,可能也只能训练出 5 万亿参数的模型。但如果 GPT-5 达到 10 万亿参数,按我的推测,那肯定已经用了很多合成数据。
最终,数据的使用量可能会越来越少
。DeepSeek 已经表明,强化学习是一个非常强大的工具。未来,结合强化学习和对物理世界规律的理解,或许可以解决数据需求的问题。当然,这可能意味着人类的作用会进一步减弱,因为过去人类还可以通过产生真实数据来参与和帮助 AI 训练,而未来甚至连真实数据都不再需要了。这听起来可能有点悲观,但这种可能性确实存在。
InfoQ:杨立昆说这次 DeepSeek 之所以火,是因为开源模型战胜了闭源模型。那么,开源和闭源之间到底有没有一个明确的边界呢?
窦德景教授:
开源和闭源模型会长期共存。从操作系统的发展来看,Windows 一直存在并占据重要地位,Linux 也很好用。大模型类似于操作系统或搜索引擎,是未来世界的基础设施。未来的世界可能是“处处有 AI”,因此需要这样的基础设施来支持。开源和闭源各有优缺点,很难说一方一定比另一方更强。
DeepSeek 的成功并不意味着闭源模型会被彻底取代,二者各有优势,会长期共同存在
。