专栏名称: 夕小瑶的卖萌屋
这里有自然语言处理、机器学习、算法的入门指导、科普与深度干货,有小夕的回忆与日常,还有最重要的:萌!气!
目录
相关文章推荐
阑夕  ·  支付宝为创作者带来新机会 ·  昨天  
看雪学苑  ·  学它!Browser Pwn Chrome V8篇 ·  3 天前  
光伏资讯  ·  2024年全球光伏组件出货排行榜! ·  3 天前  
光伏资讯  ·  2024年全球光伏组件出货排行榜! ·  3 天前  
51好读  ›  专栏  ›  夕小瑶的卖萌屋

LeCun:Deepseek爆火不能说明中国AI强,只能说开源模型很强

夕小瑶的卖萌屋  · 公众号  · 科技自媒体 互联网安全  · 2025-01-26 19:20

主要观点总结

DeepSeek技术引发全球AI社区震动,其最新模型DeepSeek-R1在AI测试中表现出色,成本优势明显。硅谷对此反应强烈,引发对AI领域未来的讨论和焦虑。LeCun指出应关注开源与闭源的胜负,而非特定国家间的竞争。DeepSeek的成功源于其使用开源研究和项目,代表AI研究的开源模式正在崛起。这推动全球AI技术朝着更健康、更普惠的方向发展。

关键观点总结

关键观点1: DeepSeek-R1的出色表现和成本优势

DeepSeek-R1在AI测试中表现出色,成本为每百万token仅0.14美元,相较于OpenAI的7.5美元,成本骤降98%。

关键观点2: 硅谷的焦虑与讨论

DeepSeek的成功引发硅谷的焦虑,Meta员工担心其生成式AI团队被超越,管理层面临成本问题。这种焦虑源于对技术失利的担忧,也反映了对自身模式和未来战略的深刻反思。

关键观点3: 开源与闭源之争

LeCun认为应关注开源与闭源的胜负,而非特定国家间的竞争。DeepSeek的成功得益于开源研究和项目,代表开源模型的崛起。这种开放共享的模式推动AI技术健康发展。

关键观点4: DeepSeek的成功意义

DeepSeek的成功不仅在于其技术创新,更在于其代表的开源模式。这种模式的崛起为硅谷和整个AI领域带来更深远、更值得关注的发展启示。


正文

最近 DeepSeek 真的是全网刷屏!

前几天发布的 V3 给我们的大震撼还没消散呢!DeepSeek-R1 一来,又引爆了全球的 AI 社区!

Deepseek v3 实测来了!智商牛逼,情商不存在,自信退出价格战

好家伙,最新发布的 R1 在 AIME2024 数学基准测试中 79.8% 直接踢走OpenAI 的 o1 ,在标准化编码测试中,DeepSeek-R1 也展现出“专家级”水平,在 Codeforces 平台上取得了 2029 Elo 评级,超越了 96.3% 的人类竞争者。

R1 不仅以 MIT 许可(最宽松的规格)完全开源,而且,成本优势非常大,每百万 token 的查询成本仅为 0.14 美元,相较于 OpenAI 的 7.50 美元,成本骤降 98%。

真的是太牛了!

DeepSeek 的横空出世,如同在平静的硅谷投下了一枚震撼弹。

美国焦虑着其人工智能领域的霸主地位是否岌岌可危,这会 DeepSeek 的大成功,在全球掀起了一股“复现”浪潮不说,更将硅谷的焦虑推向顶峰。 这份焦虑,并非仅仅是对技术失利的担忧,而是对自身模式和未来战略的深刻反思与重新审视。

与此同时,Meta 的员工在美国匿名职场社区 teamblind 发布了一个公开的帖子,称 Meta 生成式 AI 团队对 低成本和高性能的 DeepSeek V3 的出现感到非常非常“担忧”:

DeepSeek-V3 的出现是这一切的导火索,它在性能基准测试中已领先于 Llama 4。 更令人不安的是,这款模型竟来自一家“训练预算仅 550 万美元的中国公司”。

工程师们正全力以赴地分析 DeepSeek,试图从中找到突破口。

这绝非虚言。

管理层正面临如何证明高昂的生成式 AI 部门成本的难题。 当部门内众多“领导”的薪资总和远超 DeepSeek-V3 的训练预算时,他们将如何向上级交代?DeepSeek-R1 的出现更令局势雪上加霜,具体情况虽不便透露,但很快将公开。

本部门原本应是一个精干的工程团队,但由于过度扩张,导致效率低下,最终所有人皆受其害。

这个帖子引发了非常激烈的讨论,有的人担心英伟达的卡卖不出去了,有人担心 Meta 今年将推出的 Llama4 打不过V3,而就昨天,Meta 的首席科学家下场了!

LeCun在 X(推特)上发帖称目前的焦虑的方向是错的,与其关注其霸主地位,不如关心开源与闭源的胜负

给那些看到 DeepSeek 的表现后,觉得「中国在 AI 方面正在超越美国」的人:
你们的解读是错的。
正确的解读应该是:「开源模型正在超越专有模型。」
DeepSeek 得益于开源研究和开源项目(例如 PyTorch 和来自 Meta 的 Llama)。
他们在他人工作的基础上提出了新想法并进行了构建。
因为他们的工作是公开且开源的,所以每个人都能从中受益。
这就是开放研究与开源的力量。

小鹿看到 LeCun 的评论区中被点赞比较高的评论,还是在一直讨论究竟美国和中国谁先达到 AGI:

甚至还有美国网友阴阳中国是鹈鹕,是靠吃掉了美国的 AI 模型才变强的:

甚至 Meta 的 CEO 扎克伯格也还在关注这场战怎么打才能赢,在 LeCun 发言不久他就在 Facebook 上宣布:

加速研发 Llama 4,计划投资 650 亿美元扩建数据中心,并部署 130 万枚 GPU 以确保 2025 年 Meta AI 成为全球领先模型。

在 DeepSeek V2 模型发布之际,“暗涌”采访了 DeepSeek CEO 梁文锋时,梁老师当时也提到了这个问题,直接驳斥了美国的偏见:

暗涌提问:互联网和移动互联网时代留给大部分人的惯性认知是,美国擅长搞技术创新,中国更擅长做应用。

梁文锋答:

我们认为随着经济发展,中国也要逐步成为贡献者,而不是一直搭便车。过去三十多年 IT 浪潮里,我们基本没有参与到真正的技术创新里。我们已经习惯摩尔定律从天而降,躺在家里 18 个月就会出来更好的硬件和软件。Scaling Law 也在被如此对待。但其实,这是西方主导的技术社区一代代孜孜不倦创造出来的,只因为之前我们没有参与这个过程,以至于忽视了它的存在。

暗涌提问:为什么 DeepSeek V2 会让硅谷的很多人惊讶?

梁文锋答:

在美国每天发生的大量创新里,这是非常普通的一个。他们之所以惊讶,是因为这是一个中国公司,在以创新贡献者的身份,加入到他们游戏里去。毕竟大部分中国公司习惯 follow,而不是创新。

硅谷这次的震惊,恰恰印证了他们长期以来对中国科技创新抱有的偏见,这种偏见大到盖过了关键问题的本质。

他们戴着“有色眼镜”,先入为主地否定中国创新能力,却完全没有意识到,真正值得他们关注的,根本不是什么“国家超越”,而是开源模式的崛起及其对全球 AI 发展的深远意义。

DeepSeek 就像一个厨师,他做菜做得特别好吃 ~

但他不是凭空变出来的,他用了别人公开的菜谱(开源研究),用了别人免费提供的工具(开源项目,比如 PyTorch 和 Llama),用了别人免费的面粉、免费的烤箱,再融合自己的关键的创新小配方,然后做出了美味的面包。

更棒的是,这个厨师做完面包,也把自己的新菜谱公开了! 这样一来,其他厨师也能学,也能在它的基础改进,也能做出更好吃的面包。

这样的力量是无穷无尽不会枯竭而且非常巨大的!

因此,如果硅谷对 DeepSeek 成功的解读仅仅停留在“中国 AI 突飞猛进,超越美国 AI”的层面,那无疑是一种格局狭隘的认知。

真正值得深思的是 DeepSeek 背后所代表的 AI 研究开源模式。 正是这种开放共享的模式,让全球的研究者得以站在巨人的肩膀上,互相借鉴,共同精进,最终推动 AI 技术朝着更健康、更普惠的方向发展。

这才是 DeepSeek 的成功为硅谷,乃至整个 AI 领域带来的更深远、也更值得关注的启示 ~

参考文献
https://mp.weixin.qq.com/s/bLiV7dOiMsSIUo6LRLbPKw
https://x.com/ylecun/status/1883002229977915535