专栏名称: 橘子汽水铺
橘子汽水铺 by orange.ai。 AI创始人, AI投资人,AI产品经理都在关注的AI科技自媒体。 聚焦最有商业价值的AI资讯,分享一线的AI产品经理经验。
目录
相关文章推荐
哲学园  ·  拒绝「技术黑箱」:用1100页讲透AI底层逻 ... ·  23 小时前  
慧田哲学  ·  人为什么会恐惧自由? ·  2 天前  
慧田哲学  ·  北大国发院教授:民贫国必衰,民富国才强 ·  3 天前  
哲学王  ·  当代新闻粉碎了我们独立思考的能力 ·  3 天前  
慧田哲学  ·  马克思给世界开出的药方,在今天还管用吗 ·  4 天前  
51好读  ›  专栏  ›  橘子汽水铺

DeepSeek 与字节跳动,强化学习与模仿学习

橘子汽水铺  · 公众号  ·  · 2025-01-28 17:51

正文

今天是除夕,本来已经进入假期,应该休息了,但有些话还是不吐不快。

事情的缘起是看到有家投资机构组织的闭门会,不知道怎么聊到了 DeepSeek 和字节的文化。

DeepSeek 和 字节的 research culture (研究文化)比较像,比较本质

字节是中国最成功的商业公司,说一家公司跟字节比较像,一般都是夸奖。我也绝对不是要说字节文化有什么不好。

但这种夸法确实可能违背了事实。

我和这两家公司的朋友都有不少接触。

我的体会是,DeepSeek 和字节跳动的文化,不仅不像,甚至完全相反。

字节和 DeepSeek 的文化

字节的文化已经在网上被讨论很多,我们直接让 DeepSeek 总结一下

字节跳动的文化核心在于以技术和产品为驱动,追求极致创新与高效执行。其推崇“用算法改变世界”的理念,通过数据驱动和A/B测试快速迭代产品,强调小步快跑、快速试错,在抖音、TikTok等成功产品中体现为对用户体验的极致打磨。公司注重结果导向,以OKR制度透明对齐目标。

下午看到采访了梁文锋的记者写的即刻,刚好里面也提到了 DeepSeek 的文化。

回头看deepseek的故事,它其实有非常多浪漫和美好的部分,比如很多人引以为叹的万卡储备背后,其实是一群人的热爱和好奇心。在他们看来,这就是他们的钢琴,而他们是在上面弹奏乐曲的人。我记得梁老板当时还说过的一句是“就像一个孩子拿到他们心爱的大玩具”。比如谈到招人时,提到一个人想做一件事时,热情一定会表现出来,而且他也会主动在找你,这也是一种类似“念念不忘,必有回响”的浪漫吧。

这两家公司唯一比较像的就是不需要融资,没有短期压力,其他哪儿都不像。

字节的朋友开玩笑吐槽说,DeepSeek 连三月的 OKR 都没有,怎么可能像字节?

凡是必称字节,是不是一种模仿学习的过拟合现象?

模仿学习和强化学习

今天,前 OpenAI 的著名研究员 Andrej Karpathy 在读完 DeepSeek R1 论文后,对强化学习做了一些说明。

无论是儿童学习还是深度学习,都存在两种主要的学习类型:1)模仿学习(观察与重复,即预训练、监督微调);2)试错学习(强化学习,干中学)。几乎所有令人震撼的深度学习成果,以及所有"魔力"的源泉,都源于后者。第二种方式具备指数级更强的能力,是真正令人惊叹的所在。当打砖块游戏中的挡板学会绕到砖块背后击球时,这是第二种方式在生效;当AlphaGo击败李世石时,这是第二种方式在突破;当DeepSeek(或o1等模型)在思维链中突然领悟"需要重新评估假设、回溯尝试新路径"时,那种"灵光乍现"的瞬间,正是第二种学习方式的体现。这种反复自我推敲的解题策略,本质上是一种涌现现象(!!!) 这种能力的自发形成既不可思议又极具开创性。

看完之后,让我想到一个现状,就是很多人不论谈起什么,都以字节跳动为榜样。

甚至字节自己,都以字节为榜样。

这几乎成了一种政治正确。毕竟字节的成功是肉眼可见的,学它,似乎就站在了巨人的肩膀上,拥有了更高的成功概率。

这也是一种典型的 模仿学习 的思路。

这里不是说模仿学习不对,只是 强化学习 才更可能突破上限。

真正的创新,往往不是在已知的地图上导航,而是在未知的星空中发现宝藏。

我们需要「重新评估假设、回溯尝试新路径。」

我们需要「突然顿悟」和「灵光乍现」。

当一个数学代码模型成为语文学霸

最近 DeepSeek R1 等深度思考模型出圈。

除了性能突破,开源闭源,让OpenAI涨价,重击英伟达股价等牵动人们神经的话题性之外,还有很重要的一个出圈点。

就是深度思考模型超强的写作能力。

如果让深度思考模型写一篇文章,它会自己思考如何才能写好。







请到「今天看啥」查看全文