今天是除夕,本来已经进入假期,应该休息了,但有些话还是不吐不快。
事情的缘起是看到有家投资机构组织的闭门会,不知道怎么聊到了 DeepSeek 和字节的文化。
DeepSeek 和 字节的 research culture (研究文化)比较像,比较本质
字节是中国最成功的商业公司,说一家公司跟字节比较像,一般都是夸奖。我也绝对不是要说字节文化有什么不好。
但这种夸法确实可能违背了事实。
我和这两家公司的朋友都有不少接触。
我的体会是,DeepSeek 和字节跳动的文化,不仅不像,甚至完全相反。
字节和 DeepSeek 的文化
字节的文化已经在网上被讨论很多,我们直接让 DeepSeek 总结一下
字节跳动的文化核心在于以技术和产品为驱动,追求极致创新与高效执行。其推崇“用算法改变世界”的理念,通过数据驱动和A/B测试快速迭代产品,强调小步快跑、快速试错,在抖音、TikTok等成功产品中体现为对用户体验的极致打磨。公司注重结果导向,以OKR制度透明对齐目标。
下午看到采访了梁文锋的记者写的即刻,刚好里面也提到了 DeepSeek 的文化。
回头看deepseek的故事,它其实有非常多浪漫和美好的部分,比如很多人引以为叹的万卡储备背后,其实是一群人的热爱和好奇心。在他们看来,这就是他们的钢琴,而他们是在上面弹奏乐曲的人。我记得梁老板当时还说过的一句是“就像一个孩子拿到他们心爱的大玩具”。比如谈到招人时,提到一个人想做一件事时,热情一定会表现出来,而且他也会主动在找你,这也是一种类似“念念不忘,必有回响”的浪漫吧。
这两家公司唯一比较像的就是不需要融资,没有短期压力,其他哪儿都不像。
字节的朋友开玩笑吐槽说,DeepSeek 连三月的 OKR 都没有,怎么可能像字节?
凡是必称字节,是不是一种模仿学习的过拟合现象?
模仿学习和强化学习
今天,前 OpenAI 的著名研究员 Andrej Karpathy 在读完 DeepSeek R1 论文后,对强化学习做了一些说明。
无论是儿童学习还是深度学习,都存在两种主要的学习类型:1)模仿学习(观察与重复,即预训练、监督微调);2)试错学习(强化学习,干中学)。几乎所有令人震撼的深度学习成果,以及所有"魔力"的源泉,都源于后者。第二种方式具备指数级更强的能力,是真正令人惊叹的所在。当打砖块游戏中的挡板学会绕到砖块背后击球时,这是第二种方式在生效;当AlphaGo击败李世石时,这是第二种方式在突破;当DeepSeek(或o1等模型)在思维链中突然领悟"需要重新评估假设、回溯尝试新路径"时,那种"灵光乍现"的瞬间,正是第二种学习方式的体现。这种反复自我推敲的解题策略,本质上是一种涌现现象(!!!)
这种能力的自发形成既不可思议又极具开创性。
看完之后,让我想到一个现状,就是很多人不论谈起什么,都以字节跳动为榜样。
甚至字节自己,都以字节为榜样。
这几乎成了一种政治正确。毕竟字节的成功是肉眼可见的,学它,似乎就站在了巨人的肩膀上,拥有了更高的成功概率。
这也是一种典型的
模仿学习
的思路。
这里不是说模仿学习不对,只是
强化学习
才更可能突破上限。
真正的创新,往往不是在已知的地图上导航,而是在未知的星空中发现宝藏。
我们需要「重新评估假设、回溯尝试新路径。」
我们需要「突然顿悟」和「灵光乍现」。
当一个数学代码模型成为语文学霸
最近 DeepSeek R1 等深度思考模型出圈。
除了性能突破,开源闭源,让OpenAI涨价,重击英伟达股价等牵动人们神经的话题性之外,还有很重要的一个出圈点。
就是深度思考模型超强的写作能力。
如果让深度思考模型写一篇文章,它会自己思考如何才能写好。