最近看了一些对DeepSeek梁文锋的采访,看到他讲DeepSeek创新能力的来源,让我想起了字节。
不同的是,会在DeepSeek发生的创新,却更难在字节发生。
#DeepSeek# 解决的创新机制问题,恰恰是曾经导致字节差点错过了大模型的问题。
1、
在梁文锋的讲述中,DeepSeek喜欢的人有三个核心标准。
他自己说出来的有“热爱”和“好奇”。
他自己没直接说,但是明显在照着招人的,是“高素质”。
大多数人的热爱和好奇心,会随着年龄磨灭,因此,他喜欢招没什么工作经验的年轻人。
高素质则直接体现为考试成绩,所以,他选择的年轻人几乎一水是清北等名校学霸。
这样的用人标准,和字节实在是很像。
年轻、学霸。
这样的人,在选择工作时,会更容易被一个在解决有挑战难题、和有使命的环境所吸引。
DeepSeek、字节,也都提供了这样的环境。
2、
但是,不同的是,字节也拥有大量符合DeepSeek标准的人才,历史上,却不要说大模型的架构创新,甚至于在2023年,ChatGPT一鸣惊人之前,字节都没有注意到通用大模型的机会。
在各个大厂跟进通用大模型时,字节几乎是启动最慢的一家。
为什么拥有同样的人才,创新能力会表现出这么大的差别呢?
23年时,我和一位字节的算法同学有过深度交流,他描述了他的处境。
他在加入字节前,就一直在做前沿算法研究。
当时之所以加入字节,是因为看到算法在字节,有着远远领先于其他大企业的应用范围和应用深度——他当然渴望自己的技术能够有机会改变世界,就去了字节。
不过实际加入之后,却发现和想象中很不一样。
因为字节有着2-3个月一次的OKR压力。
如果连续两个OKR周期,他交不出能影响数据的产出,他会有麻烦、他的leader也会有麻烦。
他想做的类似DeepSeek那样的改造到架构层、甚至于到科学层的很多研究,最大的问题就是“周期长”,常常需要以年计的时间,短期内根本不可能看到效果。
见效周期漫长,也是很多大一点的创新共同的特点。
那好,周期长的项目,有没有可能先做个论证,把大项目拆小,拆出几个过程节点和过程指标呢?
如果这些过程节点和过程指标得到公司的认可,到了OKR周期,他只需要交付过程指标,也能过关。
这也是长周期项目常见的解决方式——做个论证,拆一下过程。
但是,他试了一下会发现,越是重大的创新,越难论证明白。
也不难理解,很多创新之所以重大,就是因为超出大多数人的想象、大多数人并不能理解,更不敢相信。
最后的结果是,他自己和周围的小伙伴,必须花80%的精力做那些确定能在OKR周期内交出数据的项目。
至于自己想做的科研,不好意思,只能自己挤时间、作为兴趣做。
而字节的工作压力越来越大,慢慢这样的业余时间也不复存在了。
结果就是,同样高素质、有热爱和好奇的人才,在字节和在DeepSeek交出了不同的结果。
3、
不同的是,会在DeepSeek发生的创新,却更难在字节发生。
#DeepSeek# 解决的创新机制问题,恰恰是曾经导致字节差点错过了大模型的问题。
1、
在梁文锋的讲述中,DeepSeek喜欢的人有三个核心标准。
他自己说出来的有“热爱”和“好奇”。
他自己没直接说,但是明显在照着招人的,是“高素质”。
大多数人的热爱和好奇心,会随着年龄磨灭,因此,他喜欢招没什么工作经验的年轻人。
高素质则直接体现为考试成绩,所以,他选择的年轻人几乎一水是清北等名校学霸。
这样的用人标准,和字节实在是很像。
年轻、学霸。
这样的人,在选择工作时,会更容易被一个在解决有挑战难题、和有使命的环境所吸引。
DeepSeek、字节,也都提供了这样的环境。
2、
但是,不同的是,字节也拥有大量符合DeepSeek标准的人才,历史上,却不要说大模型的架构创新,甚至于在2023年,ChatGPT一鸣惊人之前,字节都没有注意到通用大模型的机会。
在各个大厂跟进通用大模型时,字节几乎是启动最慢的一家。
为什么拥有同样的人才,创新能力会表现出这么大的差别呢?
23年时,我和一位字节的算法同学有过深度交流,他描述了他的处境。
他在加入字节前,就一直在做前沿算法研究。
当时之所以加入字节,是因为看到算法在字节,有着远远领先于其他大企业的应用范围和应用深度——他当然渴望自己的技术能够有机会改变世界,就去了字节。
不过实际加入之后,却发现和想象中很不一样。
因为字节有着2-3个月一次的OKR压力。
如果连续两个OKR周期,他交不出能影响数据的产出,他会有麻烦、他的leader也会有麻烦。
他想做的类似DeepSeek那样的改造到架构层、甚至于到科学层的很多研究,最大的问题就是“周期长”,常常需要以年计的时间,短期内根本不可能看到效果。
见效周期漫长,也是很多大一点的创新共同的特点。
那好,周期长的项目,有没有可能先做个论证,把大项目拆小,拆出几个过程节点和过程指标呢?
如果这些过程节点和过程指标得到公司的认可,到了OKR周期,他只需要交付过程指标,也能过关。
这也是长周期项目常见的解决方式——做个论证,拆一下过程。
但是,他试了一下会发现,越是重大的创新,越难论证明白。
也不难理解,很多创新之所以重大,就是因为超出大多数人的想象、大多数人并不能理解,更不敢相信。
最后的结果是,他自己和周围的小伙伴,必须花80%的精力做那些确定能在OKR周期内交出数据的项目。
至于自己想做的科研,不好意思,只能自己挤时间、作为兴趣做。
而字节的工作压力越来越大,慢慢这样的业余时间也不复存在了。
结果就是,同样高素质、有热爱和好奇的人才,在字节和在DeepSeek交出了不同的结果。
3、