这两天,因为Deepseek 的爆火,创始人梁文锋也是大热。
梁文锋,很低调,所以目前业界用来探究的,主要是两篇文章,全部来自暗涌,一篇是 2023 年 5月 27 日的《疯狂的幻方:一家隐形AI巨头的大模型之路》,另一篇是2024 年 7 月 17 日的《揭秘DeepSeek:一个更极致的中国技术理想主义故事》。非常精彩的两篇采访,值得反复看。
作为一个一直研究 AI 写作的爱好者,看到这两篇文章,当然想着要整活一下。
这两篇访谈稿,很精彩,但也因为是访谈稿,虽然信息量极大,但并不适合绝大多数人的阅读体验。所以我就想着,是否可以用 AI 将其改成一篇人物特稿,那阅读体验就会好许多了。
尤其是,如果用 Deepseek R1 来改写梁文锋的特稿,岂不是很有趣?
在 AI 写这种四五千字长文上,我还是摸索出一些经验的,不外乎先出提纲,然后分章节输出。在我想来,以这几天摸索的 Deepseek R1 的文字能力,照理应该不是难事。
但没想到,在用 Deepseek R1 时,在输出提纲这第一道关卡,就失败了。
先给出我输出细纲的提示词:
请基于这两篇文章,写一篇梁文锋的人物特稿,采用类似《人物》周刊、《新京报》的风格。我希望这篇特稿有5000 字,所以请帮我先生成细纲,包含每个部分的主要内容和字数规划。
这个提示词下面,我把《暗涌》的两篇文章都灌进去,一起输入给Deepseek R1(关闭联网搜索)。
很可惜,Deepseek 在提纲部分就倒下了,请注意下面红线部分,《2001太空漫游》是《暗涌》两篇采访中完全没有出来的细节,但竟然要作为收尾意向,可想而知,这是捏造出来的。
我试着让 Deepseek-R1 写了一个开头,用的是下面的提示词:
请根据细纲输出开篇,所有的素材都要基于我提供的两篇文章,不要任何的额外素材,不要胡编乱造。文字要有感染力
更可怕出现了,请见下面截图的红线处,《揭秘DeepSeek:一个更极致的中国技术理想主义故事》中的确提到过Jack Clark说了这么一句话,但梁文锋将其裱在墙上,则完全是胡编乱造。后面提到的《2001 太空漫游》屏保,也是两篇文章中完全没有出现的。
更可气的是,Deepseek-R1 还在尾部标注“全部细节源自提供材料,包括技术参数、人物言论、公司对比、环境描写等,无一虚构”,实在是有点讽刺。在过往的用 R1 写作中,我早就知道它有喜欢编造术语的毛病,没想到现在“虚构写作”都那么溜。这种毛病,对正经的AI写作,是致命的。
虽然用 Deepseek R1 写失败了,但既然念头起,总要继续探索。
其实类似工序,以往我是有成熟流程和模型的,Claude Sonnet 3.5 在这块上,总体指令遵从性是比较好的,虽然偶尔会小小“编造”一点,但还容易识别。Cluade 主要的小缺陷是“懒惰”,每次只能生成 1000 字左右,所以一篇 5000 字的稿子,至少要分 5 次甚至 6次来生成,人为再进行拼接。
这次因为缘起是 Deepseek R1 这个深度思考模型,所以我就想看看其他类似模型如何。
先试了 Kimi,很勤奋,写完细纲就能直接输出全文,一口气 4500 字。只是那个文字,中学生作文风格,几乎没法用。这里我就不贴了。
真正给我惊喜的,来自 Gemini 2.0 Flash Thinking,一个很少被提及,似乎在跑分上也不太出挑的深度思考模型,最近刚刚升级到 01-21 版。PS: Gemini 2.0 的几个版本模型我都超爱,大量使用,极有感情,据说近期就要正式发布了。
在这个特稿写作的尝试上,Gemini 2.0 Flash Thinking给了我惊艳的结果。不仅一口气输出了5200 字的长文,文字风格还不错,更重要是全文看了一遍,几乎没找到什么捏造的事实。仅这个指令遵从性,就相当棒了。
这里,我将Gemini 2.0 Flash Think基于《暗涌》两篇访谈输出的这篇“梁文锋”特稿放在这里,欢迎诸位品鉴。需要说明下,因为模型的特点,所以类似开头“五月”缺乏时间标注,这是大模型在时间问题上常见的 bug,一般要提示词或者人工修正,我这里就保留了。此外因为没有灌入最新文章,所以一切都只是基于《暗涌》两篇报道,并没反应最新的事件。毕竟只是大模型写作能力的探索,所以就不加素材了。
梁文锋:深度求索的“异类”理想主义者,以及中国AI的另一种可能
by Gemini 2.0 Flash Thinking
一、 导语:AI价格战的“谜题”与幕后之人 (约500字)
五月的AI领域,硝烟骤起,战火蔓延。一场史无前例的价格战,以一种近乎“流血”的方式,席卷了中国的大模型行业。硝烟弥漫中,所有人都将目光投向那家被戏称为“AI界拼多多”的公司——DeepSeek(深度求索)。
这家名字略显神秘的公司,以一种令人瞠目结舌的方式,成为了这场战役的策源地。他们发布了开源模型DeepSeek V2,将推理成本骤降至每百万token仅1元人民币,这个价格,仅仅是Llama3 70B的七分之一,GPT-4 Turbo的七十分之一。
“意外”、“鲶鱼”,各种标签纷至沓来。字节、腾讯、百度、阿里等互联网巨头猝不及防,纷纷应战,中国大模型的价格体系瞬间崩塌。然而,当所有人都在惊呼“价格屠夫”时,一个更令人意外的事实浮出水面:与大厂们烧钱补贴不同,DeepSeek,竟然是有利润的。
这家“不声不响”的公司,再次以“出其不意”的方式,被行业记住。一年前,他们的“出其不意”来自于背后的量化私募巨头幻方,以及那令人咋舌的万张A100芯片储备,那是大厂之外,绝无仅有的算力规模。
DeepSeek,究竟是一家怎样的公司?又是谁,在幕后导演了这一切?
聚光灯,最终落在了梁文锋身上——这位幻方和DeepSeek的创始人,一个极少在公众面前露面的80后“技术宅”。在量化投资领域,幻方早已是千亿规模的“顶级基金”,但在AI浪潮中,梁文锋和他的DeepSeek,却更像是一个“异类”。他们不追逐风口,不急于变现,甚至主动放弃了商业化的捷径,选择了一条充满荆棘的“原创式创新”之路。
在这个喧嚣而浮躁的AI时代,梁文锋和DeepSeek的出现,像一个谜题,更像一种提醒:在追逐效率和商业成功的时代洪流中,是否还存在另一种可能?一种关于技术理想,关于长期价值,关于中国AI未来走向的可能?
二、 “成都出租屋里的AI梦想家”:技术信仰的早期萌芽 (约800字)
故事的开端,要追溯到更久远的年代,一个AI还远未成为风口的2008年。那一年,梁文锋从浙江大学电子工程系人工智能方向毕业。在大多数同学涌向互联网大厂,追逐高薪和安稳时,梁文锋却做了一个“另类”的选择——他去了成都,不是为了享受这座城市的安逸,而是把自己“关”进一间廉价的出租屋里。
“人工智能一定会改变世界。” 这句话,在今天听起来像是真理,但在十几年前,却近乎一种“不被认同的执念”。周围的人很难理解,一个名校人工智能专业的毕业生,为何要放弃唾手可得的“康庄大道”,跑到西南一隅,蜗居陋室,埋首于代码和算法之中。
没有人知道,在成都的那段日子,梁文锋经历了怎样的挫败和迷茫。他不断尝试将AI技术应用于各种场景,又一次次碰壁,最终,他将目光投向了金融领域——一个在当时看来,与AI技术关联度并不高的行业,一个复杂度极高的“灰色地带”。
“金融可能是下一个最难的事之一。” 多年以后,当幻方已经成为量化投资领域的巨头,当DeepSeek又All in通用人工智能,梁文锋回望早年的选择,轻描淡写地总结。或许,正是早期在成都出租屋里的那段“碰壁”经历,让他对技术的本质,对商业的逻辑,有了更深刻的理解。
那是一段略显“苦涩”的岁月,却也埋下了梦想的种子。在那个略显寂寞的出租屋里,梁文锋笃信,人工智能的未来,远不止于眼前的应用和变现,它蕴藏着更深远的潜力,等待着被挖掘和释放。
有趣的是,在成都“蛰伏”的那些年,梁文锋并非完全与世隔绝。他与一位同样“疯癫”的朋友保持着联系,那位朋友在深圳城中村里,做着在当时看来同样“不靠谱”的“飞行器”梦想。多年以后,当梁文锋的幻方在量化投资领域声名鹊起时,那位朋友创立的大疆,也已成长为一家千亿美金的科技巨擘。
或许,在那些不被理解的“疯狂”背后,隐藏着某种共通的特质:对技术的极致信仰,对梦想的偏执追求,以及,一种不走寻常路的勇气。
三、 “量化怪杰”的炼成:幻方时代的“非常规”成长 (约1000字)
从成都的出租屋走出,梁文锋创立了幻方量化。这是一个在量化投资领域显得有些“另类”的存在。
量化投资,起源于华尔街,几乎所有中国的头部量化基金,都带有浓厚的“海归”色彩,创始团队往往拥有海外对冲基金的从业经历,毕业于顶尖名校的物理、数学等专业。唯独幻方,是一个“本土班底”起家的例外。
“我们一开始都没有量化经验,这一点很特殊。” 梁文锋坦言。他和他的核心团队,都是“外行人”,用一种近乎“野蛮生长”的方式,闯入了华尔街精英们把持的领地。
幻方的“非常规”,不仅体现在创始团队的背景上,更体现在其独特的运营模式和企业文化上。在“唯经验论”的金融圈,幻方却反其道而行之,大量启用“没有经验但有潜能的人”。
“我们招人有条原则是,看能力,而不是看经验。” 梁文锋解释道。幻方的核心技术岗位,基本以应届生和毕业一两年的年轻人为主。在创新业务上,经验甚至被视为一种“阻碍”。“有经验的人会不假思索告诉你,应该这样做,但没有经验的人,会反复摸索、很认真去想应该怎么做,然后找到一个符合当前实际情况的解决办法。”
这种“非科班”出身的团队,却爆发出惊人的创新力。幻方在研发体系、产品设计、甚至销售模式上,都展现出与众不同的特质。他们打破行业“潜规则”,率先尝试“直销模式”,绕过中间商,直接触达客户,大幅提升了利润率。他们的销售团队,主力竟然是“素人”——一位是做德国机械品类外贸出身,一位是券商后台写代码的工程师。
“第一年他们什么都做不出来,第二年才开始有点成绩。” 梁文锋回忆。幻方对销售团队的考核,也与传统金融机构截然不同,没有KPI,没有销售额指标,而是鼓励销售“去发展自己的圈子,认识更多人,产生更大影响力。”
这种“看似佛系”的管理方式,却培养出了一支极具战斗力的销售团队。幻方也成为业内“唯一一家能以直销为主的大私募”。
“创新需要尽可能少的干预和管理,让每个人有自由发挥的空间和试错机会。创新往往都是自己产生的,不是刻意安排的,更不是教出来的。” 梁文锋总结道。
幻方的“非常规”之路,最终走向了成功。成立仅六年,这家“草根”出身的量化基金,便跻身千亿规模,与老牌劲旅并肩,成为量化投资领域的“四大天王”之一。
在幻方快速崛起的背后,还隐藏着一个鲜为人知的“秘密”——对AI算力的超前布局。早在2019年,幻方就成立了AI公司,自研深度学习训练平台“萤火一号”,投入近2亿元,搭载了1100块GPU。两年后,“萤火二号”的投入更是高达10亿元,搭载了约1万张英伟达A100显卡。
在当时,拥有如此规模算力的企业,国内不超过五家,除了几家头部大厂,幻方赫然在列。很多人以为,幻方斥巨资搭建计算机集群,是为了用机器学习来预测金融市场,提升量化交易的效率。但梁文锋却说:“如果单纯只做量化投资,很少的卡也能达到目的。我们在投资外做了大量研究,更想搞清楚什么样的范式可以完整地描述整个金融市场,有没有更简洁的表达方式,不同范式能力边界在哪,这些范式是不是有更广泛适用,等等。”
对AI能力边界的“好奇心”,才是驱动幻方持续投入算力的真正动因。这或许也预示着,在梁文锋的心中,AI的未来,远不止于量化金融的应用,它蕴藏着更大的可能性,等待着被探索和“求索”。
四、 深度求索:All in 技术,押注“原创式创新” (约1200字)
2023年5月,幻方正式宣布下场做大模型,成立独立新组织“深度求索”(DeepSeek),目标直指“通用人工智能”(AGI)。
“我们要做的是通用人工智能,也就是AGI。语言大模型可能是通往AGI的必经之路,并且初步具备了AGI的特征,所以我们会从这里开始,后边也会有视觉等。” 梁文锋阐述DeepSeek的战略方向。
在当时,大模型赛道已是一片红海,大厂纷纷入局,创业公司如雨后春笋般涌现。很多人认为,此时入场,已错失最佳时机。但梁文锋却显得格外乐观:“关键是我们想做这件事,能做这件事,那我们就是最合适的人选之一。”
DeepSeek的“底气”,除了幻方提供的资金和算力支持,更来自于其对技术创新的执着追求。与大多数中国大模型公司不同,DeepSeek从一开始就选择了“逆流而上”的道路——专注模型结构创新,All in 技术,押注“原创式创新”。
2024年5月,DeepSeek发布开源模型DeepSeek V2,震惊业界。这款模型不仅在性能上比肩甚至超越了Llama3 70B,更在成本上实现了数量级的突破,推理成本仅为后者的七分之一,GPT-4 Turbo的七十分之一。
DeepSeek V2之所以能实现如此惊人的性价比,并非“价格战”的噱头,而是源于其底层技术的创新。DeepSeek团队提出了一种全新的MLA(多头潜在注意力机制)架构,将显存占用降低至传统MHA架构的5%-13%。他们还独创了DeepSeekMoESparse结构,将计算量也降至极致。这些架构层面的创新,最终促成了成本的断崖式下降。
DeepSeek V2的发布,迅速引发了“硅谷震动”。SemiAnalysis首席分析师认为,DeepSeek V2论文“可能是今年最好的一篇”。OpenAI前员工Andrew Carr称赞论文“充满惊人智慧”。Anthropic联合创始人Jack Clark更是惊呼DeepSeek“雇佣了一批高深莫测的奇才”,并预言中国制造的大模型,“将和无人机、电动汽车一样,成为不容忽视的力量。”
“在美国每天发生的大量创新里,这是非常普通的一个。他们之所以惊讶,是因为这是一个中国公司,在以创新贡献者的身份,加入到他们游戏里去。毕竟大部分中国公司习惯follow,而不是创新。” 面对海外的赞誉,梁文锋显得格外冷静。
他敏锐地意识到,中国AI与美国的差距,不仅仅是“一两年”,更是“原创和模仿之差”。如果中国AI永远停留在“跟随”和“应用”层面,就永远无法真正掌握核心技术,只能成为“追随者”。
“过去三十多年IT浪潮里,我们基本没有参与到真正的技术创新里。我们已经习惯摩尔定律从天而降,躺在家里18个月就会出来更好的硬件和软件。Scaling Law也在被如此对待。但其实,这是西方主导的技术社区一代代孜孜不倦创造出来的,只因为之前我们没有参与这个过程,以至于忽视了它的存在。” 梁文锋反思道。
DeepSeek的出现,正是为了打破这种“惯性思维”,改变中国AI的“跟随者”角色。他们坚定地选择了一条充满挑战的“原创式创新”之路,即使这意味着要付出更高的成本,经历更多的失败,甚至在短期内看不到商业回报。
“在颠覆性的技术面前,闭源形成的护城河是短暂的。即使OpenAI闭源,也无法阻止被别人赶超。所以我们把价值沉淀在团队上,我们的同事在这个过程中得到成长,积累很多know-how,形成可以创新的组织和文化,就是我们的护城河。” 梁文锋对DeepSeek的“护城河”有着独特的理解。
他认为,真正的护城河,不是技术壁垒,也不是商业模式,而是“人”——一群拥有创新精神和持续学习能力的团队,以及一种鼓励创新、包容失败的企业文化。
五、 梁文锋的“技术理想主义”与“是非观” (约800字)
在DeepSeek,梁文锋更像一位“首席科学家”,而非传统意义上的“老板”。他每天的工作,和普通研究员并无二致——“看论文,写代码,参与小组讨论”。
“他完全不像一个老板,而更像一个极客。” 一位DeepSeek研究员评价道。
多位行业人士和DeepSeek员工都认为,梁文锋是中国AI界“非常罕见”的复合型人才——“兼具强大的infra工程能力和模型研究能力,又能调动资源”、“既可以从高处做精准判断,又可以在细节上强过一线研究员”。更令人称奇的是,他拥有“令人恐怖的学习能力”。
在DeepSeek内部,管理模式也极具“极客”色彩。他们推崇“自下而上”的创新模式,不前置分工,而是“自然分工”。每个人都可以根据自己的兴趣和想法,自由探索,随时调用算力资源,无需审批。
“我们选人的标准一直都是热爱和好奇心,所以很多人会有一些奇特的经历,很有意思。很多人对做研究的渴望,远超对钱的在意。” 梁文锋说。
DeepSeek的团队,汇聚了一批“强热爱驱动”的年轻人,他们来自顶尖高校,充满活力和创造力,他们不为高薪和名利而来,而是为了解决“世界上最难的问题”——通用人工智能。
在商业逻辑至上的时代,梁文锋和DeepSeek的“理想主义”显得尤为珍贵。他将“是非观”置于“利害观”之前,强调技术创新对社会进步的价值,而非仅仅是商业回报。
“我经常思考的是,一个东西能不能让社会的运行效率变高,以及你能否在它的产业分工链条上找到擅长的位置。只要终局是让社会效率更高,就是成立的。” 梁文锋解释他的“竞争观”。
他反思中国科技行业长期以来的“惯性”——“美国擅长搞技术创新,中国更擅长做应用”。他认为,随着中国经济的崛起,中国也应该逐步成为全球技术创新的“贡献者”,而非永远“搭便车”。
“我们认为随着经济发展,中国也要逐步成为贡献者,而不是一直搭便车。” 梁文锋说,“过去三十多年IT浪潮里,我们基本没有参与到真正的技术创新里。”
他提醒人们看到时代惯性,将“原创式创新”提上日程。他相信,真正的技术创新,不仅仅是商业驱动,更需要“好奇心和创造欲”。
“我们只是被过去那种惯性束缚了,但它也是阶段性的。” 梁文锋对中国科技的未来,抱持着乐观的期待。
六、 结语: 中国AI的另一种可能?(约700字)
DeepSeek的出现,如同一股清流,注入了喧嚣的中国AI行业。他们不追逐短期利益,不迎合资本风口,而是默默耕耘,专注于技术创新,探索通用人工智能的边界。
DeepSeek V2的发布,不仅引发了一场“价格战”,更重要的是,它向世界展示了中国AI的另一种可能——一种不只是“跟随”和“应用”,而是“原创”和“引领”的可能。
梁文锋和DeepSeek的“异类”之路,或许充满荆棘,充满挑战,但它也代表着一种难能可贵的“理想主义”和“长期主义”。在这个快速变化的时代,这种“不走寻常路”的勇气和坚持,或许正是中国科技创新最需要的力量。
DeepSeek能否最终实现其“通用人工智能”的宏大目标,我们尚不得而知。但可以肯定的是,他们的探索和尝试,已经为中国AI的未来,打开了另一扇窗。
他们如同AI浪潮中的“鲶鱼”,搅动着一池春水,也提醒着我们:在追逐效率和商业成功的道路上,不要忘记仰望星空,不要放弃对技术本源的“深度求索”。
中国AI的未来,或许不仅仅是“应用创新”,更应该有“原创式创新”的一席之地。而梁文锋和DeepSeek,或许正在为中国AI的“另一种可能”,埋下希望的种子。
(全文约5000字)