过年这几天,难度最高的事情除了抢票之外,莫过于
抢到DeepSeek的服务器,给自己来一次赛博算命了
。
没错,虽然
DeepSeek爆火才没几天,但不少
人都开发出了它的新
玩法——
你既可以找它帮你做PPT和Excel,也可以和它
从
诗词歌赋聊到人生哲学。甚至连宇宙的奥秘,它都能给你回答个七七八八,其中还包括缜密的思考过程!
怪不得有人认为,DeepSeek开启了中国AI的新纪元,也震动了全球的AI圈。
但离奇的是,就在过年期间,
每秒2.3亿次的网络攻击从世界各地杀向
DeepSeek的服务器集群,试图搞垮DeepSeek。
这样的频次,甚至
超过双十一峰值流量的217倍,足以让整个欧洲断网三天三夜!
更加离奇的是,就是这样一家“小透明”的民营企业,居然在短时间内
集结起了整个中文互联网最精锐的数字安全部队,
展开了一场震撼全球的“赛博战争”。
从
360分拆出来的“
国家队”奇安信,
掏出了量子盾
防御体系拦截恶意流量;
华为昇腾送来了最新的人工智能芯片和搭载鸿蒙的边缘设备,
“脉冲防火墙”和“蜂群防线”分
流网络攻击;
腾讯玄武实验室祭出了“AI诱捕”战术,用深度伪造的虚假模型参数消耗对方的攻击资源;
网易、海康威视、菜鸟网络等等,也纷纷拿出了自己的看家本领,
支援DeepSeek。
这支由工程师们隔着电子屏幕构筑的数字长城,打赢了一场
价值数十亿、足以写进教科书的网络攻防战,也彰显了中国AI时代的一身正气。
那么,DeepSeek到底动了谁的蛋糕,为什么会让他们怕成这样?
大家好,我是电动车公社的社长。
今天就让我们一起走进当前大热的DeepSeek,看看它到底掀翻了谁的桌,又将给我们带来怎样的变化?
2008年9月15日,一场全球金融风暴的序幕正在缓缓拉开。
正所谓强者从不抱怨环境,彼时
浙大在读的梁文峰抓住了
全自动量化投资
的风口,与同学组队
使用机
器学习等前沿人工智能技术,
寻找真正的投资机会。
这一阶段的梁文峰虽然青涩,却已经凭借自己的技术优势搭建起了高效的量化投资系统,用于快速处理和分析经济数据,为投资决策提供支持。
也正是从这时起,让梁文峰坚信:
人工智能终将改变世界格局。
毕业之后,他对
AI智能算法的研究日益深入,也决定
全身心投入
量化私募基金领域,寻找新的
突破口。
而梁文峰,
真的
赌对了时代。
他创办的幻方量化,
在2016年1
0月21日
推出了首个基于深度学习的交易模型,能够相对准确地预判市场走势。
在引入GPU计算交易仓位之后,更是进一步提升了数据的处理能力和计算能力。即便是在股灾中,也能凭借
高频量化的投资策略,让整个团队获利颇丰。
由此,幻方量化的资金管理规模从2016年的10亿元扩大到了2018年的30亿元,
背靠AI的力
量,赚到了自己的第一桶金。
也正是
在这一年
,幻方量化荣获中国私募证券
领域的最高奖项——私募金牛奖,还
加入了
中国证券投资基金业协会,
取得了官方认可。
在这个过程中,梁文峰还试过将几乎所有的量化策略都交给AI来进行计算。
于是,梁文峰遭遇了所有人都会遇到的行业难题:
算力不足。
为了解决
这一问题,他投入2亿元成立了幻方AI公司,步入了自主研发深度学习训练平台(萤火一号)的新领域,使用大量GPU来训练模型,为幻方量化提供技术保障。
幻方量化,也顺利迈入
管理资金过百亿的
私募机构行列。
尽管在外界看来已经非常成功,梁文峰却并没有被金钱蒙蔽了双眼。
在颁奖典礼上,
梁文峰的演讲叫做《一名程序员眼里的中国量化投资的未来》,依然以程序员自居。
“
人工智能终将改变世界格局
”的信仰,也从未改变。
2021年8月,幻方量化的资金体量正式迈入千亿大关。
这头私募巨兽手中,有着不同于其他金融机构的特殊优势——
拥有超过1万张显卡级别的AI智能集群。
当时的中国,拥有这样规模的企业,总共只有5家——
百度、阿里、腾讯、字节跳动(现用名抖音)和幻方量化。除了幻方量化,全是互联网公司!
可以说当时的梁文峰是金融圈里最懂AI,AI圈里最能“赚钱”的人了。
因此,进军AI领域也就成了顺理成章——
“我们相信几乎所有的创新,都是从大胆尝试和点滴积累中孕育而来。”
2023年,38岁的
梁文峰出手了。幻方量化宣布成立大模型公司DeepSeek,
正式进军通用人工智能领域。
短短1年后的2024年5月,
DeepSeek发布了MoE架构的DeepSeek-V2,并且迅速启动了财经垂类大模型的训练与应用研发工作。
但最令人啧啧称奇
的,却并不是DeepSeek的速度,而是价格。
每百万tokens输入1元、输出2元的极低价格,还不到
ChatGPT4.0 Turbo的1%,
甚至引发了百度、阿里、抖音等大厂的产品跟进降价。
用梁文
峰的话来说,“低价的背后是希望算力普惠”。也
因此,很多人戏称
DeepSeek是AI智能界的拼多多
,真能把价格打下来。
2024年12月26日晚间,距离
DeepSeek-V2.5发布仅3个多月,
DeepSeek-V3面世,有了质的提升。
参数和性能:DeepSeek-V3拥有6710亿参数,其中激活参数为370亿,
在14.8万亿token上进行了预训练
。
生成速度:
相比V2.5版本,DeepSeek-V3的生成速度提升至3倍
,每秒量高达60 token。
开源和可用性:
DeepSeek-V3完全开源
。
多语言处理能力:虽然
当前版本暂不支持多模态输入输出
,但在多语言处理方面表现出色,尤其在算法代码和数学方面。
在多项基准测试中,它的成绩超越了不少开源模型,甚至能和全球顶尖的ChatGPT-4o不相伯仲:
更关键的两点,一是
DeepSeek完全开源了其论文、乃至算法的源代码,主打旧互联网时代的共享精神;
二是
DeepSeek通过对算法、框架和硬件的优化协同设计,
训练成本估算下来仅有557.6万美元,不足
ChatGPT的十分之一!
那么,
当时团队仅有139人的DeepSeek,究竟是怎么做到的?
除了扁平化的管理模式、不看岗位而是看能力分工的人员调配,能让所有人的创造力充分释放之外,也和
DeepSeek
在算法领域的创新有关。
一个不够严谨的比喻,
就好比所有AI
在同一片知识的海洋里吸取知识,但DeepSeek不只吸取了海洋里的,还参考了别人吸取后的结果,从而得出更加确切的结论。
也因此,它得到
了OpenAI联合
创始人之一——技术大牛Andrej Karpathy毫无保留的称赞:
于是,
资金、技术实力、产品质量、低廉价格、年轻人才,这些要素任何一家企业占据其二就足以形成不小的竞争力,
而
DeepSeek可以说是集齐了一手王炸。
自此,
2025年1月27日,DeepSeek迅速登顶。DeepSeek-R1、V3、Coder 等系列模型,也已陆续上线国家超算互联网平台,燎原之势逐渐显现。
正因
DeepSeek足够强、也足够便宜,还能降低对算力的需求,间接
导致了GPU对未来AI竞争的影响力下降。
借
AI之力腾飞的英伟达
市值一周内暴跌5520亿美元(约4万亿元),降幅达16.86%,
创下史上最大单日个股市值蒸发纪录。
坚持闭源的OpenAI也不得不承认,选择闭源或许是一个错误的决定,甚至在慎重考虑是否学习
DeepSeek
对OpenAI也进行开源
,迎接所有用户的创意与发展。
甚至包括美国政府都意识到,这次,
就是中国AI技术打响反击战的历史性节点:
美国做不到的事,让中国做到了。