周末AI科技圈出了一个大瓜,国产模型Deepseek彻底出圈了,引发了海外科技大厂的热议。
Deepseek是幻方量化开发的开源模型。幻方量化的创始人是梁文锋,17岁考入浙大,07年拿到浙大信息与通信工程硕士学位,08年开始创业搞量化私募,18年达到百亿规模,21年达到千亿规模。
梁文锋在搞私募的过程中积累了足够的资金和上万张英伟达的GPU算力卡,成为国内除互联网大厂以外少数拥有万卡规模的企业。
23年ChatGPT火了以后,梁文锋带领核心团队成立了深度求索公司,专注研发Deepseek大模型。
24年深度求索公司正式推出了V3模型,这个模型最大的优势就是训练成本非常低,V3的训练参数是671B,一共只使用了2000张GPU,花费280万GPU小时训练,合计成本不到600万美金。
相比之下,Meta的Lama3模型了使用了1.6万张GPU,花费了3930万GPU小时,耗资数亿美金,训练一次Lama3模型,能够训练十几次V3。
V3主要在算法层面进行大幅优化,引入了多头潜在注意力(MLA)和新型混合专家架构MoE架构,具体原理非常复杂,小研尽可能用比较简单的方式给大家讲讲。
多头潜在注意力(MLA)是指V3在训练过程中对数据的清洗和处理更加高效,从海量数据里面优选出高质量数据进行训练,减少了很多无效训练。
新型混合专家架构MoE架构是指V3模型把数据内容进行更精确的标记和区分。可以把大模型看成一个学生,把数据看成知识,传统大模型训练的时候都是混着学习,一个老师教所有知识。
Deepseek把知识划分成语文,数学,物理和化学,不同的知识由不同的老师教,学习更加更小。
Deepseek的低成本训练引发了海外Meta,谷歌和OpenAI的恐慌,这些厂商投资数百亿美金开发AI模型,最后训练出来的模型跟国内厂商花几百万美金的效果差不多,纯纯的浪费钱财,马上就没法向投资人交代了。
Deepseek的成功意味着中美之间在AI领域的差距并没有持续拉大,随着模型训练的持续深入,算力对模型效果的影响正在逐步减弱。
早期模型刚出来的时候,大批量投入算力可以更快的使用更多数据提升模型的能力,经过2年多的训练,模型的参数越来越多。
人类历史上已经产生的数据基本都被模型学完了,进一步比拼算力对提升模型的能力非常有限,后续需要大厂在算法和应用层面做出更多创新,这些都是中国厂商比较擅长的。
目前市场上总结的Deepseek概念股包括每日互动,浙江东方和华金资本,这几个公司都通过各种方式参投了幻方量化和深度求索。
春节不打烊!华熙生物旗下润熙泉系列护肤品,全场通通打骨折,都是回购率很高的护肤单品,润熙泉奢润凝时抗皱精华油、奢润赋活焕颜精华液、紧致淡纹眼霜等,今天全场99元起,买就送豪礼赠品(颈部按摩仪、美容刮板、面部按摩梳、身体霜等),小研好不容易争取到,千万别错过!
著作权为公众号:调研心得,未经授权禁止转载