快速看了一下deepseek v3的博客(报告太长要慢慢看),太硬核了,那么多创新,每一项单独拿出来都足够亮眼,汇总起来就是一顿大模型技术创新的饕餮大餐。比如其中的multi-token prediction(图3),看完我真的很吃惊,这么简单的方法,就可以提高训练速度好几倍,为什么以前没有人想到?
数码博主 超话主持人(ChatGPT超话) 头条文章作者 我的学习笔记,关注AI+新能源 |
AI范儿 · 150元的AI胎照,让我看到科技最温暖的一面 · 2 天前 |
AI范儿 · 150元的AI胎照,让我看到科技最温暖的一面 · 2 天前 |
爱可可-爱生活 · 本文揭示了多项选择题评估中孤立评估答案选项的 ... · 2 天前 |
曾星智中线投资 · 不会被AI智能打败的投资方法 · 3 天前 |
曾星智中线投资 · 不会被AI智能打败的投资方法 · 3 天前 |
爱可可-爱生活 · 本文提出了一种名为 GIMS ... · 3 天前 |
爱可可-爱生活 · 本文发现大型语言模型在链式微调中存在“有偏遗 ... · 4 天前 |
AI范儿 · 150元的AI胎照,让我看到科技最温暖的一面 2 天前 |
AI范儿 · 150元的AI胎照,让我看到科技最温暖的一面 2 天前 |
爱可可-爱生活 · 本文揭示了多项选择题评估中孤立评估答案选项的缺陷,并证明同时呈现-20241227053913 2 天前 |
曾星智中线投资 · 不会被AI智能打败的投资方法 3 天前 |
曾星智中线投资 · 不会被AI智能打败的投资方法 3 天前 |
爱可可-爱生活 · 本文提出了一种名为 GIMS 的图像匹配系统,该系统通过自适应图-20241226055638 3 天前 |
爱可可-爱生活 · 本文发现大型语言模型在链式微调中存在“有偏遗忘”现象,即安全信息-20241225054351 4 天前 |
侬好上海 · 上海人最熟悉的这个地方,要大变身了!将建市中心最大体育公园!太期待啦! 8 年前 |
铁血网 · 中国崇尚统一,欧洲向往分裂,它或许正是西方难以称霸世界的关键 7 年前 |
强国梦 · 沙特大土豪刚走,这位中东老朋友就来了,中国这是要发呀! 7 年前 |
徐文兵 · 《飲食滋味》課程簡介 7 年前 |
人民日报 · 中国科学家默默做的这件事,让曾怀疑的西方媒体闭紧嘴巴 7 年前 |