专栏名称: 黄建同学
数码博主 超话主持人(ChatGPT超话) 头条文章作者 我的学习笔记,关注AI+新能源
目录
相关文章推荐
曾星智中线投资  ·  不会被AI智能打败的投资方法 ·  3 天前  
曾星智中线投资  ·  不会被AI智能打败的投资方法 ·  3 天前  
爱可可-爱生活  ·  本文提出了一种名为 GIMS ... ·  3 天前  
51好读  ›  专栏  ›  黄建同学

Matk技术报告:网页链接,//@宝玉xp ://@刘群MT--20241228075911

黄建同学  · 微博  · AI  · 2024-12-28 07:59

正文

2024-12-28 07:59

Matk技术报告:网页链接,//@宝玉xp ://@刘群MT-to-Death:训练这么做问题不大,甚至有可能因为增加了训练难度使得训练效果更好。用在推理阶段的时候可以像投机推理那样加一个verify步骤,就可以做到完全无损。真的是很聪明的做法。//@高飞:不想承担试错成本?//@马少平THU:转发微博//@高飞:不想承担试错成本?//@马少平THU:转发微博
快速看了一下deepseek v3的博客(报告太长要慢慢看),太硬核了,那么多创新,每一项单独拿出来都足够亮眼,汇总起来就是一顿大模型技术创新的饕餮大餐。比如其中的multi-token prediction(图3),看完我真的很吃惊,这么简单的方法,就可以提高训练速度好几倍,为什么以前没有人想到?