一个专注于AI领域的开源组织,汇聚了众多顶尖院校和知名企业的优秀学习者,聚集了一群有开源精神和探索精神的团队成员。愿景-for the learner,和学习者一起成长。 |
Datawhale干货
作者 :Cameron R. Wolfe,编译:机器之心
「如果你有一个庞大的数据集并且训练了一个非常大的神经网络,那么成功是肯定的!」——Ilya Sutskever
「有了足够的训练数据,验证损失的 scaling 与模型大小的函数关系应该大致上是平滑幂律。」 - 摘自 [4]
「损失随模型大小、数据集大小和用于训练的计算量呈幂律变化,有些趋势跨越了七个数量级以上。」 - 摘自 [1]
「较大的模型具有更高的样本效率,因此最佳的计算效率训练涉及在相对适量的数据上训练非常大的模型,并在收敛之前停止。」 - 来自 [1]
「这些结果表明,随着我们适当扩大模型大小、数据和计算,语言建模性能会平稳且可预测地提高。我们预计,更大的语言模型将比当前模型表现更好,样本效率更高。」 - 来自 [1]
「这就是我们今天看到的所有进步的驱动力 —— 在庞大的数据集上训练的超大型神经网络。」 - Ilya Sutskever
「具有足够体量的语言模型将开始学习推断和执行自然语言序列中演示的任务,以便更好地预测它们,无论它们的方法如何。」 - 来自 [3]
「GPT-4 是一个基于 Transformer 的模型,经过预训练可以预测文档中的下一个 Token 。训练后的对齐过程可提高事实性和遵守期望行为的衡量标准。」 - 来自 [5]
「经过适当训练的大型语言模型的最终损失…… 可通过用于训练模型的计算量的幂律近似。」 - 来自 [5]
「预计所需的训练数据量远远超出了目前用于训练大型模型的数据量。」 - 来自 [6]
「这两种说法都可能是真的:scaling 在技术层面上仍然有效。针对用户的进步速度正在放缓。」 - Nathan Lambert
「实践者经常使用下游基准准确度作为模型质量的代理指标,而不是在困惑度评估集上的损失。」 - 来自 [7]
「scaling 研究通常侧重于计算最优的训练方案…… 由于较大的模型在推理时成本更高,因此现在对较小的模型进行过度训练是一种常见的做法。」 - 来自 [7]
「我们在 14.8T 高质量和多样化的 token 上训练 DeepSeek-V3。预训练过程非常稳定。在整个训练过程中,我们没有遇到任何无法挽回的损失峰值或不得不回滚。」 - 来自 [8]
「在 scaling 的每一个数量级,都必须找到不同的创新。」—— Ege Erdil(Epoch AI)
「OpenAI o1 是一个使用强化学习训练的新型大型语言模型,可以执行复杂的推理。o1 在回答之前会思考 —— 它可以在回复用户之前产生一个很长的内部思维链。」 - 来自 [21]
「我们发现,随着强化学习的增加(训练时间计算)和思考时间的增加(测试时间计算),o1 的性能会持续提高。」 - 来自 [22]
|
新身体 · 40分钟健身房健身房全面锻炼,6的不行! 8 年前 |
|
最搞笑笑话王 · 发个笑话给大家,不笑6天6夜,你揍我! 8 年前 |
|
腾讯科技 · 苹果股价疯涨:人们的妄念起了多大作用? 8 年前 |
|
中国数字医学 · 搭建四梁八柱推进深化医改 提升13亿人民健康获得感 7 年前 |
|
冲蒌老伍 · 台山人都知随吗?原来甴曱克星就系区 7 年前 |