能否展开定义一下所谓的“蒸馏”具体什么意思?
我给你简单举个例子吧,就是有一个老师给学生布置了一道题,学生答的乱七八糟,然后老师把学生的这个题拿过来讲了一遍,学生就懂了。这个过程,就是老师在“蒸馏”学生。
具体到这个例子就是 #DeepsSeek# 用自己的大模型去“蒸馏”了Llama中的一个小模型和其他小模型。
下图这个论文摘要已经写的很清楚,DeepSeek的模型开发完之后,利用蒸馏技术给六个小模型“赋能”了,其中就包括Llama的一个小模型。
也就是DeepSeek把自己的模型推理过程去训练那些其他的小模型,让那些小模型也学会了推理类似问题。
跟人类训练师一样,只不过训练师是其他成熟的AI模型,也就是用别的AI模型去训练一个AI模型。为什么叫蒸馏?因为别的成熟AI模型已经具备广泛丰富的人机互动数据!那么经过这些成熟AI去灌输另外一个AI,就变相地再一次对数据提纯精炼。这个过程就是比较形象地蒸馏出训练成果了
Deep Seek的训练方法最大不同除了利用现有的模型去训练外。最重要的是尝试不加人类对训练数据的注解。让模型训练过程中自然发生,这期间出现了一些推理,涌现灵感和对流程验证等新的发现from群友
我给你简单举个例子吧,就是有一个老师给学生布置了一道题,学生答的乱七八糟,然后老师把学生的这个题拿过来讲了一遍,学生就懂了。这个过程,就是老师在“蒸馏”学生。
具体到这个例子就是 #DeepsSeek# 用自己的大模型去“蒸馏”了Llama中的一个小模型和其他小模型。
下图这个论文摘要已经写的很清楚,DeepSeek的模型开发完之后,利用蒸馏技术给六个小模型“赋能”了,其中就包括Llama的一个小模型。
也就是DeepSeek把自己的模型推理过程去训练那些其他的小模型,让那些小模型也学会了推理类似问题。
跟人类训练师一样,只不过训练师是其他成熟的AI模型,也就是用别的AI模型去训练一个AI模型。为什么叫蒸馏?因为别的成熟AI模型已经具备广泛丰富的人机互动数据!那么经过这些成熟AI去灌输另外一个AI,就变相地再一次对数据提纯精炼。这个过程就是比较形象地蒸馏出训练成果了
Deep Seek的训练方法最大不同除了利用现有的模型去训练外。最重要的是尝试不加人类对训练数据的注解。让模型训练过程中自然发生,这期间出现了一些推理,涌现灵感和对流程验证等新的发现from群友