//
@karminski-牙医
:解释下这个库能干嘛:大家都知道DeepSeek一项重大进步是使用FP8精度进行训练。训练的本质其实是矩阵乘法。默认大家都使用NVIDIA CUDA库中提供的矩阵乘法. 这个库在最优情况可以将矩阵乘法性能提升2.7x. 可以加速训练速度. 另外在早些年一些商用BLAS库(包含矩阵乘法,通常性能比开源BLAS库好)卖得很贵..
DeepSeek 开源周的3号炸弹来啦!DeepGEMM!
这是个FP8 通用矩阵乘法库,该库用 CUDA 编写,安装时无需编译,并且内置了JIT(真的牛逼)!官方数据最大性能获得了2.7倍的提升。
这是个FP8 通用矩阵乘法库,该库用 CUDA 编写,安装时无需编译,并且内置了JIT(真的牛逼)!官方数据最大性能获得了2.7倍的提升。