Deepseek在开源周第三天宣布开源DeepGEMM库。该库专为高效FP8通用矩阵乘法设计,具备细粒度缩放功能,支持普通和混合专家(MoE)分组的GEMM。
DeepGEMM采用CUDA编写,无需编译安装,通过轻量级即时编译(JIT)模块在运行时编译所有内核。它为V3/R1训练和推理提供支持。
标签:
文章来源: 酷玩网
版权声明: 本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任
Deepseek在开源周第三天宣布开源DeepGEMM库。该库专为高效FP8通用矩阵乘法设计,具备细粒度缩放功能,支持普通和混合专家(MoE)分组的GEMM。
DeepGEMM采用CUDA编写,无需编译安装,通过轻量级即时编译(JIT)模块在运行时编译所有内核。它为V3/R1训练和推理提供支持。
标签: