2月26日消息,今日上午9点,DeepSeek公司如约履行其在“开源周”期间的承诺,正式发布了开源项目——DeepGEMM。这一消息一经发布并迅速转发,便迅速吸引了业界的广泛关注,阅读量迅速攀升至2.1万,充分展示了该项目在国内外的高热度和受追捧程度。

据悉,DeepGEMM是一个专为FP8(8位浮点数)设计的高效通用矩阵乘法(GEMM)库。它不仅支持普通的矩阵计算需求,还特别针对混合专家(MoE)分组的矩阵计算进行了优化,能够动态调整资源分配,从而显著提升算力效率。
技术层面,DeepGEMM基于CUDA架构开发,并融入了轻量级的即时编译(JIT)模块。这一设计使得DeepGEMM能够在运行时动态编译内核,无需用户进行预先的编译和安装,极大地提升了使用的便捷性。
尤为值得一提的是,DeepGEMM的设计初衷便是为DeepSeek-V3/R1模型的训练与推理提供强有力的底层支持。它特别针对Hopper架构的GPU(例如H800)进行了优化,旨在实现高性能与低成本的完美平衡。
作为DeepSeek“开源周”(活动时间为2月24日至28日)的第三项重要成果,DeepGEMM的发布进一步延续了DeepSeek此前在开源模型与工具方面的积极策略。此前,DeepSeek已经成功开源了FlashMLA(高效解码内核)和DeepEP(专家并行通信库)等项目,此次DeepGEMM的发布无疑进一步降低了高性能计算技术的应用门槛。
随着DeepSeek在开源领域的持续深耕,我们有理由相信,未来将有更多高性能、易用的开源项目问世,为整个行业的发展注入新的活力。
© 版权声明
文章版权归作者所有,未经允许请勿转载。