开源社区迎来了又一重磅消息——高性能矩阵计算库DeepGEMM正式开源。该工具被誉为“AI数学加速器”,旨在显著提升大规模模型训练和推理的速度。它在Hopper架构GPU上实现了FP8精度下的1350+ TFLOPS惊人算力,以极简代码和强大性能重新定义了算力领域的标准。
FP8精度:速度与精度的完美平衡
DeepGEMM采用了8位浮点数(FP8)格式,相较于传统的32位浮点运算,这种做法如同用“小杯装水”替代“大桶储水”,通过牺牲微小的精度换取超过3倍的速度提升。这种特性特别适合AI场景中对误差具有较高容忍度的应用,从而极大地提高了处理效率。
卓越性能:超越市场主流显卡
在Hopper GPU上的实际测试中,DeepGEMM达到了1350+ TFLOPS(每秒1.35千万亿次浮点运算)的性能水平,远远超过了市面上的主流显卡,例如RTX 4090的400-500 TFLOPS。这意味着在相同的硬件条件下,DeepGEMM能够提供更加高效的计算能力,助力研究人员和开发者更快地完成复杂任务。
简洁代码:300行代码实现顶级效能
DeepGEMM的核心逻辑仅需300行代码即可实现,并且通过全流程JIT编译优化,使得其性能甚至优于经过手工调优的算子。这种“少即是多”的设计理念不仅简化了开发流程,还保证了系统的高效运行,真正做到了开箱即用,方便快捷。
双模式支持:灵活适应多种计算需求
为了满足不同类型的任务需求,DeepGEMM同时支持稠密矩阵布局和混合MoE布局。前者适用于所有数据统一计算的情况,后者则可以针对不同任务分配专门的处理单元,确保每个部分都能得到最合适的资源配置,从而提高整体效率。
节能模式:降低显存占用与功耗
利用低精度计算的优势,DeepGEMM大幅减少了显存占用和功耗,使得即使是在24G显存的单卡上也能流畅运行万亿参数的大规模模型,并实现高达28倍的推理加速。这对于需要长时间稳定工作的应用场景来说尤为重要。
MoE优化:解决专家模型通信瓶颈
DeepGEMM特别针对专家模型(MoE)进行了优化,通过引入连续/掩码双布局的方式,有效解决了计算过程中的通信瓶颈问题,使得万亿参数MoE推理变得异常迅速,极大地提升了用户体验。
展望未来:构建全栈开源基础设施
随着DeepGEMM的开源,即将在5月发布的DeepSeek R2模型将进一步突破现有的算力限制。DeepSeek正致力于打造一个涵盖训练、推理、单卡及分布式计算在内的完整开源基础设施体系,使AI创新不再受限于高昂的算力成本。
API充值重启与价格调整
与此同时,DeepSeek重新开放了API充值入口,之前由于资源紧张而暂时关闭。目前deepseek-chat模型的调用费用已更新为每百万输入tokens 2元,每百万输出tokens 8元。
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...