DeepSeek 大规模开源项目及 API 降价策略详解
DeepSeek 在其开源周的第四天,推出了三项重要的开源成果:DualPipe、EPLB 和详细的训练与推理框架分析数据。这些项目不仅揭示了 DeepSeek 实现顶级 AI 性能的关键技术,也为社区提供了宝贵的参考资源。
DualPipe:创新的双向流水线并行算法
DualPipe 是一种用于计算 – 通信重叠的双向流水线并行算法,曾在 DeepSeek-V3/R1 的训练中得到应用。通过允许前向和后向计算 – 通信阶段的完全重叠,DualPipe 显著减少了流水线气泡,从而提高了训练效率。与传统方法如 1F1B 和 ZB1P 相比,DualPipe 更加高效,避免了计算单元因等待数据而产生的空闲时间。想象一下,训练一个大型语言模型如同指挥一个交响乐团,DualPipe 就像是让弦乐部和铜管部同时演奏,确保没有停顿。
EPLB:专家并行负载均衡器
EPLB 是专为 DeepSeek-V3/R1 设计的专家并行负载均衡器。在专家并行(EP)中,不同专家被分配到不同的 GPU 上,负载可能会因工作量的变化而不平衡。EPLB 通过智能分配专家,确保 GPU 利用率最大化,同时减少通信开销。DeepSeek 采用了冗余专家策略,复制高负载的专家,并通过启发式方法将这些复制的专家打包到 GPU 上,确保负载均衡。此外,DeepSeek 还尽量将同一组的专家放置在同一节点上,以减少节点间的数据传输。
训练与推理框架分析数据
DeepSeek 公开了详细的训练和推理框架分析数据,以帮助社区更好地理解通信 – 计算重叠策略和底层实现细节。这些数据由 PyTorch Profiler 捕获,用户可以通过浏览器中的 tracing 工具进行可视化。分析数据显示了 DeepSeek 在 DualPipe 中的重叠策略,每个块包含 4 个 MoE 层。在推理阶段,DeepSeek 使用两个 micro-batch 来重叠计算和全对全通信,确保注意力计算负载在两个微批次之间保持平衡。解码阶段同样利用两个 micro-batch 进行重叠计算和通信,但在解码期间,GPU SM 在发出 RDMA 消息后被释放,系统等待计算完成后全对全通信完成。
API 降价策略
除了持续开源,DeepSeek 还宣布了一项重要的 API 降价策略。从北京时间每日 00:30 至 08:30 的夜间空闲时段,API 调用价格大幅下调:DeepSeek-V3 降至原价的 50%,DeepSeek-R1 更低至 25%。这一策略被称为“峰谷 token”,使得用户可以在夜间以更低的成本运行批量任务。对于需要在正常时段使用 API 的用户,尤其是美国的用户,这项优惠也非常受欢迎。此举无疑给其他 API 供应商带来了不小的压力,是否会引发新一轮的降价潮值得关注。
开源周的未来展望
DeepSeek 的开源周已接近尾声,明天是最后一天。公司是否会用 R2 来收尾,令人期待。无论如何,此次开源周不仅展示了 DeepSeek 的技术创新,也为社区提供了宝贵的学习和实践机会。未来,我们可以期待更多类似的开源项目和技术分享,推动 AI 领域的进一步发展。
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...