DeepSeek 大规模开源项目及 API 降价策略详解

5.5K 0

DeepSeek 在其开源周的第四天，推出了三项重要的开源成果：DualPipe、EPLB 和详细的训练与推理框架分析数据。这些项目不仅揭示了 DeepSeek 实现顶级 AI 性能的关键技术，也为社区提供了宝贵的参考资源。

DualPipe：创新的双向流水线并行算法

DualPipe 是一种用于计算 – 通信重叠的双向流水线并行算法，曾在 DeepSeek-V3/R1 的训练中得到应用。通过允许前向和后向计算 – 通信阶段的完全重叠，DualPipe 显著减少了流水线气泡，从而提高了训练效率。与传统方法如 1F1B 和 ZB1P 相比，DualPipe 更加高效，避免了计算单元因等待数据而产生的空闲时间。想象一下，训练一个大型语言模型如同指挥一个交响乐团，DualPipe 就像是让弦乐部和铜管部同时演奏，确保没有停顿。

EPLB：专家并行负载均衡器

EPLB 是专为 DeepSeek-V3/R1 设计的专家并行负载均衡器。在专家并行（EP）中，不同专家被分配到不同的 GPU 上，负载可能会因工作量的变化而不平衡。EPLB 通过智能分配专家，确保 GPU 利用率最大化，同时减少通信开销。DeepSeek 采用了冗余专家策略，复制高负载的专家，并通过启发式方法将这些复制的专家打包到 GPU 上，确保负载均衡。此外，DeepSeek 还尽量将同一组的专家放置在同一节点上，以减少节点间的数据传输。

训练与推理框架分析数据

DeepSeek 公开了详细的训练和推理框架分析数据，以帮助社区更好地理解通信 – 计算重叠策略和底层实现细节。这些数据由 PyTorch Profiler 捕获，用户可以通过浏览器中的 tracing 工具进行可视化。分析数据显示了 DeepSeek 在 DualPipe 中的重叠策略，每个块包含 4 个 MoE 层。在推理阶段，DeepSeek 使用两个 micro-batch 来重叠计算和全对全通信，确保注意力计算负载在两个微批次之间保持平衡。解码阶段同样利用两个 micro-batch 进行重叠计算和通信，但在解码期间，GPU SM 在发出 RDMA 消息后被释放，系统等待计算完成后全对全通信完成。

API 降价策略

除了持续开源，DeepSeek 还宣布了一项重要的 API 降价策略。从北京时间每日 00:30 至 08:30 的夜间空闲时段，API 调用价格大幅下调：DeepSeek-V3 降至原价的 50%，DeepSeek-R1 更低至 25%。这一策略被称为“峰谷 token”，使得用户可以在夜间以更低的成本运行批量任务。对于需要在正常时段使用 API 的用户，尤其是美国的用户，这项优惠也非常受欢迎。此举无疑给其他 API 供应商带来了不小的压力，是否会引发新一轮的降价潮值得关注。