近日,DeepSeek 宣布其成本利润率达到了惊人的545%,引发了业界广泛关注。DeepSeek 在开源周期间陆续发布了多项技术动态,其中包括大规模部署的成本和收益分析。这些数据不仅颠覆了许多人的认知,也展示了 DeepSeek 在 AI 基础设施领域的独特优势。
V3/R1 架构由大量小型专家模块组成,这种设计区别于传统主流模型,使得现有系统难以有效支持。为了达到最佳效率,必须采用 DeepSeek 提出的方法。开源周期间,DeepSeek 已经开放了多个关键模块,大大降低了社区复现的难度。
收入与成本
根据 DeepSeek 披露的数据,按照 R1 token 定价,公司每天的总收入约为 562,027 美元,成本利润率达到了 545%。值得注意的是,DeepSeek 近期调整了夜间 API 调用价格,其中 DeepSeek-V3 下调至原价的 50%,DeepSeek-R1 最多可享受 75% 的折扣。公司始终坚持不赔本的原则,确保定价在成本之上略有盈余。
技术优化目标
DeepSeek-V3 / R1 推理系统的优化重点在于提升吞吐量和降低延迟。为此,团队采用了大规模跨节点专家并行(EP)技术。EP 不仅显著增加了 batch size,提高了 GPU 矩阵乘法的效率,还通过分散专家到不同 GPU 上减少了访存需求,降低了延迟。然而,EP 的引入也增加了系统的复杂性,尤其是在跨节点传输和多节点数据并行方面。
系统架构与实现
为了应对 EP 带来的复杂性,DeepSeek 设计了多机多卡间的专家并行策略。具体来说,Prefill 阶段采用了 4 节点 32 卡的配置,每个 GPU 上有 9 个路由专家和 1 个共享专家;Decode 阶段则使用了 18 节点 144 卡的配置,每个 GPU 上有 2 个路由专家和 1 个共享专家。此外,团队还实现了双 batch 重叠机制,以掩盖通信开销,进一步提高吞吐量。
负载均衡策略
在大规模并行环境中,负载均衡至关重要。DeepSeek 通过 Prefill Load Balancer、Decode Load Balancer 和 Expert-Parallel Load Balancer 实现了各 GPU 的计算和通信负载均衡。Prefill Load Balancer 确保了各 GPU 的 core-attention 计算量和 dispatch 发送量均衡;Decode Load Balancer 则关注 KVCache 占用量和请求数量的均衡;Expert-Parallel Load Balancer 解决了不同专家之间的计算负载不均衡问题。
实际运行数据
DeepSeek V3 和 R1 的所有服务均基于 H800 GPU,采用与训练一致的精度格式。在过去 24 小时内,服务峰值占用 278 个节点,平均占用 226.75 个节点。GPU 租赁成本为 2 美金/小时,日均成本为 87,072 美元。据统计,输入 token 总数为 608B,其中 342B tokens 击中 KVCache 硬盘缓存,输出 token 总数为 168B。平均输出速率为 20~22 tps,平均每输出一个 token 的 KVCache 长度为 4989。这些数据表明,DeepSeek 在高效利用资源和降低成本方面取得了显著成效。
结论与展望
DeepSeek 的成功不仅在于其卓越的技术实力,更在于对成本和效率的精细把控。未来,随着更多技术细节的公开和社区的积极参与,DeepSeek 将继续引领 AI 基础设施领域的发展。无论是技术创新还是商业模式,DeepSeek 都为我们提供了宝贵的借鉴经验。
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...