低成本微调DeepSeek V3/R1 671B：Colossal-AI开源解决方案助力高效模型优化

如今，基于原始模型的解决方案和API服务已经非常普遍，陷入了低价和免费竞争。为了提升业务竞争力与价值，如何通过后训练结合专业领域数据，低成本打造高质量私有模型成为了关键。Colossal-AI发布的开源大模型后训练工具箱，凭借近4万GitHub Star的关注，提供了完整的强化学习工具链，支持多种硬件平台，并且具备灵活的训练配置接口。

数据集准备

该工具箱接收JSONL格式的数据集作为输入，例如，每一行应该是一个聊天对话列表。这种数据格式兼容Huggingface chat template，支持自定义system prompt，因此可以根据需求灵活配置。例如：

[{role: user, content: 你好，最近怎么样？}, {role: assistant, content: 我很好。今天有什么可以帮你的吗？}]

[{role: user, content: 火烧赤壁曹操为何不拨打119求救？}, {role: assistant, content: 因为在三国时期，还没有电话和现代的消防系统，所以曹操无法拨打119求救。}]

模型权重准备

为了确保更好的微调效果，建议使用BF16权重进行微调。如果已经下载了FP8的DeepSeek V3/R1权重，可以通过官方提供的脚本将其转换为BF16格式。针对使用国产华为昇腾算力的用户，也有专门的转换脚本可用。

使用方法

准备好数据集和模型权重后，可以使用Colossal-AI提供的启动脚本开始微调过程。该脚本完全兼容HuggingFace PEFT，用户可以通过命令行参数轻松配置各项设置。例如：

colossalai run –hostfile path-to-host-file –nproc_per_node 8 lora_finetune.py –pretrained path-to-DeepSeek-R1-bf16 –dataset path-to-dataset.jsonl –plugin moe –lr 2e-5 –max_length 256 -g –ep 8 –pp 3 –batch_size 24 –lora_rank 8 –lora_alpha 16 –num_epochs 2 –warmup_steps 8 –tensorboard_dir logs –save_dir DeepSeek-R1-bf16-lora

通过这个命令，用户可以记录学习率、loss、grad norm等信息，方便对训练过程进行监控。

硬件资源优化

通过使用LoRA等技术，Colossal-AI显著降低了SFT DeepSeek V3/R1 671B的最低硬件要求，使得仅需32个Ascend 910B NPU 64GB或24个H100/H800 GPU即可满足需求。此外，还可以启用CPU offload进一步降低硬件门槛，尽管这可能会牺牲一定的训练速度。

强化学习微调蒸馏版DeepSeek

对于预算有限但仍希望利用强化学习构建类DeepSeek R1模型的开发者，Colossal-AI同样提供了相应的解决方案。团队验证并实现了DeepSeek论文中的GRPO算法及verifiable reward，使用Qwen2.5-3B-Base模型进行了实验。奖励函数的设计如下：奖励=0表示格式错误；奖励=1表示格式正确但结果错误；奖励=10表示格式和结果都正确。

通过灵活配置奖励函数，用户可以根据自身情况设计适合自己的奖励体系。实验结果显示，即使是较小规模的3B模型，其平均奖励与回复长度也会随着时间逐渐增加，模型还会进行自我纠正。