开源大模型 DeepSeek 引发了全球范围内的广泛关注,成为众多厂商和平台竞相集成的对象。开源作为其成功的关键因素之一,得到了图灵奖得主 Yann LeCun 的高度评价,称之为“开源的胜利”。本文将深入探讨 DeepSeek 的开源策略,分析其开放的具体内容及其限制。
DeepSeek 是一款与闭源大模型性能相当的开源大模型,其许可证强调了负责任的人工智能原则。根据 Linux 基金会的模型开放架构,DeepSeek 尚未完全达到第三级开放标准。使用或分发 DeepSeek 模型需严格遵守其许可证,尤其是对于使用场景的限制。
DeepSeek 的技术演进与性能表现
DeepSeek 经历了多个版本的迭代,包括 V2、V2.5、V3、R1-Zero 和 R1 等。V3 版本通过一系列基准测试如 MMLU、C-Eval、CMMLU 等,展示了其在性能上的优越性,甚至与前沿闭源模型相比也不逊色。特别是 R1 版本,它主要依赖强化学习而非监督微调来提升模型能力,在某些测试项目上超过了 OpenAI 的模型。
DeepSeek 的开源许可证解析
DeepSeek 在 Hugging Face 上发布了 68 个模型和一个数据集。其中,DeepSeek-R1 和 DeepSeek-R1-Zero 采用了 MIT 许可证,而其他模型则使用了 DeepSeek 许可证,但代码部分依然遵循 MIT 许可证。对于从 Qwen 和 Llama 蒸馏出的六个模型,它们同样使用 MIT 许可证,而基础模型分别采用 Apache 2.0 和 Llama 许可证。
DeepSeek 的开放层级分析
根据 LF AI&Data 基金会的模型开放框架,大模型的开放分为三个层次。以 DeepSeek-R1 和 DeepSeek-V3 为例,DeepSeek 开放了模型架构、参数、技术报告等内容,但未开放训练代码、推理代码及数据集等关键组件。因此,DeepSeek 的开放程度大致处于第二级和第三级之间。
使用及分发 DeepSeek 模型的限制与条件
除 R1 系列模型外,其他 DeepSeek 模型均采用 DeepSeek 许可证。该许可证基于负责任的人工智能许可证(RAIL),禁止将模型用于军事用途等特定场景。此外,DeepSeek 提供了广泛的知识产权许可,允许用户自由创建内容、微调模型等,但要求传播方在分发模型时遵守严格的条件,如纳入使用限制、提供许可证副本等。
蒸馏模型的特殊要求
DeepSeek 从 Qwen 和 Llama 蒸馏出的模型不仅需遵循自身的 MIT 许可证,还需满足基础模型的许可证要求。例如,Llama 许可证规定,分发 Llama 材料时必须附带许可证副本并在相关页面上标明“使用 Llama 构建”。同时,DeepSeek 在使用这些材料时也未能完全遵守相应的开源许可证,特别是在署名声明和许可证副本的分发方面存在不足。
总结
尽管 DeepSeek 在开源大模型领域取得了显著成就,但也存在未完全遵守开源许可证的情况。这提醒我们在使用和分发 DeepSeek 模型时应更加谨慎,确保遵守所有相关的许可证条款,共同构建一个负责任的人工智能生态系统。
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...