Grok 3发布:预训练Scaling Law是否依然有效?
2月18日,埃隆·马斯克旗下的人工智能公司xAI发布了Grok 3系列模型,该模型使用了20万张GPU,并被誉为“地球上最聪明的AI”。这一发布引发了关于预训练阶段Scaling Law是否依然有效的广泛讨论。预训练阶段的Scaling Law指的是随着计算资源的增加,模型性能也会相应提升。然而,随着算力需求和成本的增加,这种模式是否仍然具有优势?本文将深入探讨这一问题。
预训练阶段的Scaling Law是否依然有效?
预训练阶段的Scaling Law确实仍然有效,但其效果正在逐渐减弱。当前面临的主要问题是数据不足,缺乏大量新数据使得预训练阶段的Scaling Law走势趋缓,但并未停滞。根据Chinchilla Scaling Law,即使没有新数据,增加模型尺寸也能继续提升效果,只是性价比极低。因此,研究者们开始转向RL Scaling Law和Test Time Scaling Law,因为这些方法在相同算力下能带来更显著的效果提升。
性价比最高的Scaling方法
目前,性价比最高的Scaling方法依次为:Test Time Scaling Law > RL Scaling Law > 预训练阶段Scaling Law。这是因为预训练阶段的数据不足限制了其效果提升的空间。如果RL和Test Time Scaling Law达到瓶颈,仍可以回归预训练阶段的Scaling Law,通过扩大模型尺寸来继续提升性能。不过,这通常是最后的选择。
Grok 3的算力与模型规模
Grok 3的算力消耗是Grok 2的10倍,这意味着其训练数据量和模型尺寸都有显著增长。根据Chinchilla Scaling Law,最佳做法是数据量和模型尺寸都增加3倍。Grok 3可能增加了大量多模态数据,但也有可能是模型尺寸大幅增加。无论哪种情况,Grok 3的模型尺寸显然远超Grok 2,预计在200B到500B之间。Grok 3采用了传统的预训练阶段增大模型尺寸的方法,虽然性价比不高,但可能有助于提升后续RL阶段的效果。
Grok 3的评测与应用
Grok 3作为通用基座模型,仅在数学、科学和代码数据集上进行了评测,而未涉及通用能力如MMLU指标。这可能表明其通用能力相对OpenAI和Deepseek的模型没有显著提升。为了提升基座模型的特定能力,可以采用类似Deepseek V3从Deepseek R1蒸馏数学、代码等逻辑题的长COT数据的方法,从而大幅增强基座模型在这些领域的能力。
未来展望
如果假设成立,即更大的基座模型能显著提升RL阶段的效果,那么Grok 3的策略可能是为了在未来进一步提升深度思考版本的能力。这种方法虽然当前性价比不高,但可能为未来的突破奠定基础。随着技术的发展,三个Scaling Law(预训练、RL、Test Time)可能会形成一个循环提升的机制,最终实现更高水平的大模型智商。
总之,Grok 3的发布不仅展示了强大的算力支持,也引发了对预训练Scaling Law的重新审视。未来的研究方向可能更多地集中在如何在不同阶段找到最具性价比的Scaling方法,以实现大模型性能的最大化。