大模型数学推理能力的实证研究:心理学视角下的新见解
近年来,大模型之所以取得显著进展,一个重要因素是所谓的“涌现现象”。这种现象指的是,基于庞大的训练数据和参数量,大模型在处理未专门训练的任务时,往往能展现出超出预期的强大能力。特别是在数学领域,主流大模型展示了令人瞩目的解题能力。然而,由于神经网络的复杂性和不可解释性,大模型如何产生这些能力的具体机制尚不明确。为提高大模型的可解释性,研究人员开始借鉴人类心理学的方法进行研究。
德国斯图加特大学、美国加州大学圣地亚哥分校和哈佛大学的研究人员在Nature Computational Science上发表的论文指出,思维链方法有助于大模型识别认知反射测试中的陷阱。认知反射测试是精心设计的数学或逻辑问题,旨在考察个体是否容易受到直觉思维(心理学中的“系统1”)的影响而犯错。研究表明,借助思维链方法,大模型可以模仿人类的逻辑推理(即“系统2”),从而提高解答这些问题的准确性。
实验证据揭示大模型的局限性
然而,国防科技大学计算机学院联合中国科学院信息工程研究所和新加坡科技研究局的研究团队通过一系列实验,对这一结论提出了挑战。他们在原有研究基础上进行了改进,设计了三项实验,结果却得出了截然不同的结论。
实验一涉及修改原始认知反射测试问题中的数字。结果显示,当仅改变题设中的数字而不改变数学原理时,大模型的平均正确率显著下降。具体来说,从原始问题的86.8%降至修改后的68.5%、53.1%甚至20.9%。分析表明,错误的主要原因并非计算复杂度增加,而是解题步骤的变化。这表明大模型的选择不仅依赖于数学原理,还受具体数字的影响,与人类逻辑推理的方式不同。
进一步验证与对比
实验二则是在保持文字叙述相似的前提下,实质性改变原问题的数学机理。例如,将原本关于时间与人数相关的问题改为时间与人数无关的问题。结果显示,大模型的正确率从73.3%骤降至27.5%,其中超过一半的错误是由于沿用了原问题的解题步骤。这说明大模型未能识别新问题数学原理的变化,而是基于文字叙述的相似性选择了相同的解题步骤。
此外,研究人员还对OpenAI最新发布的o1模型进行了测试。虽然在实验一中,o1模型的正确率没有显著变化,但在实验二中,其正确率从99.1%大幅下降至10%。这表明,尽管o1经过了以提升推理能力为目的的训练,但其核心思维模式并未改变,仍然依赖于文本组合概率的“填词游戏”,而不是真正的逻辑推理。
研究结论与展望
综上所述,本研究通过对主流大模型数学推理能力的实证研究,揭示了大模型基于文本相似性选择解题策略的现象,而非真正理解数学问题的本质。即使采用思维链或针对性微调,大模型的思维模式依然更接近人类的直觉思维(系统1),而非逻辑推理(系统2)。这一研究为大模型能力的“涌现现象”提供了实证反例,并从心理学角度进行了深入解释,降低了人们对大模型接近通用人工智能能力的过度乐观预期。
未来的研究可以从以下两个方面展开:一是通过多样化数据集和丰富实验方案,更全面地评估大模型在不同类型任务上的推理能力;二是借鉴经典心理学理论,探索新的训练范式,使大模型真正具备逻辑推理能力。这可能是大模型向通用人工智能迈进的重要一步。