LADDER框架助力AI模型在MIT积分大赛获佳绩

AI头条1个月前更新 zhuge
1.8K 0

近日,一个小型独立研究团体Tufa Labs提出了一种全新的训练方法LADDER,并成功帮助AI模型在麻省理工学院(MIT)积分大赛上取得了显著成绩。这一方法通过递归问题分解实现AI模型的自我改进,同时不需要人工标注数据,为AI训练领域带来了新的突破。

MIT积分大赛是一项专注于微积分中积分题的比赛,吸引了众多数学高手的挑战。而此次,Tufa Labs的研究团队利用LADDER方法,让一个原本只有1%准确率的Llama 3.2 3B模型,在没有任何人工标注数据的情况下,解题准确率飙升至82%。更强大的基础模型Qwen2.5 7B Deepseek-R1 Distilled,在使用LADDER方法后,MIT Integration Bee比赛的成绩就从50%提高到73%。最终,结合LADDER和创新的测试时强化学习方法TTRL,模型的成绩更是达到了90分,展现了强大的解题能力。

 LADDER,全称Learning through Autonomous Difficulty-Driven Example Recursion,即“通过自主难度驱动的样本递归进行学习”。这一方法的核心在于让语言模型(LLM)通过自我生成和求解渐进简化的问题变体,来不断提升自己解决复杂问题的能力。它主要由变体生成、解的验证和强化学习三个组件组成。通过这三个组件的协同工作,模型可以生成一系列从易到难的问题变体,形成自然的难度梯度,并通过解决这些问题来不断提升自己的能力。

值得一提的是,LADDER方法不需要人工标注数据,大大降低了数据获取成本。同时,由于模型是通过生成问题变体来构建针对性的学习路径,因此学习效率也更高。此外,生成的问题变体与原始问题相关性高,避免了陷入无关细节的风险。

除了LADDER方法外,研究团队还提出了一种创新的测试时强化学习方法TTRL。在推理阶段遇到复杂的数学积分测试问题时,TTRL会动态生成一系列更简单的积分变体,模型通过解决这些变体来积累经验,找到解决原始难题的方法。这种方法不仅提高了模型的解题能力,还为进一步提升模型性能开辟了新的道路。

© 版权声明

相关文章

暂无评论

none
暂无评论...