离开OpenAI后,前联合创始人John Schulman和前后训练研究副总裁Barret Zoph将ChatGPT后训练方法整理成PPT并公之于众。John Schulman在社交媒体上透露,尽管他们的斯坦福演讲未被录制,但PPT已广泛流传。现场观众证实,演讲质量极高。以下是对PPT内容的详细解读。
后训练阶段概述
后训练阶段是模型开发的最后一环,旨在使模型更像一个得力助手,遵循特定格式,确保其适用于生产环境。这一阶段与产品团队紧密合作,涉及监督微调(SFT)、奖励模型(RM)训练和强化学习(RL)。相比预训练阶段,后训练阶段计算资源需求较低,迭代速度更快。
后训练方法的具体应用
通过后训练,模型能够更好地使用工具、塑造个性化特征、引入安全行为,并且其行为依赖于预训练阶段的泛化能力。例如,后训练模型在遵循指令方面表现更为出色,而预训练模型则可能在某些任务上显得不足。此外,后训练还解决了模型在生成文本时可能出现的拼写错误问题,通过对比生成文本并选择改进版本,确保输出质量。
模型发展的历程
回顾ChatGPT的发展历程,从GPT-3到GPT-4,再到ChatGPT的成功发布,团队不断调整和优化模型。初期的GPT-3和GPT-3.5版本为后续工作奠定了基础,而GPT-4的准备过程则进一步提升了模型性能。ChatGPT发布后迅速走红,但也遇到了服务器过载等问题。随着时间推移,ChatGPT的功能逐渐丰富,用户体验不断提升。
模型优化与挑战
在功能扩展和公司规模增长的过程中,团队面临诸多挑战,如过度拒绝行为和模型偏见问题。过度拒绝行为导致模型在某些情况下反应过于保守,通过改变时态等方法可以绕过这些问题。此外,模型还可能生成虚假或误导性内容,为此,团队采取了配对数据、边界示例等措施。同时,获取高质量的人类反馈也是一个重要环节,通过人类与AI团队协作进行标注,确保模型输出符合预期。
保持模型多样性和趣味性
如何在模型训练和优化过程中保持多样性和趣味性是一个开放性问题。团队提出通过后训练迭代和模型蒸馏来维持这些特性,确保模型不仅能准确执行任务,还能展现出不同的风格和世界观。最终目标是生成一个经过多次优化的对齐模型,如InstructGPT和Llama 3.1等。
未来展望与团队动态
John Schulman和Barret Zoph目前加入了由OpenAI前CTO Mira Murati创立的新公司Thinking Machines Lab,分别担任首席科学家和CTO。Mira Murati的新公司吸引了众多顶尖研究员和工程师,致力于推动AI技术的进一步发展。未来,他们将继续探索后训练方法及其应用,为AI领域带来新的突破。
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...