2025年全球开发者先锋大会(GDC)期间,上海人工智能实验室推出了全新的“以人为本”(Human-Centric Eval)大模型评测体系,旨在更贴近人类需求地评估大模型的能力。当前,尽管大模型的能力不断提升,各种评测榜单也层出不穷,但这些高分模型在实际生活中的应用价值仍然不明确。翟广涛教授指出,现有的以模型为中心的评测方法存在数据泄露和性能饱和的问题,导致“高分低能”的现象。因此,新的评测体系应运而生。
传统评测方法的局限性
传统的大模型评测通常采用结果导向的方式,即先设定任务,再由模型完成并打分。这种方式虽然可以直观地展示模型的性能,但却忽视了人类的真实需求。例如,一个模型可能在某些特定任务中表现优异,但在实际应用场景中却无法提供有效的帮助。为了弥补这一不足,上海人工智能实验室提出了更加注重用户体验的评测方式。
“以人为本”的评测体系
新推出的“以人为本”评测体系强调从人类需求出发,通过设计实际问题,让人类与大模型协作解决,并由人类对模型的表现进行主观评分。这种方式不仅补充了客观评价的不足,还使得评估结果更加贴近人类的感知。具体来说,该体系围绕解决问题能力、信息质量和交互体验三个核心维度展开,涵盖了多个真实场景和领域,如学术研究、数据分析和决策支持等。
评估框架与实验验证
“认知科学驱动”的评估框架通过模拟真实的人类需求,邀请用户与大模型协作完成任务,并基于用户的主观反馈量化评估模型的实际应用价值。为了验证这一评估方式的有效性,司南团队选择了DeepSeek-R1、GPT-o3-mini和Grok-3这三款当前公认优秀的模型进行评测。实验结果显示,所有受测模型在分析准确性、思考全面性和协助高效性方面表现出色,但各自在不同领域有所专长。例如,DeepSeek-R1在生物和教育领域表现突出,Grok-3擅长金融和自然领域,而GPT-o3-mini则在社会领域表现出色。
未来展望
此次发布的“以人为本”大模型评测体系,为未来的人工智能应用提供了更加科学和贴近实际需求的评估标准。通过这种评测方式,研究人员和技术开发者可以更好地理解大模型在实际应用中的表现,从而推动技术的进步和产业的落地。这一创新性的评估方法有望成为未来人工智能发展的重要参考。