2024年AI大模型高考成绩公布：前三名文科超一本，理科超二本

2.7K 0

最新数据显示，上海人工智能实验室在7月17日发布了针对七个AI大模型的高考全科目测试结果。据“司南”评测体系负责人透露，组织这些AI大模型“参加高考”的主要目的在于评估其真实水平，发现存在的问题，并推动技术进一步发展。

测试结果显示，书生·浦语2.0系列文曲星大模型（浦语文曲星）、阿里通义千问大模型Qwen2-72B以及GPT-4o再次在文理科成绩中占据前三的位置。这些领先的AI“考生”在文科上的成绩超过了河南省的一本分数线，在理科上则超过了二本分数线。此次参评的大模型还包括零一万物的Yi-1.5-34B、通义千问的Qwen2-57B、智谱的GLM-4-9B以及法国初创公司Mistral的Mixtral 8×22B。

评测特点

本次评测具有以下特点：首先是全卷考试，即对整个试卷进行评分而非仅限于某一题型，同时涵盖了带有图表的题目；其次是考前开源，所有用于评测的开源模型都是在今年高考之前就已公开的版本，避免了泄题风险；再者是老师打分，邀请了有丰富高考阅卷经验的教师来进行评分，保证了评分标准与实际高考的一致性；最后是完全公开，所有生成的答案代码、模型答卷及评分结果均对外公开。

综合科目表现

在新增加的综合科目测试中，Qwen2-72B、GPT-4o和浦语文曲星依旧保持领先地位。其中，阿里通义千问大模型Qwen2-72B以546分的成绩夺得了“文科状元”的称号，而浦语文曲星则以468.5分位居理科榜首，分别超过了国际非开源模型GPT-4o（文科531分，理科467分）。相比之下，来自国外的Mixtral 8x22B平均得分最低，显示出国内大模型在这次高考中的优势。

阅卷反馈

阅卷教师们普遍认为，尽管大模型在基础知识的掌握上表现良好，但在逻辑推理和知识灵活运用方面仍有不足。例如，在处理主观题时，它们有时不能完全理解题意，容易出现答非所问的情况；在解答数学题时，解题过程显得机械化且缺乏逻辑连贯性，尤其在面对几何问题时，可能会给出不符合空间逻辑的推论；对于物理和化学实验的理解也较为表面化，难以准确地识别和使用实验设备。此外，大模型还可能创造出虚构的内容，如编造不存在的诗句，或者在计算错误后强行给出答案，这些问题都给阅卷工作带来了一定程度上的困扰。