2024年AI大模型高考成绩公布:前三名文科超一本,理科超二本

AI头条7个月前发布 IdeaSavant
2.2K 0

最新数据显示,上海人工智能实验室在7月17日发布了针对七个AI大模型的高考全科目测试结果。据“司南”评测体系负责人透露,组织这些AI大模型“参加高考”的主要目的在于评估其真实水平,发现存在的问题,并推动技术进一步发展。

测试结果显示,书生·浦语2.0系列文曲星大模型(浦语文曲星)、阿里通义千问大模型Qwen2-72B以及GPT-4o再次在文理科成绩中占据前三的位置。这些领先的AI“考生”在文科上的成绩超过了河南省的一本分数线,在理科上则超过了二本分数线。此次参评的大模型还包括零一万物的Yi-1.5-34B、通义千问的Qwen2-57B、智谱的GLM-4-9B以及法国初创公司Mistral的Mixtral 8×22B。

评测特点

本次评测具有以下特点:首先是全卷考试,即对整个试卷进行评分而非仅限于某一题型,同时涵盖了带有图表的题目;其次是考前开源,所有用于评测的开源模型都是在今年高考之前就已公开的版本,避免了泄题风险;再者是老师打分,邀请了有丰富高考阅卷经验的教师来进行评分,保证了评分标准与实际高考的一致性;最后是完全公开,所有生成的答案代码、模型答卷及评分结果均对外公开。

综合科目表现

在新增加的综合科目测试中,Qwen2-72B、GPT-4o和浦语文曲星依旧保持领先地位。其中,阿里通义千问大模型Qwen2-72B以546分的成绩夺得了“文科状元”的称号,而浦语文曲星则以468.5分位居理科榜首,分别超过了国际非开源模型GPT-4o(文科531分,理科467分)。相比之下,来自国外的Mixtral 8x22B平均得分最低,显示出国内大模型在这次高考中的优势。

阅卷反馈

阅卷教师们普遍认为,尽管大模型在基础知识的掌握上表现良好,但在逻辑推理和知识灵活运用方面仍有不足。例如,在处理主观题时,它们有时不能完全理解题意,容易出现答非所问的情况;在解答数学题时,解题过程显得机械化且缺乏逻辑连贯性,尤其在面对几何问题时,可能会给出不符合空间逻辑的推论;对于物理和化学实验的理解也较为表面化,难以准确地识别和使用实验设备。此外,大模型还可能创造出虚构的内容,如编造不存在的诗句,或者在计算错误后强行给出答案,这些问题都给阅卷工作带来了一定程度上的困扰。

总结

根据此前的报道,Qwen2-72B、GPT-4o和书生·浦语2.0文曲星(InternLM2-20B-WQX)在上个月的评测中同样取得了优异的成绩,得分率均超过了70%。大多数模型在语文和英语科目上的表现较为出色,但在数学领域还有较大的改进空间。

© 版权声明

相关文章