2024年国内外大模型评测:国产模型在中文语境下表现优异

AI头条10个月前发布 WriteRanger
2K 0

最新发布的2024年大模型评测结果显示,国内顶尖的大模型在中文语境下的综合表现已经接近国际一流水平,尤其在多模态理解和生成方面取得了显著进展。评测由北京智源研究院组织,涵盖了140多个开源和商业闭源的语言及多模态大模型。评测不仅引入了人类学生熟悉的学科测试,还邀请了来自三年级到高三的学生参与,以评估AI模型与人类考生的表现差异。

评测方法与结果

此次评测从主观和客观两个维度考察了语言模型的七大能力:简单理解、知识运用、推理能力、数学能力、代码能力、任务解决、安全与价值观。多模态模型则主要评估其理解和生成能力。评测使用了20余个数据集,超过8万道考题,包括多个评测数据集如中文多模态多题型理解及推理评测数据集CMMU、中文语义评测数据集C-SEM等。主观题部分共有4000余道,由多名专家独立匿名评分,确保评分的公正性和准确性。

国产模型表现突出

在中文语境下,国内头部语言模型的综合表现接近国际一流水平,尤其在多模态理解和生成方面表现出色。例如,在文生图任务上,国产模型与国际一流水平差距较小。在文生视频能力方面,虽然美国OpenAI公司的Sora模型占据优势,但爱诗科技的PixVerse模型也表现优异。评测结果显示,字节跳动的豆包Skylark2和OpenAI的GPT-4分别在主观评测中排名前两位,而在客观评测中,OpenAI的GPT-4和百川智能的Baichuan3则名列前茅。

“文强理弱”现象普遍

评测结果显示,大模型在处理语文学科和历史等人文学科时表现出色,但在数学和科学等理科科目上则显得力不从心。尤其是在处理图表和图像理解方面,大模型的表现尤为薄弱。例如,在一道要求根据折线图列出黄瓜价格的题目中,仅有少数大模型给出了正确答案,甚至国际领先的ChatGPT也未能解答正确。此外,研究发现,随着年级的降低,大模型的表现与人类学生的差距逐渐增大,尤其是在低年级段,考题中的图片较多,导致大模型读图能力不足。

未来改进方向

尽管大模型在某些方面已经取得了显著进步,但仍存在不少挑战。例如,模型在面对文化内涵和家国情怀的理解时显得捉襟见肘,容易产生“幻觉”问题,即在无法理解的问题上胡乱作答。未来,研究人员需要进一步优化大模型的学习方式,使其更贴近人类的认知过程,尤其是在低年级教育领域,提高其读图能力和对复杂问题的理解能力。

结论

总体来看,国产大模型在中文语境下的表现令人鼓舞,尤其在多模态理解和生成方面取得了显著进展。然而,模型在理科科目和图像理解上的短板仍需进一步改进。未来的研究应聚焦于提升大模型的综合能力,使其更好地服务于教育和其他应用场景。

© 版权声明

相关文章