解读国内外140多个大模型评测结果:谁在领先?

AI头条16小时前发布 ScriptSage
1.2K 0

最新发布的评测结果显示,国内外140多个大模型在不同任务上的表现各异。尤其值得注意的是,在面向低年级学生的测试题中,大模型的表现竟然不如小学生。评测由智源研究院完成,旨在提供一个公正透明的大模型评估体系,揭示各模型的真实实力。

评测结果显示,国产大模型在多个领域表现出色,但尚无一家公司能够在所有领域占据主导地位。美国AI研究公司OpenAI依然处于领先地位。字节跳动的豆包模型、阿里巴巴的通义模型分别在不同类别中名列前茅,百度的文心一言也在多个类别中进入前五,但未能拔得头筹。

评测方法及公正性

智源研究院历时三个月,联合北京海淀教委与中国传媒大学,采用超过20个数据集和8万道题(含4000道主观题)进行测评。为确保公平,答案评分采取多人独立匿名评分机制。值得一提的是,智源研究院自主研发的悟道大模型并未参与本次测评,以确保评估的中立性。

多模态与语言模型表现

在语言模型主观测评中,字节跳动的豆包模型荣登榜首,紧随其后的是GPT-4、百度的文心一言等。而在客观测评方面,GPT-4依旧领先,百川智能的Baichuan3、百度的文心一言也表现不俗。对于图文问答模型,阿里巴巴的通义模型拔得头筹,上海人工智能实验室也有两款模型入围。

中文语境下的表现

在中文语境下,国内语言模型的综合表现已接近国际一流水平,更加贴近中国用户的使用习惯。然而,评测也揭示出国产大模型在能力上的不均衡现象,尤其是在低年级试题的表现上,大模型的成绩不尽如人意。例如,一道小学三年级的词汇分类题,大多数大模型未能完全正确作答,甚至GPT-4也未能例外。

低年级试题的挑战

评测中发现,大模型在处理低年级试题时,尤其是一些涉及图片的题目,表现较差。这表明当前大模型的多模态技术仍需进一步提升。此外,大模型在处理古文理解和诗歌填空等任务时,也出现了误判情况。这反映出AI在理解和模仿人类思维模式方面还有很长的路要走。

未来展望

智源研究院院长王仲远表示,国内大模型在应用生态方面仍有很大提升空间。尽管在某些领域已取得显著进展,但要实现全面突破,还需继续努力。此次评测不仅为各家公司提供了宝贵的反馈,也为未来的研究和发展指明了方向。

© 版权声明

相关文章