解读国内外140多个大模型评测结果：谁在领先？

1.8K 0

最新发布的评测结果显示，国内外140多个大模型在不同任务上的表现各异。尤其值得注意的是，在面向低年级学生的测试题中，大模型的表现竟然不如小学生。评测由智源研究院完成，旨在提供一个公正透明的大模型评估体系，揭示各模型的真实实力。

评测结果显示，国产大模型在多个领域表现出色，但尚无一家公司能够在所有领域占据主导地位。美国AI研究公司OpenAI依然处于领先地位。字节跳动的豆包模型、阿里巴巴的通义模型分别在不同类别中名列前茅，百度的文心一言也在多个类别中进入前五，但未能拔得头筹。

评测方法及公正性

智源研究院历时三个月，联合北京海淀教委与中国传媒大学，采用超过20个数据集和8万道题（含4000道主观题）进行测评。为确保公平，答案评分采取多人独立匿名评分机制。值得一提的是，智源研究院自主研发的悟道大模型并未参与本次测评，以确保评估的中立性。

多模态与语言模型表现

在语言模型主观测评中，字节跳动的豆包模型荣登榜首，紧随其后的是GPT-4、百度的文心一言等。而在客观测评方面，GPT-4依旧领先，百川智能的Baichuan3、百度的文心一言也表现不俗。对于图文问答模型，阿里巴巴的通义模型拔得头筹，上海人工智能实验室也有两款模型入围。

中文语境下的表现

在中文语境下，国内语言模型的综合表现已接近国际一流水平，更加贴近中国用户的使用习惯。然而，评测也揭示出国产大模型在能力上的不均衡现象，尤其是在低年级试题的表现上，大模型的成绩不尽如人意。例如，一道小学三年级的词汇分类题，大多数大模型未能完全正确作答，甚至GPT-4也未能例外。

低年级试题的挑战

评测中发现，大模型在处理低年级试题时，尤其是一些涉及图片的题目，表现较差。这表明当前大模型的多模态技术仍需进一步提升。此外，大模型在处理古文理解和诗歌填空等任务时，也出现了误判情况。这反映出AI在理解和模仿人类思维模式方面还有很长的路要走。

未来展望

智源研究院院长王仲远表示，国内大模型在应用生态方面仍有很大提升空间。尽管在某些领域已取得显著进展，但要实现全面突破，还需继续努力。此次评测不仅为各家公司提供了宝贵的反馈，也为未来的研究和发展指明了方向。

AI资讯

文章版权归作者所有，未经允许请勿转载。

MidJourney 最新设置参数解析及优化技巧

AI资讯

6个月前

09.3K4.8K

ChatGPT搜索功能全面开放：无需注册即可体验，OpenAI加速布局人形机器人领域

AI资讯

2个月前

010.3K3.8K

360为DeepSeek提供免费安全服务，纳米AI搜索推出“DeepSeek高速专线”

AI资讯

3个月前

09K6.6K

AI赋能教育：南京市光华东街小学的智慧教学实践

AI资讯

2个月前

06K2.3K

暂无评论

暂无评论...

解读国内外140多个大模型评测结果：谁在领先？

评测方法及公正性

多模态与语言模型表现

中文语境下的表现

低年级试题的挑战

未来展望

深度求索：AI黑马DeepSeek为年轻人带来的时代机遇

人工智能时代的机遇与挑战：混合式AI引领产业变革

相关文章

MidJourney 最新设置参数解析及优化技巧

ChatGPT搜索功能全面开放：无需注册即可体验，OpenAI加速布局人形机器人领域

360为DeepSeek提供免费安全服务，纳米AI搜索推出“DeepSeek高速专线”

AI赋能教育：南京市光华东街小学的智慧教学实践

暂无评论

排行榜

当贝AI

DeepSeek满血版

即梦AI 3.0

稿定AI

番茄达人中心

Trae（中文版）

热门资料

AI头条