2023年国产AI大模型性能评测：四款主流大模型深度对比

AI资讯2年前发布 Lexi

4.8K 0

随着生成式AI技术的迅猛发展，国内涌现出多款备受瞩目的大模型产品。为了帮助用户更好地选择适合自己的大模型，本文将从多个维度对百度文心一言、科大讯飞的讯飞星火、阿里的通义千问和360智脑进行全面评测。以下是各款产品的综合评分及详细分析：

此次评测涵盖十个大项，每个项目满分为10分，总分为100分。四款大模型的最终得分分别是：讯飞星火93分、文心一言84分、360智脑75分、通义千问71分。其中，讯飞星火凭借其稳定的表现脱颖而出，特别是在实时搜索、内容生成和代码编写方面表现出色。

终端支持

在平台覆盖度方面，讯飞星火以五端（安卓、iOS、小程序、PC、H5）全覆盖的成绩获得满分；360智脑和文心一言分别支持网页端、移动App和桌面版，得分均为9分；通义千问仅提供网页端服务，得分为7分。

语言理解能力

语言理解是大模型的核心能力之一。通过对语意理解、情感分析和摘要提炼的测试，讯飞星火再次展现了其强大的实力，得分为10分。通义千问和360智脑在摘要提炼上有一定欠缺，分别扣掉了2分；文心一言在语意理解和摘要提炼上也略有不足，各扣1分。

知识丰富性

知识的广度和准确性直接影响用户体验。评测结果显示，讯飞星火在各类知识测试中表现优异，尤其是历史人文类知识，准确无误地回答了《红楼梦》中的难题，得分为9分。文心一言虽在某些领域稍逊一筹，但在理工专业知识方面给出了非常详细的解答，得分为8分。相比之下，360智脑和通义千问在多个领域出现了错误，得分较低。

逻辑推理能力

逻辑推理能力决定了大模型是否足够聪明。在逻辑推理测试中，360智脑以9分的成绩领先，其回答不仅逻辑清晰，还能有效避开陷阱。讯飞星火和文心一言紧随其后，各得8分，尽管讯飞星火在一道逻辑题上出现小失误，但整体表现依然出色。通义千问则因多次犯错，仅得6分。

内容生成能力

内容生成是用户使用大模型的重要场景之一。讯飞星火在文案创作、故事接龙、作文写作和方案企划等多个任务中均表现出色，最终得分为9分。文心一言在内容生成方面也有不错的表现，但由于作文缺少论据等原因，得分为8分。360智脑和通义千问在内容生成方面表现欠佳，得分分别为3分和7分。

代码编写能力

代码编写能力是衡量大模型实用性的重要指标。讯飞星火以10分的成绩遥遥领先，其生成的C#代码不仅格式规范，还能直接运行并得到正确结果。文心一言、360智脑和通义千问虽然生成了代码，但在实际运行中均出现问题，各自得分为7分。

多轮对话能力

多轮对话能力反映了大模型的记忆和连贯性。四款大模型中，文心一言、讯飞星火和通义千问在多轮对话测试中表现出色，均获得满分。360智脑虽然也能记住上下文，但在回答内容上存在一些小问题，得分为9分。

实时搜索能力

实时搜索能力对于获取最新信息至关重要。讯飞星火在这方面表现尤为突出，能够快速准确地回答关于最新电影和体育赛事的问题，得分为9分。文心一言、通义千问和360智脑在实时搜索能力上存在一定差距，得分分别为7分、6分和6分。

多模态输入输出

多模态支持增强了大模型的交互体验。文心一言和360智脑在多模态方面表现较好，均支持文生图和文生语音，得分为9分。讯飞星火支持语音朗读和切换主播，得分为8分。通义千问在多模态支持上较为薄弱，得分为6分。

AI助手功能

AI助手功能为用户提供针对性的服务。讯飞星火、文心一言和360智脑在AI助手方面各有特色，均获得满分。通义千问虽然也有AI助手，但数量较少，得分为9分。

总结

经过十个维度的详细评测，讯飞星火凭借其在多个项目中的优秀表现，以93分的高分位居榜首。文心一言以84分的成绩紧随其后，其在内容生成、避坑能力和多模态输出等方面具有优势。360智脑和通义千问虽然在某些方面有所欠缺，但仍具备一定的使用价值。希望本文的评测能为用户选择合适的AI大模型提供参考。

© 版权声明

文章版权归作者所有，未经允许请勿转载。

相关文章

如何提升大模型数据质量：吃得饱更要吃得好

如何提升大模型数据质量：吃得饱更要吃得好

2个月前

08.9K2.2K

360公司进军纳米AI搜索：创新技术与用户体验

新360公司进军纳米AI搜索：创新技术与用户体验

10小时前

03.3K5.6K

中国AI里程碑：DeepSeek-R1引领全球人工智能新趋势

中国AI里程碑：DeepSeek-R1引领全球人工智能新趋势

2个月前

07.5K5.9K

华大智造发布全新AI+机器人αLab Robot，开启实验室自动化新篇章

华大智造发布全新AI+机器人αLab Robot，开启实验室自动化新篇章

2个月前

04.6K3.6K

暂无评论

none

暂无评论...