2023年国产AI大模型性能评测:四款主流大模型深度对比

AI头条2年前发布 Lexi
4K 0

随着生成式AI技术的迅猛发展,国内涌现出多款备受瞩目的大模型产品。为了帮助用户更好地选择适合自己的大模型,本文将从多个维度对百度文心一言、科大讯飞的讯飞星火、阿里的通义千问和360智脑进行全面评测。以下是各款产品的综合评分及详细分析:

此次评测涵盖十个大项,每个项目满分为10分,总分为100分。四款大模型的最终得分分别是:讯飞星火93分、文心一言84分、360智脑75分、通义千问71分。其中,讯飞星火凭借其稳定的表现脱颖而出,特别是在实时搜索、内容生成和代码编写方面表现出色。

终端支持

在平台覆盖度方面,讯飞星火以五端(安卓、iOS、小程序、PC、H5)全覆盖的成绩获得满分;360智脑和文心一言分别支持网页端、移动App和桌面版,得分均为9分;通义千问仅提供网页端服务,得分为7分。

语言理解能力

语言理解是大模型的核心能力之一。通过对语意理解、情感分析和摘要提炼的测试,讯飞星火再次展现了其强大的实力,得分为10分。通义千问和360智脑在摘要提炼上有一定欠缺,分别扣掉了2分;文心一言在语意理解和摘要提炼上也略有不足,各扣1分。

知识丰富性

知识的广度和准确性直接影响用户体验。评测结果显示,讯飞星火在各类知识测试中表现优异,尤其是历史人文类知识,准确无误地回答了《红楼梦》中的难题,得分为9分。文心一言虽在某些领域稍逊一筹,但在理工专业知识方面给出了非常详细的解答,得分为8分。相比之下,360智脑和通义千问在多个领域出现了错误,得分较低。

逻辑推理能力

逻辑推理能力决定了大模型是否足够聪明。在逻辑推理测试中,360智脑以9分的成绩领先,其回答不仅逻辑清晰,还能有效避开陷阱。讯飞星火和文心一言紧随其后,各得8分,尽管讯飞星火在一道逻辑题上出现小失误,但整体表现依然出色。通义千问则因多次犯错,仅得6分。

内容生成能力

内容生成是用户使用大模型的重要场景之一。讯飞星火在文案创作、故事接龙、作文写作和方案企划等多个任务中均表现出色,最终得分为9分。文心一言在内容生成方面也有不错的表现,但由于作文缺少论据等原因,得分为8分。360智脑和通义千问在内容生成方面表现欠佳,得分分别为3分和7分。

代码编写能力

代码编写能力是衡量大模型实用性的重要指标。讯飞星火以10分的成绩遥遥领先,其生成的C#代码不仅格式规范,还能直接运行并得到正确结果。文心一言、360智脑和通义千问虽然生成了代码,但在实际运行中均出现问题,各自得分为7分。

多轮对话能力

多轮对话能力反映了大模型的记忆和连贯性。四款大模型中,文心一言、讯飞星火和通义千问在多轮对话测试中表现出色,均获得满分。360智脑虽然也能记住上下文,但在回答内容上存在一些小问题,得分为9分。

实时搜索能力

实时搜索能力对于获取最新信息至关重要。讯飞星火在这方面表现尤为突出,能够快速准确地回答关于最新电影和体育赛事的问题,得分为9分。文心一言、通义千问和360智脑在实时搜索能力上存在一定差距,得分分别为7分、6分和6分。

多模态输入输出

多模态支持增强了大模型的交互体验。文心一言和360智脑在多模态方面表现较好,均支持文生图和文生语音,得分为9分。讯飞星火支持语音朗读和切换主播,得分为8分。通义千问在多模态支持上较为薄弱,得分为6分。

AI助手功能

AI助手功能为用户提供针对性的服务。讯飞星火、文心一言和360智脑在AI助手方面各有特色,均获得满分。通义千问虽然也有AI助手,但数量较少,得分为9分。

总结

经过十个维度的详细评测,讯飞星火凭借其在多个项目中的优秀表现,以93分的高分位居榜首。文心一言以84分的成绩紧随其后,其在内容生成、避坑能力和多模态输出等方面具有优势。360智脑和通义千问虽然在某些方面有所欠缺,但仍具备一定的使用价值。希望本文的评测能为用户选择合适的AI大模型提供参考。

© 版权声明

相关文章