解析13.8与13.11数值大小:大模型们的挑战与错误

AI头条1天前发布 IdeaSavant
1.9K 0

最近,一道看似简单的数学题引发了广泛的讨论,甚至让一些知名的大规模语言模型出现了错误。题目是关于比较两个小数——13.8和13.11,究竟哪个更大?这个问题不仅在网络上成为热门话题,还在综艺节目《歌手2024》中引起了关注。当时,孙楠以13.8%的得票率排名第三,而Chanté Moore则以13.11%位列第四,引发了一位网友的质疑,从而将这个看似简单的问题推上了微博热搜。

为了探究这个问题,南方都市报记者对包括阿里通义千问、百度文心一言在内的九家国产大模型进行了测试,同时也不忘测试全球领先的大模型ChatGPT3.5的表现。测试结果显示,尽管大多数模型能够正确回答,但仍有几家模型给出了令人惊讶的答案。

测试结果:部分大模型表现不佳

在这次测试中,有六家大模型正确地指出13.8大于13.11,其中包括阿里通义千问和百度文心一言。然而,另外三家模型——面壁智能Luca、月之暗面Kimi和智谱清言,则错误地认为13.11更大。例如,Luca声称13.11比13.8多出了0.31,因此13.11更大。这种明显的计算错误让人大跌眼镜。

错误解析:为什么会出现这样的误判

对于这些错误,技术专家分析指出,大模型在处理这类问题时可能会受到训练数据的影响。大模型通常接触到的数字更多出现在软件版本号、股票价格或汇率等场景中,而非单纯的数值比较。因此,它们可能未能正确理解需要进行双精度浮点运算的情境。

此外,大模型在处理输入词和标点符号时也可能出现问题,特别是在向量化排序过程中。例如,某些模型可能忽略了小数点作为数字一部分的重要性,导致最终输出的结果出现偏差。

ChatGPT3.5的表现:差点“翻车”

值得注意的是,即使是像ChatGPT3.5这样的国际顶尖大模型,也未能完全避免错误。在初次回答时,ChatGPT3.5同样错误地认为13.11大于13.8。但在进一步追问下,它很快意识到自己的错误,并纠正了答案,最终正确指出13.8更大。

总结与反思

这次事件不仅揭示了大模型在处理基础数学问题上的不足,也提醒我们,即便是最先进的技术工具,也并非万无一失。未来,如何提高大模型的理解能力和准确性,仍然是一个值得深入研究的课题。同时,这也提醒我们在依赖AI工具时,仍需保持一定的批判性思维,确保信息的准确性和可靠性。

© 版权声明

相关文章