解析13.8与13.11数值大小：大模型们的挑战与错误

AI资讯2个月前发布 IdeaSavant

2.3K 0

最近，一道看似简单的数学题引发了广泛的讨论，甚至让一些知名的大规模语言模型出现了错误。题目是关于比较两个小数——13.8和13.11，究竟哪个更大？这个问题不仅在网络上成为热门话题，还在综艺节目《歌手2024》中引起了关注。当时，孙楠以13.8%的得票率排名第三，而Chanté Moore则以13.11%位列第四，引发了一位网友的质疑，从而将这个看似简单的问题推上了微博热搜。

为了探究这个问题，南方都市报记者对包括阿里通义千问、百度文心一言在内的九家国产大模型进行了测试，同时也不忘测试全球领先的大模型ChatGPT3.5的表现。测试结果显示，尽管大多数模型能够正确回答，但仍有几家模型给出了令人惊讶的答案。

测试结果：部分大模型表现不佳

在这次测试中，有六家大模型正确地指出13.8大于13.11，其中包括阿里通义千问和百度文心一言。然而，另外三家模型——面壁智能Luca、月之暗面Kimi和智谱清言，则错误地认为13.11更大。例如，Luca声称13.11比13.8多出了0.31，因此13.11更大。这种明显的计算错误让人大跌眼镜。

错误解析：为什么会出现这样的误判

对于这些错误，技术专家分析指出，大模型在处理这类问题时可能会受到训练数据的影响。大模型通常接触到的数字更多出现在软件版本号、股票价格或汇率等场景中，而非单纯的数值比较。因此，它们可能未能正确理解需要进行双精度浮点运算的情境。

此外，大模型在处理输入词和标点符号时也可能出现问题，特别是在向量化排序过程中。例如，某些模型可能忽略了小数点作为数字一部分的重要性，导致最终输出的结果出现偏差。

ChatGPT3.5的表现：差点“翻车”

值得注意的是，即使是像ChatGPT3.5这样的国际顶尖大模型，也未能完全避免错误。在初次回答时，ChatGPT3.5同样错误地认为13.11大于13.8。但在进一步追问下，它很快意识到自己的错误，并纠正了答案，最终正确指出13.8更大。

总结与反思

这次事件不仅揭示了大模型在处理基础数学问题上的不足，也提醒我们，即便是最先进的技术工具，也并非万无一失。未来，如何提高大模型的理解能力和准确性，仍然是一个值得深入研究的课题。同时，这也提醒我们在依赖AI工具时，仍需保持一定的批判性思维，确保信息的准确性和可靠性。

© 版权声明

文章版权归作者所有，未经允许请勿转载。

相关文章

国内首款多模态AI交互四足机器人发布：蔚蓝科技BabyAlpha A2与人形机器人即将量产

国内首款多模态AI交互四足机器人发布：蔚蓝科技BabyAlpha A2与人形机器人即将量产

7个月前

09.9K6.4K

MidJourney AI作图程序使用指南及实用技巧

MidJourney AI作图程序使用指南及实用技巧

1个月前

05.7K3.4K

多所高校引入高性能AI模型DeepSeek2025，助力教育智能化

多所高校引入高性能AI模型DeepSeek2025，助力教育智能化

2个月前

02.8K5.4K

MidJourney 最新设置参数解析及优化技巧

MidJourney 最新设置参数解析及优化技巧

6个月前

09.3K4.8K

暂无评论

none

暂无评论...