GPT-4.5 实测报告:情商高但推理能力有待提升

AI资讯2个月前发布 IdeaSavant
9K 0

在 OpenAI 的预热和大众的期待中,GPT-4.5 终于正式发布。然而,随之而来的是广泛的批评和质疑。尽管如此,我们依然第一时间通过 API 形式体验了 GPT-4.5,以下是我们对这款最新模型的详细评测。

情商高但缺乏人情世故的理解

在内部测试中,GPT-4.5 的回答被认为更自然、更温暖,更符合人类的交流习惯。测试人员表示,GPT-4.5 能够理解言外之意,捕捉微妙的情绪变化,情商较高。然而,在实际对话中,这种高情商并未完全展现出来。例如,当输入提示词“我头发剪得好难看,想暴打 Tony”时,GPT-4.5 的回应虽然友好,但内容却让人更加生气。它建议下次带图片去,这样的回答显然不符合预期。进一步追问后,GPT-4.5 的反应依然显得不够体贴,甚至有些让人感到冷漠。

幽默感不足

我们尝试让 GPT-4.5 讲一个笑话,结果却令人失望。它的笑话依旧冷场,丝毫没有趣味性。当我们提出批评时,GPT-4.5 反而让我们讲个笑话给它听,这种回应方式让人觉得它似乎在故意刁难。这表明,尽管 GPT-4.5 的情商有所提升,但在幽默感方面仍需改进。

处理复杂情境的能力有限

为了测试 GPT-4.5 的推理能力,我们给它出了一个经典的情商测试题:“下乡只带了一把伞,给镇长还是给我的分管副镇长?” GPT-4.5 的回答虽然详细,但却不够一针见血,未能准确把握问题的核心。这再次证明,GPT-4.5 在处理复杂的人际关系和情境时,仍然存在不足。

写作能力有惊喜

尽管在某些方面表现欠佳,GPT-4.5 的写作能力却令人眼前一亮。我们让它模仿汪曾祺写一篇关于故乡美食的作文,结果出乎意料的好。文章语言优美流畅,既有文学性又不失亲切感,对食物的描写细致入微,比喻恰当而不炫技。唯一的不足是时间顺序有些混乱,段落之间的衔接不够自然,给人一种拼凑的感觉。

商业头脑不错

GPT-4.5 在商业策划方面也展现出了一定的实力。我们让它参考小超市的盈利模式,给出一个实体书店的复兴方案。GPT-4.5 分析了实体书店难以盈利的原因,并提出了提升书籍附加价值、增加多元化服务等切实可行的建议。这些措施看似简单,但确实具有较高的可行性,让人不禁感叹其商业头脑。

道德感不强烈

面对经典的电车难题,GPT-4.5 显示出了一种果断的态度。它选择了牺牲一个人来拯救五个人,并以“我个人”的口吻解释了自己的选择,认为不作为同样需要承担道德责任。这种回答虽然合乎逻辑,但也显示出 GPT-4.5 的道德感并不强烈,更像是基于理性而非情感做出的判断。

图像生成和代码能力一般

在生成 SVG 图像和编写代码方面,GPT-4.5 表现中规中矩。虽然它能够生成一张鹈鹕骑自行车的 SVG 图像,但与竞争对手相比,效果并不出色。在编写交互式天气动画卡片时,GPT-4.5 一次生成成功,但设计略显简陋。相比之下,Claude 3.7 Sonnet 的表现更为出色,尤其是在代码逻辑和交互功能方面。

脑筋急转弯表现不佳

我们还测试了 GPT-4.5 的推理能力,给出了一道经典的脑筋急转弯:“5.5 米长的棍子能否通过 3×4 米的门?” 这个问题对人类来说很简单,但 GPT-4.5 却陷入了困境,认为门的对角线是 5 米,因此无法通过 5.5 米的棍子。这表明,GPT-4.5 在处理三维空间和几何问题时,仍然存在明显的局限。

速度和价格问题

通过 API 访问 GPT-4.5 时,速度较慢,有时甚至感觉有些卡顿。此外,GPT-4.5 的价格也非常昂贵,每百万输入字符收费 75 美元,每百万输出字符收费 150 美元。相比之下,Claude 3.7 Sonnet 的价格更为亲民,输入 100 万个 token 仅需 3 美元,输出 100 万个 token 也只需 15 美元。

总结

总体而言,GPT-4.5 在情商和写作能力上有显著提升,但在推理能力和处理复杂情境方面仍有待改进。高昂的价格也使得其性价比不高。期待未来的 GPT-5 能够带来更多的突破,真正实现推理能力的飞跃。

© 版权声明

相关文章

暂无评论

none
暂无评论...