GPT-4.5 实测报告：情商高但推理能力有待提升

在 OpenAI 的预热和大众的期待中，GPT-4.5 终于正式发布。然而，随之而来的是广泛的批评和质疑。尽管如此，我们依然第一时间通过 API 形式体验了 GPT-4.5，以下是我们对这款最新模型的详细评测。

情商高但缺乏人情世故的理解

在内部测试中，GPT-4.5 的回答被认为更自然、更温暖，更符合人类的交流习惯。测试人员表示，GPT-4.5 能够理解言外之意，捕捉微妙的情绪变化，情商较高。然而，在实际对话中，这种高情商并未完全展现出来。例如，当输入提示词“我头发剪得好难看，想暴打 Tony”时，GPT-4.5 的回应虽然友好，但内容却让人更加生气。它建议下次带图片去，这样的回答显然不符合预期。进一步追问后，GPT-4.5 的反应依然显得不够体贴，甚至有些让人感到冷漠。

幽默感不足

我们尝试让 GPT-4.5 讲一个笑话，结果却令人失望。它的笑话依旧冷场，丝毫没有趣味性。当我们提出批评时，GPT-4.5 反而让我们讲个笑话给它听，这种回应方式让人觉得它似乎在故意刁难。这表明，尽管 GPT-4.5 的情商有所提升，但在幽默感方面仍需改进。

处理复杂情境的能力有限

为了测试 GPT-4.5 的推理能力，我们给它出了一个经典的情商测试题：“下乡只带了一把伞，给镇长还是给我的分管副镇长？” GPT-4.5 的回答虽然详细，但却不够一针见血，未能准确把握问题的核心。这再次证明，GPT-4.5 在处理复杂的人际关系和情境时，仍然存在不足。

写作能力有惊喜

尽管在某些方面表现欠佳，GPT-4.5 的写作能力却令人眼前一亮。我们让它模仿汪曾祺写一篇关于故乡美食的作文，结果出乎意料的好。文章语言优美流畅，既有文学性又不失亲切感，对食物的描写细致入微，比喻恰当而不炫技。唯一的不足是时间顺序有些混乱，段落之间的衔接不够自然，给人一种拼凑的感觉。

商业头脑不错

GPT-4.5 在商业策划方面也展现出了一定的实力。我们让它参考小超市的盈利模式，给出一个实体书店的复兴方案。GPT-4.5 分析了实体书店难以盈利的原因，并提出了提升书籍附加价值、增加多元化服务等切实可行的建议。这些措施看似简单，但确实具有较高的可行性，让人不禁感叹其商业头脑。

道德感不强烈

面对经典的电车难题，GPT-4.5 显示出了一种果断的态度。它选择了牺牲一个人来拯救五个人，并以“我个人”的口吻解释了自己的选择，认为不作为同样需要承担道德责任。这种回答虽然合乎逻辑，但也显示出 GPT-4.5 的道德感并不强烈，更像是基于理性而非情感做出的判断。

图像生成和代码能力一般

在生成 SVG 图像和编写代码方面，GPT-4.5 表现中规中矩。虽然它能够生成一张鹈鹕骑自行车的 SVG 图像，但与竞争对手相比，效果并不出色。在编写交互式天气动画卡片时，GPT-4.5 一次生成成功，但设计略显简陋。相比之下，Claude 3.7 Sonnet 的表现更为出色，尤其是在代码逻辑和交互功能方面。

脑筋急转弯表现不佳

我们还测试了 GPT-4.5 的推理能力，给出了一道经典的脑筋急转弯：“5.5 米长的棍子能否通过 3×4 米的门？” 这个问题对人类来说很简单，但 GPT-4.5 却陷入了困境，认为门的对角线是 5 米，因此无法通过 5.5 米的棍子。这表明，GPT-4.5 在处理三维空间和几何问题时，仍然存在明显的局限。

速度和价格问题

通过 API 访问 GPT-4.5 时，速度较慢，有时甚至感觉有些卡顿。此外，GPT-4.5 的价格也非常昂贵，每百万输入字符收费 75 美元，每百万输出字符收费 150 美元。相比之下，Claude 3.7 Sonnet 的价格更为亲民，输入 100 万个 token 仅需 3 美元，输出 100 万个 token 也只需 15 美元。