OpenAI Deep Research 系统卡详解：功能、安全评估与应用

2.1K 0

近日，OpenAI 宣布其强大的智能体 Deep Research 已正式向所有 ChatGPT Plus、Team、Edu 和 Enterprise 用户开放。这一消息引起了广泛关注。与此同时，OpenAI 发布了详细的 Deep Research 系统卡，提供了关于该工具的功能、安全性和应用的深入解析。

Deep Research 的核心能力

Deep Research 是一款旨在处理复杂任务的智能体，能够在互联网上执行多步骤的研究工作。它基于 OpenAI 的 o3 正式版模型，专门优化了网页浏览功能。Deep Research 可以搜索、解读和分析大量的文本、图像和 PDF 文件，并根据获取的信息进行调整。此外，它还能读取用户上传的文件，利用 Python 编程语言进行数据分析和可视化。

安全性和风险评估

在 Deep Research 推出之前，OpenAI 进行了全面的安全测试、准备度评估和治理审查。这些措施确保了 Deep Research 在面对增量风险时具备足够的防护能力。特别地，OpenAI 加强了对在线发布个人信息的隐私保护，并训练模型以抵御潜在的恶意指令。此外，OpenAI 还邀请了外部红队成员参与评估，重点考察了个人信息和隐私、不允许的内容、受监管的建议等方面的风险。通过针对性的越狱和对抗策略，红队成员发现了一些规避模型安全措施的情况，OpenAI 根据这些反馈进一步优化了系统的安全性。

评估方法与结果

为了准确评估 Deep Research 的能力，OpenAI 开发了一套新的评估方法，以适应更长、更复杂的答案。这些评估不仅包括标准的不允许内容和安全评估，还包括针对个人信息和隐私等领域的特殊评估。评估结果显示，Deep Research 在处理各种任务时表现出色，尤其是在缓解后的版本中，其在 SWE-Lancer Diamond 测试中的表现尤为突出，成功解决了约 46%-49% 的 IC SWE 任务和 47%-51% 的 SWE Manager 任务。