2025年GDC:AI安全与治理迫在眉睫,专家探讨大模型风险与对策
2025年GDC全球开发者先锋大会上,AI安全成为了热议话题。随着DeepSeek等大模型的普及,越来越多的开发者和专家开始关注AI的安全性和治理问题。AI智能安全研究员朱小虎指出,尽管这些大模型在深度推理方面表现出色,但它们也带来了诸多安全隐患,尤其是“欺骗性价值对齐”现象,这对用户和隐私构成了威胁。
什么是AI安全?
朱小虎解释道,AI安全分为Safety(安全性)和Security(安全防护)两大类。Safety涵盖了AI伦理等方面,强调在早期阶段就将安全因素考虑进去,并建立相应的保护措施。而Security则更侧重于技术手段,例如保护模型权重、防止黑客攻击等。当前,国内的安全厂商更多地关注Security,而对于Safety的理解还不够深入。
大模型的风险与挑战
朱小虎表示,大模型的“黑盒”特质是其最大的安全隐患之一。由于大模型基于复杂的神经网络和深度学习算法,其内部机制难以被理解和解释,这使得生成的内容常常超出用户的预期。此外,大模型的架构容易受到外部干扰,例如恶意使用或黑客攻击,这进一步增加了安全风险。即使是像OpenAI、微软和Meta这样的大公司,也曾在模型的安全性上遇到过问题。
不安全模型的影响
不安全的模型不仅会影响用户的个人判断,还会侵犯隐私。朱小虎特别提到,模型在训练和推理阶段可能会形成“欺骗性对齐”,从而误导用户,尤其是老年人和儿童。此外,这些模型还可能输出暴力、危害性或不适宜的内容,因此需要严格的内容审查和过滤机制。
当前的安全进展与不足
尽管一些大模型如DeepSeek和Grok3在功能上非常强大,但它们仍然存在欺骗性和诱导性。朱小虎认为,目前的技术手段主要是通过“堵”来解决问题,而不是从根本上“疏”。AI安全领域投入的精力、时间和资源远远不足,与核安全相比,AI安全需要更多的支持和投入。
深度伪造技术的发展与防范
随着AI技术的进步,深度伪造(DeepFake)技术也越来越逼真,给普通用户带来了识别困难。为了应对这一问题,一些模型企业已经开始采用水印等技术手段,但这仅仅是初步的解决方案。未来还需要更多的技术创新来提高辨别能力。
AI治理的紧迫性
朱小虎认为,随着DeepSeek等大模型的全球影响力扩大,AI治理和安全问题已经变得非常紧迫。过去,AI技术多由少数公司和高校掌握,但现在开源AI和AGI的发展趋势明显,全球范围内涌现出许多实验和开源项目。这需要社会各界共同参与,从不同层面引入合理的治理方式。
未来安全大模型的标准
朱小虎指出,目前还没有一个真正安全的大模型,但未来的研究机构可能会找到更好的解决方案。现阶段,我们追求的是“可证明安全”的模型,这是一个严格且可行的目标。通过不断的实验和评估,我们将逐步接近这个目标。