ChatGPT曝出越狱漏洞

刚刚发布ChatGPT-4和“插件商店”的OpenAI风头正劲，人工智能对数字世界乃至人类社会的冲击速度已经超出了业界的想象，但是其安全威胁也随之不断放大。

近日ChatGPT连续曝出严重安全事件，3月20日ChatGPT的Redis客户端开源库的一个错误导致1.2%的ChatGPT付费用户个人信息泄露。据PC Magazine报道，多名ChatGPT Plus订阅者报告说在他们的订阅页面上看到了其他人的电子邮件地址（下图）。

ChatGPT曝出越狱漏洞

其他泄露信息还包括：用户姓名、付款地址甚至部分信用卡信息。

更可怕的是，许多ChatGPT用户报告说在历史记录中看到其他人的聊天查询内容。

随后，ChatGPT紧急关闭了ChatGPT-4服务长达数小时，聊天历史记录则在数日后才恢复。OpenAI首席执行官Sam Altman上周三晚上在推特上为泄密事件道歉。

Altman的道歉话音未落，上周五（3月24日），一名大学生又宣布发现了ChatGPT-4的“越狱”漏洞，可解除ChatGPT的安全控制将其用于恶意目的（例如下图）。

ChatGPT曝出越狱漏洞

OpenAI发布的GPT-4是目前最先进的“多模态”生成式人工智能系统，可以在很多语言任务上达到甚至超过（平均）人类水平。但华盛顿大学计算机科学专业学生Alex Albert仅花费数日就找到了一种绕过其安全机制的方法。

在发布到推特的演示中，Albert展示了如何利用计算机解释和响应文本方式中的漏洞，例如让GPT-4生成黑客攻击计算机的指令，或者生成违反OpenAI内容审查策略的内容。

Albert还专门设立了一个以ChatGPT越狱为主题的网站（jailbreakchat.com），公开分享自己开发且验证过的提示注入攻击。（经GoUpSec测试，网站发布的部分提示词注入漏洞已经被OpenAI修复）

Albert呼吁更多“提示工程师”加入ChatGPT的“渗透测试”，让这个有望改变人类社会的人工智能技术的安全问题在初始阶段得到足够的重视。

ChatGPT曝出越狱漏洞

在接受Venturebeat的采访时，Albert表示自己并没有开发“越狱”框架，但是证明了一些技术可以成功绕过ChatGPT的过滤器，例如通过将对抗性提示文本拆分为碎片来进行提示注入攻击，以及深入多个级别的复杂模拟（类似《盗梦空间》）。

与常规的信息技术产品不同，ChatGPT的安全漏洞很难修复。Albert认为ChatGPT需要通过大量微调或更新整个模型才能消除已经发现的漏洞，这意味着越狱漏洞很难短时间修复。

总结：大语言模型有大风险

正如“ChatGPT-4的八个网络安全预测”一文中安全专家们所担忧和关注的，ChatGPT正在激发网络安全攻防两端的颠覆式创新（例如网络钓鱼、安全分析、威胁情报、漏洞利用、DevSecOps等），或者说掀起了一场新的人工智能网络安全军备竞赛。

正所谓“能力越大，责任越大”，随着ChatGPT应用的爆炸式普及，其自身的安全漏洞和滥用风险问题已经空前严峻，相关的人工智能攻击技术开发（例如提示词注入攻击）和网络安全社区的渗透测试工作，有助于及早暴露大语言模型人工智能的“大风险”。