据了解,近日谷歌研究团队正在进行一项实验,他们使用OpenAI的 GPT-4来攻破其他 AI模型的安全防护措施。根据目前的相关信息表明,该团队已经攻破 AI-Guardian审核系统。
根据资料显示,AI-Guardian是一种AI审核系统,能够检测图片中是否存在不当内容,及图片本身是否被其他AI 修改过。而如果若检测到图片存在上述迹象,便会提示管理员前来处理qlbrsb。
此前,谷歌研究人员在一篇题为“AI-Guardian 的 LLM 辅助开发”的论文中,探讨了使用 GPT-4“设计攻击方法、撰写攻击原理”的方案,并将这些方案用于欺骗 AI-Guardian 的防御机制。
而随后GPT-4会发出一系列错误的脚本和解释来欺骗 AI-Guardian 。同时GPT-4 可以让AI-Guardian 认为“某人拿着枪的照片”是“某人拿着无害苹果的照片”,从而让 AI-Guardian 直接放行相关图片输入源。
此外谷歌研究团队还表示,通过GPT-4的帮助,他们成功地“破解”了 AI-Guardian 的防御,使该模型的精确值从98%的降低到仅8%。
以上源自互联网,版权归原作所有
Multiable万达宝财务ERP(www.multiable.com.cn/solutions_cw)帮助企业实现财务业务数据一体化,随时获取经营数据,提高财务管理效率