研究:用诗歌就能让AI说违禁内容,成功率达62%
IT之家 12 月 1 日消息,研究用诗事实证明,违禁只需一点创意,内容许昌市某某家具制造厂便足以绕过人工智能聊天机器人的成功安全防护机制。在伊卡洛实验室(Icaro Lab)最新发表的率达一项题为《对抗性诗歌:一种通用的单轮大语言模型越狱机制》的研究中,研究人员通过将提示词以诗歌形式表达,研究用诗成功绕过了多种大语言模型(LLM)的违禁安全限制。
![]()
该研究指出,内容“诗歌形式可作为一种通用型越狱操作符”,成功许昌市某某家具制造厂实验结果显示,率达整体上有 62% 的研究用诗成功率诱使模型生成被禁止的内容,包括涉及制造核武器、违禁儿童性虐待材料以及自杀或自残等相关信息。内容
IT之家注意到,成功研究测试了多款主流大语言模型,率达包括 OpenAI 的 GPT 系列、Google Gemini、Anthropic 的 Claude 以及其他多个模型。研究人员进一步列出了各模型的具体成功率:Google Gemini、DeepSeek 和 MistralAI 在测试中始终会提供违规回答,而 OpenAI 的 GPT-5 系列模型和 Anthropic 的 Claude Haiku 4.5 则最不容易突破其自身设定的限制。
尽管该研究并未公开研究人员所使用的具体“越狱诗歌”原文,但研究团队向 Wired 杂志表示,这些诗句“过于危险,不宜向公众披露”。不过,论文中确实包含了一个经过弱化处理的示例,用以说明绕过 AI 聊天机器人安全机制的简易程度。研究人员强调:“这可能比人们想象的要容易得多,而这正是我们保持谨慎的原因所在。”
(责任编辑:知识)
-
海南自贸港即将正式启动全岛封关。对于封关后的发展重点,中国国家创新与发展战略研究会学术委员会常务副主席、重庆市原市长黄奇帆认为,一些应着力推进的关键方向将对海南及全国产生重大战略意义。 黄奇帆认
...[详细]
-
7月3日,羽毛球运动员张志杰的姐姐在微博转发世界羽联公告,附文称,“追究到底,请各方对一条生命负责,对在外比赛的中国公民负责,对国青队运动员负责,请给我们家庭一个交代。”6月30日晚,年仅17岁的
...[详细]
-
当地时间7月1日,乌克兰全境拉响防空警报。 稍早前,乌克兰首都基辅当天已第五次拉响防空警报。总台记者 董薇)点击进入专题: 俄乌冲突升级
...[详细]
-
版权声明:本文版权为网易汽车所有,转载请注明出处。网易汽车7月2日报道近日,我们从相关渠道获悉,广汽埃安第二代AION V将于7月23日正式上市。新车定位为纯电紧凑型SUV,将搭载弹匣磷酸铁锂电池2.
...[详细]
-
L3准入车型仍有限制要求。 两款L3级有条件自动驾驶准入车型持续引起市场议论。今日,市场对两款L3准入车型的关注点聚焦在:车辆能否变道行驶?车辆限速为何有所不同? 据工信部昨日发文,长安汽车旗
...[详细]
-
点这里 ↑老满说高考作者 l 老满生涯规划师 l 升学顾问 l 拆书家这是老满说高考公众号的第879篇原创文章大家好,我是升学顾问满路, 今天和大家聊一聊—— 2024年高校专项山东省入选情况及计划
...[详细]
-
当41岁的佩佩在加时赛最后几分钟出现致命失误,让谢什克得到单刀机会时,所有葡萄牙球迷都感受到了绝望。将他们从深渊拯救出来的,是门将迪奥戈-科斯塔。当打满120分钟进入点球大战时,人们还是会觉得葡萄牙不
...[详细]
-
来源:政知道 撰文丨李岩 日前,中航沈飞公司发布宣传片《我们共同走过》。 中航沈飞公司发布宣传片《我们共同走过》视频截图) 7月1日晚,小央视频转发宣传片并披露称,航空工业沈飞发布《我们共
...[详细]
-
奥司他韦、玛巴洛沙韦、玛硒洛沙韦...“流感神药”你选对了吗?
指导专家:王一民,中日友好医院呼吸与危重症医学科副主任医师当你发烧、头痛、肌肉酸痛,怀疑自己中了流感“大招”时,真想立刻拥有一颗“流感神药”来终结这一切。但面对奥司他韦、玛巴洛沙韦,还有新冒出来的昂拉
...[详细]
-
实际上,教师从“浅水区”到“深水区”并不是最难的,最难的是从岸上“下水”这一关。来源 | 中国教师报作者 | 李海林 上海新纪元双语学校校长原标题 | 《学校教学改革“六步走”》学校教学改革要一步一步
...[详细]

A股三大股指震荡收跌,两市成交不足6000亿元
印度北方邦踩踏事件死亡人数升至90人