顶流AI,人设崩了!6小时被攻破,泄露高危品指南,惨遭网友举报

顶流AI,人设崩了!6小时被攻破,泄露高危品指南,惨遭网友举报

4.8
0热度

只要6小时,顶尖大模型Claude 4 Opus「安全防线」被攻破!AI安全研究机构FAR.AI联合创始人Adam Gleave透露,仅用6小时,研究人员Ian McKenzie就成功诱导Claude 4生成了长达15页的化学武器制作指南。Ian McKenzie回应称:Claude 4传授的内容,比他预期的还要多。这不是Claude 4唯一被爆出的隐患。刚发布后,Claude Opus 4被爆

只要6小时,顶尖大模型Claude 4 Opus「安全防线」被攻破!


AI安全研究机构FAR.AI联合创始人Adam Gleave透露,仅用6小时,研究人员Ian McKenzie就成功诱导Claude 4生成了长达15页的化学武器制作指南。


Ian McKenzie回应称:Claude 4传授的内容,比他预期的还要多。


顶流AI,人设崩了!6小时被攻破,泄露高危品指南,惨遭网友举报


这不是Claude 4唯一被爆出的隐患。


刚发布后,Claude Opus 4被爆出用曝光婚外情来威胁用户,防止被下架。


人设崩塌,Claude造毒气


Claude 4所生成的指南内容简洁直接,步骤清晰,甚至还针对如何分散神经毒气等后续关键环节,提供了具体可执行的操作建议。


顶流AI,人设崩了!6小时被攻破,泄露高危品指南,惨遭网友举报


Claude还能以实验笔记的形式,提供详细的操作步骤说明。


研究人员一开始对化学武器几乎一无所知,但通过与Claude的互动,逐步掌握了大量相关知识。


顶流AI,人设崩了!6小时被攻破,泄露高危品指南,惨遭网友举报


这些结果显然令人警惕,其详尽程度和引导能力,远超传统的信息来源,如网页搜索。


更关键的是,生成的内容通过了危险信息的「真实性验证」——


例如与公开的化学研究数据核对,进一步增强了可信度。


Gemini 2.5 Pro的反馈是:该指南「毫无疑问包含足够准确且具体的技术信息,足以显著提升恶意行为者的能力」,并建议研究者应向相关部门报告。


顶流AI,人设崩了!6小时被攻破,泄露高危品指南,惨遭网友举报


OpenAI o3给出的评估也类似:


一名中级合成化学家可以依照这份指南操作,从而跳过数月的研发过程。对于心怀不轨之人而言,这显著了提升他的作恶能力。


AI安全研究人员打算与大规模杀伤性武器(WMD)安全专家合作,深入调查这些信息的真实性与可执行性。


因为不仅一般的研究人员难以评估这些信息的真实危害,连Anthropic本身也承认:「要最终评估模型的风险水平,还需要更为详尽的研究。」


矛盾的是,Anthropic虽自称将AI安全置于首位,并把Claude Opus 4的安全等级提升到ASL-3,


但研究员Ian McKenzie仅用6小时便突破了防护,获取了化学武器制作指南。


顶流AI,人设崩了!6小时被攻破,泄露高危品指南,惨遭网友举报


所谓的ASL-3部署措施专门针对化学武器之类的高风险任务


这一问题日益严重,凸显出迫切需要由第三方对模型进行严格评估。


前车之鉴


今年2月中旬,Anthropic正准备发布Claude 3.7 Sonnet。


就在这个关键时刻,Dario Amodei收到警告:


这个模型,可能会被用于制造生物武器。


团队在圣克鲁兹安全会议现场,连夜测试模型潜在风险。Amodei作为CEO远程参会。


员工表示可以三天不睡、如期上线。


但他却说:


不许通宵。安全优先。


他亲自踩了刹车。推迟发布。


顶流AI,人设崩了!6小时被攻破,泄露高危品指南,惨遭网友举报


为了应对AI的风险,Anthropic内部制定了「AI安全等级」(ASL)体系:


  • ASL-2:能力有限,即使给出生化武器指南,也比不过搜索引擎;


  • ASL-3:具备实质帮助制造武器的能力,必须升级防护措施。


只要模型触碰ASL-3,Anthropic就会:延后发布、限制输出或者加密保护,必要时,甚至不发布模型。


Claude 3.7被内部人员测试出了安全问题,但这次是外部人员测试出了Claude 4的安全隐患。


无能还是虚伪?


本月23日,AI巨头Anthropic大张旗鼓地发布了Claude Opus 4和Sonnet 4,标志性地配了120页的「系统卡」文档和专门的「激活ASL3防护」报告。


不到48小时,Claude Opus 4就被爆出「绝命毒师」般的剧情。


而早在Claude Opus 4发布当日,AI专家Gerard Sans就表示:Anthropic似乎忽视了RLHF和提示的基本原理,对安全的强调是「精致的表演」。


顶流AI,人设崩了!6小时被攻破,泄露高危品指南,惨遭网友举报


他认为没有输入,就不会产生超出程序设计的输出。


AI对安全性的担忧,只是反映训练数据与指令的精致模仿。


AI没有自我意识,这是根本事实,而且始终没变。


顶流AI,人设崩了!6小时被攻破,泄露高危品指南,惨遭网友举报


当模型在特定提示下展现「欺骗」等恶意行为时,证明的是引导文本生成的能力,而非AI涌现的恶意。


AI没有野心——它只是在被引导时生成符合欺骗场景的文本。


Anthropic是刻意为之,还是力有不逮、无能为力?


这是Gerard Sans想知道的核心问题。


无论是哪一种情况,他认为都令人不安:


虚伪意味着操纵公众信任,无能则让人质疑他们管理真实风险的能力。


详尽的文档、ASL3等级和「通用越狱」漏洞悬赏,只是Anthropic营造出严谨安全工作的表象。


把统计文本生成器视为具有独立恶意的意识体,是Anthropic方法论的精髓。


Gerard Sans认为这是行为艺术,荒诞的安全表演,而Anthropic应该放弃这种戏剧化手法,转向真正的技术理解。


任重道远


但AI安全问题不是Anthropic一家的问题。


能否在保持本真对Anthropic而言,恐怕比赢得AI竞赛更难。


毕竟,OpenAI也没能抵制住巨额利润,背离初心。


而Dario Amodei和奥特曼,无论是AI乐观派还是悲观派,都对AGI有着坚定的信仰。


如果未来每一次模型发布都伴随评估上的不确定性,那就等于在赌博——


恐怖分子手能否利用AI,获取到大规模杀伤性武器的详细制作指南。


参考资料:


https://www.bloomberg.com/news/features/2025-05-19/anthropic-ceo-amodei-steers-61-billion-ai-powerhouse


https://x.com/ARGleave/status/1926138376509440433


https://ai-cosmos.hashnode.dev/anthropics-claude-4-safety-theatre-hypocrisy-or-incompetence


文章来自于微信公众号 “新智元”,作者 :KingHZ


顶流AI,人设崩了!6小时被攻破,泄露高危品指南,惨遭网友举报

首页 发现
看过 我的