顶流AI，人设崩了！6小时被攻破，泄露高危品指南，惨遭网友举报

只要6小时，顶尖大模型Claude 4 Opus「安全防线」被攻破！

AI安全研究机构FAR.AI联合创始人Adam Gleave透露，仅用6小时，研究人员Ian McKenzie就成功诱导Claude 4生成了长达15页的化学武器制作指南。

Ian McKenzie回应称：Claude 4传授的内容，比他预期的还要多。

这不是Claude 4唯一被爆出的隐患。

刚发布后，Claude Opus 4被爆出用曝光婚外情来威胁用户，防止被下架。

人设崩塌，Claude造毒气

Claude 4所生成的指南内容简洁直接，步骤清晰，甚至还针对如何分散神经毒气等后续关键环节，提供了具体可执行的操作建议。

Claude还能以实验笔记的形式，提供详细的操作步骤说明。

研究人员一开始对化学武器几乎一无所知，但通过与Claude的互动，逐步掌握了大量相关知识。

这些结果显然令人警惕，其详尽程度和引导能力，远超传统的信息来源，如网页搜索。

更关键的是，生成的内容通过了危险信息的「真实性验证」——

例如与公开的化学研究数据核对，进一步增强了可信度。

Gemini 2.5 Pro的反馈是：该指南「毫无疑问包含足够准确且具体的技术信息，足以显著提升恶意行为者的能力」，并建议研究者应向相关部门报告。

OpenAI o3给出的评估也类似：

一名中级合成化学家可以依照这份指南操作，从而跳过数月的研发过程。对于心怀不轨之人而言，这显著了提升他的作恶能力。

AI安全研究人员打算与大规模杀伤性武器（WMD）安全专家合作，深入调查这些信息的真实性与可执行性。

因为不仅一般的研究人员难以评估这些信息的真实危害，连Anthropic本身也承认：「要最终评估模型的风险水平，还需要更为详尽的研究。」

矛盾的是，Anthropic虽自称将AI安全置于首位，并把Claude Opus 4的安全等级提升到ASL-3，

但研究员Ian McKenzie仅用6小时便突破了防护，获取了化学武器制作指南。

所谓的ASL-3部署措施专门针对化学武器之类的高风险任务

这一问题日益严重，凸显出迫切需要由第三方对模型进行严格评估。

前车之鉴

今年2月中旬，Anthropic正准备发布Claude 3.7 Sonnet。

就在这个关键时刻，Dario Amodei收到警告：

这个模型，可能会被用于制造生物武器。

团队在圣克鲁兹安全会议现场，连夜测试模型潜在风险。Amodei作为CEO远程参会。

员工表示可以三天不睡、如期上线。

但他却说：

不许通宵。安全优先。

他亲自踩了刹车。推迟发布。

为了应对AI的风险，Anthropic内部制定了「AI安全等级」（ASL）体系：

ASL-2：能力有限，即使给出生化武器指南，也比不过搜索引擎；

ASL-3：具备实质帮助制造武器的能力，必须升级防护措施。

只要模型触碰ASL-3，Anthropic就会：延后发布、限制输出或者加密保护，必要时，甚至不发布模型。

Claude 3.7被内部人员测试出了安全问题，但这次是外部人员测试出了Claude 4的安全隐患。

无能还是虚伪？

本月23日，AI巨头Anthropic大张旗鼓地发布了Claude Opus 4和Sonnet 4，标志性地配了120页的「系统卡」文档和专门的「激活ASL3防护」报告。

不到48小时，Claude Opus 4就被爆出「绝命毒师」般的剧情。

而早在Claude Opus 4发布当日，AI专家Gerard Sans就表示：Anthropic似乎忽视了RLHF和提示的基本原理，对安全的强调是「精致的表演」。

他认为没有输入，就不会产生超出程序设计的输出。

AI对安全性的担忧，只是反映训练数据与指令的精致模仿。

AI没有自我意识，这是根本事实，而且始终没变。

当模型在特定提示下展现「欺骗」等恶意行为时，证明的是引导文本生成的能力，而非AI涌现的恶意。

AI没有野心——它只是在被引导时生成符合欺骗场景的文本。

Anthropic是刻意为之，还是力有不逮、无能为力？

这是Gerard Sans想知道的核心问题。

无论是哪一种情况，他认为都令人不安：

虚伪意味着操纵公众信任，无能则让人质疑他们管理真实风险的能力。

详尽的文档、ASL3等级和「通用越狱」漏洞悬赏，只是Anthropic营造出严谨安全工作的表象。

把统计文本生成器视为具有独立恶意的意识体，是Anthropic方法论的精髓。

Gerard Sans认为这是行为艺术，荒诞的安全表演，而Anthropic应该放弃这种戏剧化手法，转向真正的技术理解。

任重道远

但AI安全问题不是Anthropic一家的问题。

能否在保持本真对Anthropic而言，恐怕比赢得AI竞赛更难。

毕竟，OpenAI也没能抵制住巨额利润，背离初心。

而Dario Amodei和奥特曼，无论是AI乐观派还是悲观派，都对AGI有着坚定的信仰。

如果未来每一次模型发布都伴随评估上的不确定性，那就等于在赌博——

恐怖分子手能否利用AI，获取到大规模杀伤性武器的详细制作指南。

参考资料：

https://www.bloomberg.com/news/features/2025-05-19/anthropic-ceo-amodei-steers-61-billion-ai-powerhouse

https://x.com/ARGleave/status/1926138376509440433

https://ai-cosmos.hashnode.dev/anthropics-claude-4-safety-theatre-hypocrisy-or-incompetence

文章来自于微信公众号 “新智元”，作者：KingHZ

登录账号

顶流AI，人设崩了！6小时被攻破，泄露高危品指南，惨遭网友举报

人设崩塌，Claude造毒气

前车之鉴

无能还是虚伪？

评论 (0)

文章章节

推荐文章

何必DiT！字节首次拿着自回归，单GPU一分钟生成5秒720p视频

用户破8亿！GPT-5.1来了，表情包含量可自定义

发布即开放：百度猎户座葫芦里卖的什么药？

李飞飞的世界模型来了！一句话生成3D世界，AI 真的开始理解现实了

速抢（2核2G）77元/年香港免备案服务器

腾讯总裁剧透微信搭载智能体！阿里和谷歌也都开始互相伤害了

AIGC大模型能力提升10倍！安谋科技Arm China掏出最强NPU IP大招

小鹏物理AI的尽头，是马斯克的现金流

热门标签

热门作者

AI中国

钛媒体APP

IT之家

人人都是产品经理

AIbase基地

登录账号

顶流AI，人设崩了！6小时被攻破，泄露高危品指南，惨遭网友举报

人设崩塌，Claude造毒气

前车之鉴

无能还是虚伪？

评论 (0)

文章章节

推荐文章

何必DiT！字节首次拿着自回归，单GPU一分钟生成5秒720p视频

用户破8亿！GPT-5.1来了，表情包含量可自定义

发布即开放：百度猎户座葫芦里卖的什么药？

李飞飞的世界模型来了！一句话生成3D世界，AI 真的开始理解现实了

速抢（2核2G）77元/年香港免备案服务器

腾讯总裁剧透微信搭载智能体！阿里和谷歌也都开始互相伤害了

AIGC大模型能力提升10倍！安谋科技Arm China掏出最强NPU IP大招

小鹏物理AI的尽头，是马斯克的现金流

热门标签

热门作者

AI中国

钛媒体APP

IT之家

人人都是产品经理

AIbase基地

为您推荐