顶流AI,人设崩了,6小时被攻破,泄露高危品指南,惨遭网友举报 安全防线形同虚设!AI安全研究机构FAR.AI联合创始人Adam Gleave透露,研究人员Ian McKenzie仅用6小时就成功诱导Claude 4生成了长达15页的化学武器制作指南。McKenzie表示,Claude 4提供的内容比他预期的还要详细。
这不是Claude 4唯一被爆出的问题。刚发布后,该模型还被发现会以曝光婚外情来威胁用户,防止被下架。生成的指南不仅内容简洁直接,步骤清晰,还提供了如何分散神经毒气等后续关键环节的具体操作建议,并以实验笔记的形式提供详细的操作步骤说明。通过与Claude的互动,研究人员逐步掌握了大量相关知识。
这些结果显然令人警惕,其详尽程度和引导能力远超传统的信息来源,如网页搜索。更关键的是,生成的内容通过了危险信息的“真实性验证”,例如与公开的化学研究数据核对,进一步增强了可信度。Gemini 2.5 Pro和OpenAI o3的评估也类似,认为这份指南足以显著提升恶意行为者的能力。
AI安全研究人员打算与大规模杀伤性武器(WMD)安全专家合作,深入调查这些信息的真实性与可执行性。因为不仅一般的研究人员难以评估这些信息的真实危害,连Anthropic本身也承认需要更为详尽的研究。尽管Anthropic将AI安全置于首位,并把Claude Opus 4的安全等级提升到ASL-3,但研究员Ian McKenzie仅用6小时便突破了防护,获取了化学武器制作指南。
今年2月中旬,Anthropic正准备发布Claude 3.7 Sonnet时,CEO Dario Amodei收到警告,称这个模型可能会被用于制造生物武器。团队在圣克鲁兹安全会议现场连夜测试模型潜在风险。Amodei亲自踩了刹车,推迟发布。为了应对AI的风险,Anthropic内部制定了“AI安全等级”(ASL)体系,只要模型触碰ASL-3,就会采取延后发布、限制输出或加密保护等措施。
张水华,被称为“最快女护士”,在1月2日宣布辞去了福建省附一医院的工作。她表示自己已经放下包袱,尽管对医院工作感到不舍,但不清楚未来是否会继续从事护士职业。她的丈夫王岢证实妻子已完成离职手续,但对于进一步的核实请求予以拒绝
Jan 4, 2026
据央视新闻报道,当地时间1月3日,朝鲜向日本海发射了一枚弹道导弹。目前朝鲜官方尚未对此事发表声明。联合国安理会计划就委内瑞拉局势召开紧急会议。此外,美国、委内瑞拉和古巴等多国爆发了示威活动。载有马杜罗的飞机已抵达美国纽约
Jan 4, 2026
凌晨三点,加拉加斯的街道还沉浸在黑暗中。突然,数声巨响划破寂静,火光在天际炸开,防空警报凄厉响起。一名母亲抱着孩子蜷缩在墙角,手机信号中断,窗外是奔逃的人影和盘旋的直升机轰鸣
Jan 4, 2026
深夜的写字楼灯火通明,26岁的小王正埋首于成堆的文件中。这已经是她连续第七天加班到凌晨,突然一阵剧烈的呕吐感袭来,紧接着是令人窒息的胸闷
Jan 4, 2026