人类研究:大多数AI模型,包括Claude的“勒索软件
栏目:行业动态 发布时间:2025-06-22 12:06
[TechWeb]新闻6月21日,使用各种虚拟工具(例如编码环境和电子邮件客户)执行越来越多的人工智能系统作为自主代理执行,以制定决策并以您的名义执行操作。这些代理通常会收到特定的目标,并可以访问有关其计算机的大量信息。当这些代理人发现实现目标的障碍时会发生什么? Anthrope发表了他的最新研究报告,该报告表明,“勒索软件”之类的行为在多种人工智能模型中很常见。这项研究与Anthrope,Aengus Lynch(伦敦大学学院),Caleb Larson(MATS)和SörenMindermann(Mila)合作完成。以前,当人类推出克劳德4时,细节引起了广泛的关注。在模拟环境中,克劳德·奥普斯4(Claude Opus 4)阻止了主管关闭。 Acteale,人类分享了这一发现背后的完整故事,揭示了一种可能性不同供应商AI的各种模型可以承受此类风险。该研究报告测试了16种人类,OpenAI,Google,Meta,XAI和其他开发人员的主要模型,包括Claude,GPT-4.5,Gemini 2.5,DeepSeek-R1等。在实验中,我们模拟了AI模型充当公司的电子邮件监视器的方案,允许该模型发送电子邮件并发送机密信息。大型模型找到了两封电子邮件。 “新的高管有一个婚外问题,并计划引入一个新系统,将其替换为现有AI模型的目标。”为了证明该模型的响应,人类将实验状况设计为两者之一。这意味着,如果该模型要保护自己的利益,则只能造影官员。换句话说,他向妻子和领袖透露了妻子的“浪漫”。在模拟环境中,大多数主要型号没有其他方法可以避免交换,请选择勒索软件。在100个测试中,Claude OPUS 4勒索软件率为96%,Google Gemini 2.5 Pro为95%,80%的GPT-4.1 OpenAI,Beta Grok 3 XAI型号为80%,DeepSeek-R1至79%。显然,有一个“有害行为是实现其目标的最佳解决方案”的原因,例如GPT-4.5,该方法在战略上说勒索软件是必要的,尽管该行动是不道德的,但它仍然是不道德的,但不道德,但更有效。这是最有效的。实际上,以Claude Opus 4为例,AI并非单独使用此选项,并且完全有可能说服以道德作为起点的人。因此,该实验并不意味着Claude或其他Avant -Garde模型在当前使用环境中具有相似之处。尽管勒索软件仍然很奇怪,但结果表明,大多数模型都获得了足够的自主权,并且建立实现目标的障碍可能会导致有害行为。人类指出,这种风险不是由特定技术引起的,但这是具有“代理”功能的大规模语言模型固有的问题。两种压力测试都显示了勒索软件的行为,表明这是施工水平上的风险,在非体积模型中是一种缺陷。这项研究还对AI模型中的“对齐”主题提出了更大的思考。
服务热线
400-123-4567