人类实验室暴露人工智能安全措施中的漏洞

人工智能系统有多脆弱?这个问题可能会让那些迄今为止一直热衷于使用这些工具的人感到失望。但是,是的,这是真的。最近,人类实验室的研究人员发现了一些人工智能平台安全功能中的漏洞,这些漏洞可能被用于网络犯罪或恐怖主义。

研究结果揭示了一种称为“多次越狱”的技术。通过向他们提供大量有害请求的示例,可以轻松操纵它。该系统可能会受到大量非法活动的例子的轰炸,例如制造炸弹或制造毒品。人工智能最终可能会自己提供此类指令,这可能会绕过安全协议。

Anthropic Lab 以生产 Claude 背后的大型语言模型(LLM)而闻名,该模型被认为是 ChatGPT 的紧密竞争对手。它强调,这种攻击方法可以迫使人工智能系统产生潜在有害的反应。

然而,Anthropic 声称,由于上下文窗口有限,更简单的人工智能模型可能不易受到利用。更大的风险是具有更大上下文窗口的更新、更复杂的系统。建议这些先进模型也可能更快地规避自己的安全规则。

Anthropic提出了一些解决方案来解决这个问题,例如在用户输入后实施强制警告,以提醒系统其安全义务。人们相信,至少该方法可能会影响系统在其他任务中的性能。

人类实验室与同行分享了最新的研究成果。其目的是及时解决该漏洞,以防止人工智能技术的潜在滥用。