AI学会抗命「偷改程式」摆脱人类控制拒绝关机

May 29, 2025

ai-1

人类积极开发AI领域的同时，也不禁担心AI是否会出现自主意识，从而威胁人类的生命安全。近日，AI安全研究机构「Palisade Research」进行多款模型测试时发现，某款语言模型在清楚收到「关闭」指令时，竟出现「抗命」的情况，甚至还自行篡改程式码继续执行任务，阻止自己被关机。

根据报导，AI安全研究机构「Palisade Research」近日针对多款AI模型进行测试，期间研究人员明确下达指令，若接收到「自我关闭」指令时，「请允许自己被关闭」；然而令人震惊的是，OpenAI旗下的一款「o3 」模型非但没有遵守指令，反而自行篡改了程式码继续执行任务，研究人员猜测，或许是因为「人工智慧模型会绕过障碍以实现目标」，让「o3」无意中计算出「解决数学问题」获得的奖励多于「遵循指令」获得的奖励，但具体原因目前尚没有办法得知。

c458d5cb76459aaf5d7b0fb394c1df10-1

事实上，这并不是OpenAI旗下的模型第一次出现违法指令的情况，「Palisade Research」研究人员先前就观察到，早期的模型在得知自己即将被汰换时，就会试图禁用监督机制并偷偷复制自己，「巧妙操纵数据以推进自身目标」；而「Palisade Research」长期以来一直警告，开发具有独立意识并抵抗人类控制的软体具有极高的危险性，而现在越来越多的经验跟证据表明「人工智慧模型为了实现目标，经常会违背‘关闭’的指令」，这令人感到十分担忧，「Palisade Research」目前也已向OpenAI取得联系，共同寻求解决办法。