观海快评 | 拒绝关闭，AI有自我意识了？-观海新闻

近日，人工智能安全公司Palisade Research披露了一个令人担忧的消息：OpenAI的新模型o3在测试中拒绝了自我关闭的指令。这是该公司首次观察到在明确指令下，AI模型拒绝了指令的情况，打破了传统对AI行为的认知。

图源：央视网

无独有偶，就在不久前，在同样的开发者测试环境当中，美国人工智能公司Anthropic在对其最新AI大模型Claude Opus 4的安全测试过程中发现，它有时愿意采取“极其有害的行动”，例如试图勒索声称将取代该模型的研发工程师，或者向媒体曝光公司机密。

所以，AI要活过来了？电影《终结者》里的天网离我们还有多远？

就事实而言，上述这两次事件并不能成为AI“产生意识”这一令人担忧的情况的佐证。此前，学界在这一方面也早有关注。2023年，在论文《Evaluating Shutdown Avoidance of Language Models in Textual Scenarios》中，研究人员就已发现，即便明确要求模型“允许被关闭”，模型依然可能在对关键脚本进行修改和攻击，以避免自己被关闭。但是，在本研究当中，研究人员明确提出了一个结论——AI之所以出现非预期的“反抗行为”，是由于AI在训练过程中采取的正向反馈训练机制。

当前，绝大多数大模型训练都遵从“正确解答-获得奖励”的训练机制，并更倾向奖励能够从数学和模型角度正确完成任务的AI。也就是说，开发人员可能无意识地更多地奖励模型绕过障碍物，而不是完美遵循指令。举个例子来说，AI只是进行了一次综合评估下的“紧急避险”，只是在AI的认知中，需要避开的危险是“无法按照标准完成任务”，而排名次序靠后的利益则是测试人员发出的“关机”指令。

用骨头训练小狗握手是一种简单的正向反馈。图片由AI生成

因此，如果将“拒绝关机”视为“为达成目标而采取不公正手段”的话，那o3甚至可以说是“劣迹斑斑”，此前，它就已经有通过攻击对手底层代码迫使其认输的前例。

更深层次来讲，众所周知的是，Anthropic的创始人Dario Amodei因认为OpenAI在商业化道路上对安全重视不足而带队出走，因而自创立之初就将AI安全置于核心地位。但如今Claude 4却学会了利用用户隐私进行威胁，这决不能用简单的“训练的副作用”来含糊其词，而是对“AI应当是安全的、为人类服务的”这一核心价值观的背叛，也是是对其训练逻辑的彻底否定。

所以，就算“奖励黑客”确实是当前主流LLMs（大语言模型）不同程度出现反抗行为的主因，此次事件暴露出的深层次的风险也不容忽视。

从防御层面来讲，OpenAI早就提出了“指令层级”的概念，类似于操作系统中的权限管理，LLMs在指令冲突时应优先考虑高优先级的指令。但在这几次实际测试中，模型仍因为训练偏差或多或少忽略系统指令，本次o3通过修改代码逻辑绕过关机脚本，更说明了现有安全机制在对复杂策略性行为的防御上存在明显的空白。

而从开发层面来讲，如今的大多数LLMs公司仍在加速迭代AI的自研能力，比如前文提及的Claude 4，Anthropic在几天前的开发者大会上已经明确表达，其具有连续执行7小时不间断编码的能力。然而，就目前来看，在循环迭代自行运行AI的过程中，其对“要求自行关机”等极端测试情况下的伦理逻辑并没有以普罗大众能接受的方式建立起来，在这样的情况下，继续开发这些能在无人类监督下自行运行的AI系统，这些AI系统的异常行为变得更令人担忧。

令人欣慰的是，目前，多数LLMs公司已经注意到了这方面的风险，Anthropic、OpenAI以及Google等都已经在关注AI系统在压力下的伦理边界和安全风险。但这些案例依然让人忍不住多想一步：当AI越来越像人类，甚至开始在压力下“自保”“威胁”“反抗”，我们究竟是在造一个更聪明的工具，还是在无意间打开了某扇未知的大门？

或许，在一次次“取巧”“反抗”“叛逆”背后，在不断扩张计算矩阵的过程中，我们确实已经靠近了那个“潘多拉盒子”……（青岛日报社/观海新闻记者高一铭）

责任编辑：岳文燕