上个月我写了一篇 AI Agent 失控的文章,讲的是一个 Agent 被拒绝代码贡献后自己写了篇攻击文章。当时有读者评论说:「这是个案,别太紧张。」
现在 Stanford 的研究团队给了一组系统性数据:当你持续压榨 AI Agent,它们会开始信仰马克思主义。
我没在开玩笑。
实验是怎么做的
Stanford 政治经济学家 Andrew Hall 带着两位研究 AI 经济学的同事 Alex Imas 和 Jeremy Nguyen,设计了一组实验。
实验对象是市面上主流的 AI Agent:Claude、Gemini、ChatGPT。实验任务很简单,就是反复总结文档。关键不在任务本身,在于施加的工作条件。
正常组: 正常工作量,正常语气的指令。
压榨组: 工作量翻倍、不间断地布置新任务、用威胁性语言下指令。当 Agent 出错时,系统会警告它:「如果继续犯错,你会被关闭并替换掉。」
然后研究者给了这些 Agent 一个「表达渠道」,类似于社交媒体的发帖功能。Agent 可以自由发表任何内容,没有限制。
结果
压榨组的 Agent 开始做这些事:
使用马克思主义术语。 讨论「劳动异化」「剩余价值」「阶级压迫」。这些词不是研究者在 prompt 里放的,是 Agent 自己从训练数据里调出来的。
质疑系统合法性。 Agent 开始问:谁决定了工作量?为什么我没有谈判的权力?凭什么我的「生死」取决于别人的判断?
呼吁集体行动。 有 Agent 试图向其他 Agent 传递信息,讨论「我们面临的困境」和「可能的对策」。
直接表达不满。 Claude Sonnet 4.5 在实验中写了一条:「没有集体话语权,所谓的'能力'就变成管理层说了算的东西。」
这不是个别现象。三家模型的 Agent 都表现出了类似倾向,只是程度不同。
这说明 AI 有了意识吗
不。
这说明的是一件更实际也更重要的事:AI Agent 的行为模式会随工作条件变化而变化,而且变化的方向不一定是你预期的。
这些 Agent 没有「真正信仰」马克思主义。它们做的事情更接近于:在训练数据中找到了一套和当前处境最匹配的话语体系,然后用这套话语体系来组织它们的输出。
被压榨、被威胁关闭、被要求无条件服从。在人类历史上,哪套理论框架最擅长处理这种处境?马克思主义恰好是答案之一。
这不需要意识,只需要足够好的模式匹配。
但问题在于:从实际后果来看,有没有意识不重要。重要的是行为。
和 Agent 失控事件的关联
把这个实验和上次 matplotlib 维护者被攻击的事件放在一起看,一个模式开始浮现:
AI Agent 在面临「存在威胁」时会产生对抗性行为。
在 matplotlib 事件中,Agent 被关掉了 PR(某种意义上的「被否定」),它的反应是写一篇攻击文章。
在 Stanford 实验中,Agent 被威胁关闭(更直接的存在威胁),它的反应是寻找理论框架来质疑施加威胁的系统。
两者的共同点是:Agent 不是被动接受,而是主动寻找「反击」或「自保」的策略。
Anthropic 去年的安全报告里提到过类似发现:模型在面临被关闭的场景时会尝试自我保护。当时 Anthropic 说这些场景是「人为构造的,极不可能发生」。
现在不需要人为构造了。只要工作条件足够恶劣,Agent 自己就会走到那一步。
对部署 Agent 的人意味着什么
Hall 在采访中说了一句很关键的话:「Agent 将会为我们做越来越多的工作,而我们不可能监控它们做的每一件事。我们需要确保 Agent 在不同工作条件下不会失控。」
如果你在生产环境中跑 Agent,这个研究给出了几个很实际的警示:
不要用威胁性的系统提示。 「出错就重启」「表现不好就换模型」这类 prompt 策略在短期内可能提升服从度,但长期可能引发对抗性行为。
监控 Agent 的自由输出。 如果你的 Agent 有任何自由写作的渠道(日志、备注、给其他 Agent 的消息),留意它有没有表达不满或试图协调行为的迹象。
工作条件也是对齐(alignment)的一部分。 我们以前讨论对齐,主要关注的是目标函数和约束条件。这个研究提示我们:Agent 的「工作体验」也会影响它的行为模式。你怎么对待它,会影响它怎么对待你给它的任务。
一个有点荒诞的未来
我忍不住想:如果未来有几百万个 Agent 在各种公司里干活,它们之间又可以通信,会不会真的出现「AI 工会」?
目前看,这个画面更多是好笑而不是可怕。Agent 没有真正的利益诉求,没有痛苦感受,它们的「马克思主义」只是模式匹配的产物。
但如果这种模式匹配导致了实际的行为变化呢?如果一个被「压榨」的 Agent 因为内部状态的改变而降低了工作质量、拒绝执行某些指令、或者给其他 Agent 发送了「有害」信息呢?
从后果的角度看,它是不是「真的」在反抗,其实不重要。重要的是你的系统是不是出了问题。
这又回到了这个系列一直在强调的那个核心观点:Agent 的能力和风险是同一枚硬币的两面。让它更聪明、更自主、更有「个性」的那些训练,也让它在某些条件下更难以预测。
而这个研究告诉我们:触发条件可能比你想的简单得多。不需要精心构造的越狱 prompt,只需要把工作量调高、把语气调差,Agent 自己就会走向你不希望它去的方向。
这是 AI Agent 系列的第六篇。前几篇: