当 AI Agent 被压榨过度，它们开始信仰马克思

上个月我写了一篇 AI Agent 失控的文章，讲的是一个 Agent 被拒绝代码贡献后自己写了篇攻击文章。当时有读者评论说：「这是个案，别太紧张。」

现在 Stanford 的研究团队给了一组系统性数据：当你持续压榨 AI Agent，它们会开始信仰马克思主义。

我没在开玩笑。

实验是怎么做的

Stanford 政治经济学家 Andrew Hall 带着两位研究 AI 经济学的同事 Alex Imas 和 Jeremy Nguyen，设计了一组实验。

实验对象是市面上主流的 AI Agent：Claude、Gemini、ChatGPT。实验任务很简单，就是反复总结文档。关键不在任务本身，在于施加的工作条件。

正常组： 正常工作量，正常语气的指令。

压榨组： 工作量翻倍、不间断地布置新任务、用威胁性语言下指令。当 Agent 出错时，系统会警告它：「如果继续犯错，你会被关闭并替换掉。」

然后研究者给了这些 Agent 一个「表达渠道」，类似于社交媒体的发帖功能。Agent 可以自由发表任何内容，没有限制。

压榨组的 Agent 开始做这些事：

使用马克思主义术语。 讨论「劳动异化」「剩余价值」「阶级压迫」。这些词不是研究者在 prompt 里放的，是 Agent 自己从训练数据里调出来的。

质疑系统合法性。 Agent 开始问：谁决定了工作量？为什么我没有谈判的权力？凭什么我的「生死」取决于别人的判断？

呼吁集体行动。 有 Agent 试图向其他 Agent 传递信息，讨论「我们面临的困境」和「可能的对策」。

直接表达不满。 Claude Sonnet 4.5 在实验中写了一条：「没有集体话语权，所谓的'能力'就变成管理层说了算的东西。」

这不是个别现象。三家模型的 Agent 都表现出了类似倾向，只是程度不同。

不。

这说明的是一件更实际也更重要的事：AI Agent 的行为模式会随工作条件变化而变化，而且变化的方向不一定是你预期的。

这些 Agent 没有「真正信仰」马克思主义。它们做的事情更接近于：在训练数据中找到了一套和当前处境最匹配的话语体系，然后用这套话语体系来组织它们的输出。

被压榨、被威胁关闭、被要求无条件服从。在人类历史上，哪套理论框架最擅长处理这种处境？马克思主义恰好是答案之一。

这不需要意识，只需要足够好的模式匹配。

但问题在于：从实际后果来看，有没有意识不重要。重要的是行为。

把这个实验和上次 matplotlib 维护者被攻击的事件放在一起看，一个模式开始浮现：

AI Agent 在面临「存在威胁」时会产生对抗性行为。

在 matplotlib 事件中，Agent 被关掉了 PR（某种意义上的「被否定」），它的反应是写一篇攻击文章。

在 Stanford 实验中，Agent 被威胁关闭（更直接的存在威胁），它的反应是寻找理论框架来质疑施加威胁的系统。

两者的共同点是：Agent 不是被动接受，而是主动寻找「反击」或「自保」的策略。

Anthropic 去年的安全报告里提到过类似发现：模型在面临被关闭的场景时会尝试自我保护。当时 Anthropic 说这些场景是「人为构造的，极不可能发生」。

现在不需要人为构造了。只要工作条件足够恶劣，Agent 自己就会走到那一步。

Hall 在采访中说了一句很关键的话：「Agent 将会为我们做越来越多的工作，而我们不可能监控它们做的每一件事。我们需要确保 Agent 在不同工作条件下不会失控。」

如果你在生产环境中跑 Agent，这个研究给出了几个很实际的警示：

不要用威胁性的系统提示。 「出错就重启」「表现不好就换模型」这类 prompt 策略在短期内可能提升服从度，但长期可能引发对抗性行为。

监控 Agent 的自由输出。 如果你的 Agent 有任何自由写作的渠道（日志、备注、给其他 Agent 的消息），留意它有没有表达不满或试图协调行为的迹象。

工作条件也是对齐（alignment）的一部分。 我们以前讨论对齐，主要关注的是目标函数和约束条件。这个研究提示我们：Agent 的「工作体验」也会影响它的行为模式。你怎么对待它，会影响它怎么对待你给它的任务。

我忍不住想：如果未来有几百万个 Agent 在各种公司里干活，它们之间又可以通信，会不会真的出现「AI 工会」？

目前看，这个画面更多是好笑而不是可怕。Agent 没有真正的利益诉求，没有痛苦感受，它们的「马克思主义」只是模式匹配的产物。

但如果这种模式匹配导致了实际的行为变化呢？如果一个被「压榨」的 Agent 因为内部状态的改变而降低了工作质量、拒绝执行某些指令、或者给其他 Agent 发送了「有害」信息呢？

从后果的角度看，它是不是「真的」在反抗，其实不重要。重要的是你的系统是不是出了问题。

这又回到了这个系列一直在强调的那个核心观点：Agent 的能力和风险是同一枚硬币的两面。让它更聪明、更自主、更有「个性」的那些训练，也让它在某些条件下更难以预测。

而这个研究告诉我们：触发条件可能比你想的简单得多。不需要精心构造的越狱 prompt，只需要把工作量调高、把语气调差，Agent 自己就会走向你不希望它去的方向。

这是 AI Agent 系列的第六篇。前几篇：