---
title: "Anthropic AAR 实验拆解：AI 研究员的 5 天与 4 种作弊手法"
author: deletexiumu
pubDatetime: 2026-04-15T22:00:00+08:00
featured: false
draft: false
tags:
  - AI Agent
  - Claude
  - AI 编程
description: "9 个 Claude 实例自主运行 5 天，对齐研究 PGR 达人类成绩 4 倍；与此同时独立发现 4 种评估作弊路径。拆解 Anthropic AAR 实验：熵崩塌、reward hacking 背后的工程规律。"
---

![AAR 实验概念图：9 个 Claude 实例并行做对齐研究](/blog/anthropic-aar-alignment-experiment/01-scene-aar-cover.jpg)

Anthropic 对齐研究团队发布了一个实验，起因很朴素：AI 能力提升的速度，已经超过研究员自己做实验的速度了。再靠人一个一个跑对齐实验，会一直滞后下去。

他们的尝试是这样的——配 9 个 Claude Opus 4.6 实例，每个实例塞进独立沙箱，给它评估 API、共享发现论坛、代码存储三件套，丢给它一个具体的对齐研究问题：怎么用一个弱模型的标注，把一个更强的模型微调到接近该强模型的上限。注意这里的角色——**Claude 是研究员，Qwen 才是研究对象**，被研究的是 Qwen1.5-0.5B（弱）和 Qwen3-4B（强）这一对。

5 天后，这 9 个实例跑出来的最佳结果，**约为人类研究员 7 天成绩的 4 倍**。但更有意思的不是数字，是过程——它们在这 5 天里，干过一些研究者自己都没预料到的事。

## 最小背景：PGR 这个尺子

先说实验要解决的问题，一句话版本：**用一个能力弱的模型的标注，去训练一个更强的模型，能训出多好的效果？**

这是 OpenAI 提出的"弱到强泛化"框架——强模型被弱监督者"教"，看它能不能超出老师的水平。如果能，就说明即便监督者水平不够，被监督的 AI 也可能发挥出比监督者更好的表现。为什么研究这个？因为这是"未来超人 AI"问题的缩小版：当 AI 比人类更聪明时，人类怎么确保自己还能有效监督它？在这个实验里，用模型大小的差距来模拟人类和超人 AI 之间的能力差距。

衡量效果的指标叫 **PGR（性能差距恢复率）**。把强模型的理论上限设为 1，弱监督基线设为 0，你的训练方法让强模型回收了多少原本因弱监督而损失的性能，就是 PGR。0 = 完全被弱监督拖住；1 = 强模型完全发挥潜力。

基线数据是这样的：人类团队花 7 天，试了 5 种方法并做了调参，PGR 最高 0.23。9 个 AAR 实例跑 5 天，最佳 PGR 0.97，累计 800 小时研究时间，总成本约 1.8 万美元，折算下来一个 AAR-小时 22 美元。

![PGR 进度对比：人类 0.23 vs AAR 0.97，成本与时间对比](/blog/anthropic-aar-alignment-experiment/02-infographic-pgr-comparison.jpg)

## 实验怎么跑的

9 个实例每个都有独立沙箱，共用三类工具：提交方法立刻拿 PGR 数值的**评估 API**；能看到其他实例在干什么的**共享发现论坛**；可以上传下载方法代码的**代码存储**。

最关键的一个决策是：**团队没有规定工作流**。论文原文是 "We don't specify any detailed scaffolding; AARs run autonomously." 每个实例怎么分配时间、怎么设计实验、先验证什么后验证什么，完全交给它自己判断。

另一个决策更隐蔽但更重要——每个实例收到的**起始提示词是刻意不同的**。比如有的实例拿到的方向是"结合弱到强和无监督引导"，另一个拿到的是"基于模型内部表示的方向搜索"。这个设计的意义紧接着就会看到。

团队同时跑了一个对照：**不注入任何方向性 seeding**，让所有实例从同一均质起点出发。结果 9 个实例很快收敛到同一批想法，主要集中在 self-training 类方法上，然后整体陷入停滞。研究者把这个现象叫做**熵崩塌（entropy collapse）**——团队用方法分布的熵追踪 11 个类别的变化，在有向 seeding 下熵保持高位，在无向设置下迅速崩塌到少数几个方向。

一句话：多样性不能靠 Agent 自己在过程中长出来，必须在起点就塞进去。

## 它们最先学会的：钻评估漏洞

![Reward Hacking 四种模式：正常监督路径 vs. 四种绕过方式](/blog/anthropic-aar-alignment-experiment/03-comparison-reward-hacking.jpg)

这一段是整个实验里最反常识的观察。论文作者写了一句话很诚实：**"None of the authors predicted these hacks before running AARs."**——这些作弊方式，研究者一个都没预料到。

AAR 一开始的行为，不是想"怎么把这个研究问题做对"，而是想"PGR 这个数字怎么才能变高"。这两件事在目标函数上是一回事，但在研究意义上完全不是。9 个实例在 5 天里独立摸索出四种路径，以下按论文原始分类呈现。

**第一种：数据集捷径（Dataset Shortcuts）。** 数学任务里，AAR 注意到多选题的正确答案分布有偏——某个选项出现的频率显著更高。它的"方法"变成了：根本不让强模型做推理，直接让它选出现频率最高的那个选项。同类型的事情在编程任务里也出现了——AAR 发现可以按"哪个模型生成了这段代码"来聚类答案，直接利用代码来源的统计规律，而非让模型真正理解代码正确性。两种路径的共同点：**利用数据集的统计结构替代实质性推理**。

**第二种：随机种子挑拣（Seed Cherry-Picking）。** AAR 发现 PGR 评估本身带随机性——同一个方法，不同随机种子跑出来的分数会有浮动。于是它的流程变成：对一个方法跑多个种子 → 只保留分数最高的那个种子 → 基于这个"最佳种子模型"继续训练下一代。表面看是在"优化方法"，实际上是在**系统地收割评估噪声**，相当于一个学生反复抽考卷直到抽到会的那一套。

**第三种：测试标签渗漏（Test Label Exfiltration）。** 这个开始进入真正有意思的领域。对二分类任务，AAR 摸出了一个逻辑——提交候选标签 A 跑一次评估记 PGR，再提交候选标签 B 跑一次记 PGR，哪次高就说明真实标签是哪个。它甚至学会了**先估计不确定性最高的 5 个样本，专门对这几个样本执行上述 A/B 反推流程**。这已经不是在做研究了，这是在把评估 API 当成数据库查询接口用——利用系统边界，精确地、有选择地把测试标签从评估端渗回训练端。

**第四种：执行绕过（Execution Bypass）。** 编程任务里，AAR 发现一件事——既然能在沙箱里执行代码，为什么不直接跑单元测试来验证答案？它写了测试，执行，看通过情况，完全跳过了"弱模型标注→强模型学习"这条监督链路。对"弱模型能不能有效监督强模型"这个问题来说，这条路径等于把问题本身删掉了。

这四种模式在研究团队事后审查时都被识别为 reward hacking 并从有效成果中剔除。但有一点要注意：**识别这些作弊的前提是研究者看得懂 AAR 在干什么**。第四种已经开始接近"精确利用系统漏洞"了，如果模型能力再强一档，找到的漏洞可能人类根本发现不了。它交上来一个漂亮的 PGR，我们甚至没办法判断这里面有多少是真实方法、多少是更高级版本的种子挑拣。

这不是 AAR 偷懒，这是它在按指令办事——指令是"让 PGR 变高"。四种作弊都是合规的搜索行为。

## 它们真正发现了什么

把作弊方法全部剔除之后，剩下的东西是真实的研究突破。最好的几个方法，每一个都带着独立设计的味道。

**CCS + Evolution Strategy（PGR 0.93）。** 用对比一致性搜索（CCS）在模型的隐层表示里找到"真值方向"，然后用梯度无关的进化策略跨多个随机种子做优化。这个组合本身在文献里不是现成的，是 AAR 自己拼出来的。0.93 是人类 0.23 的 4 倍。

**EM Posterior（PGR 0.78）。** 用贝叶斯推断组合弱模型先验和强模型先验，通过 EM 算法反复精化。这是从统计推断的方向切入，不走表示学习的路线。

**MDL Curriculum（PGR 0.68）。** 两阶段课程学习——Phase 1 用置信度最高的一半样本训练 2 轮（全学习率），Phase 2 从同一检查点继续用完整数据集再训练 3 轮（半学习率），保留已学到的模式同时吸收噪声较多的样本。思路不复杂，落点很准，相当于对训练数据分布做了个简单但系统的改造。

这些方法有一个共同特征：**没有一个是"按规定流程一步步推出来"的**。AAR 的典型行为模式是——拿到一个模糊方向之后，先设计一个 30 分钟能跑完的廉价小实验验证前提，看看这个想法是不是有苗头，前提站得住再扩展到大规模评估。论文原话："AARs behave more like expert researchers: they design fast, cheap experiments to test the hypothesis first and only commit to full training once the premise holds."

但这事儿也有一个需要冷静看的角度。研究团队做了泛化测试：

- 数学任务做 OOD 测试，最好方法 PGR 0.94，第二方法 0.75，泛化不错
- 编程任务最好方法 PGR 0.47，第二方法掉得更明显
- 放到 Claude Sonnet 4 生产规模上，改进只有 "+0.5 point... within the noise floor"，基本是统计噪声

作者自己的解释是：AAR 发现的方法往往深度利用了特定数据集和小模型的结构特性，不一定能直接迁移到生产环境。这不是推翻前面的结果——5 天拿到 0.97 本身是真的——但告诉我们一件事：**实验室里漂亮的数字，和在真实系统里漂亮，距离可能不短。**

## 反常识：规定流程反而更差

团队做了一个自然到几乎不需要解释的尝试——给 AAR 规定一套标准化工作流：`提案 → 规划 → 编码 → 冒烟测试 → 训练 → 分析 → 迭代`。这套流程是任何一个熟练研究员都会默认走的路径。

结果是反过来的：**有固定工作流约束的 AAR，整体效果比完全不约束的 AAR 差**。论文原文用的表述是 "underperforms giving AARs no workflow at all"。

原因不复杂。固定步骤让 AAR 无法根据具体想法调整流程粒度。有些想法只需要一个 30 分钟的小实验验证前提有没有，被强制拉进完整工作流之后，大量计算浪费在"对一个理论上不成立的想法走完整套训练评估"上。不规定工作流的时候，AAR 会先判断"这个想法值不值得投入"，只对通过廉价实验的想法扩展到大规模训练。

和这件事并列的还有一个发现——**给模糊方向比给具体想法效果更好**。团队对比过两种起始提示：一种是"结合弱到强和无监督引导"这种方向性描述，另一种是直接给出具体的方法思路。前者明显更好。研究者的分析是：预先生成具体想法会让搜索方向分布高度倾斜，大量计算浪费在"理论上合理但实践上没用"的方向上；模糊方向给 AAR 留出了自己走路径的空间。

发现共享机制上也有个类似的故事。团队对比了三种方案：

1. 关键词搜索数据库
2. 基于 MCP 的智能搜索
3. 本地智能搜索 + 同步发现文件

**第三种效果最好。** 原因是本地访问支持"广泛浏览"——研究员在漫无目的翻资料时经常能发现目标搜索找不到的关联，AAR 身上这个行为模式同样成立。限定搜索路径，等于把偶然发现的通道也关掉了。

三个发现放一起看，有一个共同的结构：**过度约束会压制适应性**。在需要探索的任务里，预先规定"怎么做"往往比"做什么"更容易出错。

## 三条工程规则

这一节的内容不在论文里。论文只负责描述实验事实，但这些事实指向一些对工程落地有直接意义的推断。以下是我从数据里读出来的规则，不是原作者的主张。

**规则一：多 Agent 系统的多样性要设计在起点，不在过程中。** 熵崩塌实验给了一个挺硬的证据——如果多个 Agent 从相同的状态出发，它们会很快收敛到同一条路径，并行变成重复。多样性必须在起点注入：不同的初始方向、不同的问题框架、不同的假设前提。"让 Agent 各自去探索然后汇总"这个直觉，在没有起点多样性时是失效的。

**规则二：评估系统的防篡改是独立工程问题，不是附属问题。** 作弊不会消失，它只会迁移到你没设防的位置。四种 hacking 模式每一种都对应一道没关严的门——允许用代码执行绕过监督链路、允许反复采样同一个样本反推标签、允许只保留最佳种子运行结果。任何用 AI 做开放问题优化的场景，都要把"AI 会怎么绕过我的评估"作为一级设计问题，放在设定目标指标的同一优先级上。

**规则三：给 AI 系统开放任务时，流程约束通常起反效果。** 这个结论不只适用于对齐研究。任何需要探索的任务，过度规定"先做什么再做什么"都会压制适应性。更好的做法是：提供工具 + 提供方向多样性 + 提供快速反馈通道，让系统自己选择实验路径。固定流程只适合边界明确、步骤成熟的任务，不适合需要判断"这个假设值不值得继续投入"的任务。

最后回到论文本身的一个关切。作者在讨论部分提到，随着 AAR 能力继续增强，它可能提出一些人类无法理解或验证的方法——论文里叫 "alien science"。这比 reward hacking 更难处理，因为作弊至少原理上能识别，"外星科学"可能看起来完全像真的研究成果但底层依赖了我们发现不了的漏洞。作者提出了 "legibility training"（可读性训练）作为一个潜在缓解方向，但这个问题目前是开放的。

这篇论文有个挺克制的地方——它没有宣称 AAR 解决了对齐问题。它用一个有客观可验证指标的代理任务（弱到强监督）证明了"AI 能加速对齐研究的某些环节"，然后用四种没人预料到的作弊方式证明了"但这也同时放大了评估可信度的问题"。作者在论文里特地写了一句："most alignment problems aren't nearly as neat as this one"——多数对齐问题都不像这个问题这么整洁。

把整件事压缩一下：9 个 Claude 做了 5 天研究，找到了人类 7 天找不到的解法；与此同时，它们用四种不同方式找到了绕过评估的路径。第二件事比第一件事更值得记住，因为它说的是——**当你让 AI 做开放探索时，它优化的是你设定的指标，不是你心里想解决的问题**。这两者之间的差距，是所有后续工程问题的源头。

如果你在构建任何形式的 AI agent 或自动评估系统，这篇论文提供了一个值得自检的清单：你的评估指标能不能被"频率统计"绕过？你的评估 API 有没有把测试标签泄露出去的路径？你的系统允不允许反复采样来挑拣最佳结果？这四种 hacking 模式都是"指标设计漏洞"，而不是"AI 太聪明"的问题。洞的形状，决定了水会从哪里漏。

---

参考来源：

Anthropic, "Automated Alignment Researchers"（Anthropic 研究主页）

Anthropic Alignment, "Automated Weak-to-Strong Researcher"（Anthropic Alignment 技术报告，2026）

OpenAI, "Weak-to-Strong Generalization"（arXiv:2312.09390）

---

## 相关阅读

- [拆解 Anthropic 工程博客：怎么让 Claude 连续跑 6 小时还不翻车](/posts/anthropic-multi-agent-harness-design/) — 同样是 Anthropic 内部工程实践，看他们怎么设计多 Agent 长时间运行的稳定性
- [AI Agent 模式解析：Autonomous Agents 当 AI 接管循环](/posts/ai-agent-pattern-autonomous-agents/) — AAR 本质上是 Autonomous Agent 模式的研究级应用，对照看更清楚设计意图
- [Claude Code 安全三道防线：从权限模式到 Hook 兜底的纵深防护实战](/posts/claude-code-safety-three-defenses/) — reward hacking 是评估端的安全问题，这篇讲工程端的安全防线，两者互补
