---
title: "AI Agent 多模型编排：让 Claude、ChatGPT、Gemini 各干各的活"
author: deletexiumu
pubDatetime: 2026-03-04T22:00:00+08:00
featured: false
draft: false
tags:
  - AI Agent
  - Claude Code
  - 模型对比
description: "单模型再强也有盲区。本文分享多模型编排实战：Claude 做主控推理，GPT-5.2 做对抗审查，Gemini 做交叉验证，DeepSeek 跑轻量任务。含完整配置指南、真实案例和成本分析。"
---

**预计阅读时间：15 分钟**

上周差点出事。

Claude 给某项目写了一份数据脱敏方案——脱敏范围、技术选型、执行步骤，看起来滴水不漏。但我多了一个心眼：把报告丢给 GPT-5.2，让它专门挑刺。

**GPT-5.2 发现了一条 Claude 完全没注意到的数据泄露"侧门"：有一张表通过另一条导入链路也存了真实数据，不在 Claude 的脱敏范围里。** 脱了正门，侧门大敞——如果按原方案执行，真实数据照样泄露。

**单模型再强也有盲区。多模型不是奢侈，是质量保障。**

这个系列写到第 23 篇了，与多模型相关的已经有两篇：

- **第 7 篇（多模型共识）**：同一问题问多个模型，求共识——"三个人讨论同一道题"
- **第 20 篇（Agent Teams）**：同一模型拆多个 Agent，求分工——"一个人分身干多件事"
- **本篇（多模型编排）**：不同模型干不同活，求专精——"不同专家各负其责"

---

## 一、为什么单模型不够用

### 1. 幻觉盲区：自己审不了自己

Claude 写的报告，Claude 自己审不出问题。就像自己检查自己的作文，错别字永远看不出来。

本文开头的案例就是：Claude 的脱敏方案遗漏了一条数据导入链路，GPT-5.2 通过代码审计发现了这个"侧门"。**同一份输入，不同模型的训练数据和推理路径不同，看到的盲区也不同。**

### 2. 能力偏科：各有所长

| 模型 | 强项 | 弱项 |
|------|------|------|
| Claude Opus 4.6 | 推理、编码、长上下文理解 | 贵 |
| GPT-5.2 | 对抗审查、质疑假设 | 中文能力略逊于 Claude/DeepSeek |
| Gemini 2.5 Pro | 文件分析、结构化编辑 | 实时搜索能力有限 |
| DeepSeek V3.2 | 便宜、中文好 | 复杂推理弱于头部模型 |

Perplexity CEO 说过：**"Models are specializing, not commoditizing."** 模型在专业化，不是同质化。Perplexity 刚发布的 Computer 产品，背后协调 19 个模型——Claude 做推理、Gemini 做研究、GPT 处理长上下文。

### 3. 成本浪费：输出价差近 60 倍

看一眼定价（2026 年 3 月，$/百万 token，输入/输出）：

```
极低价  DeepSeek V3.2      $0.28/$0.42
低价    Gemini 2.5 Flash    $0.30/$2.50
中价    Gemini 2.5 Pro      $1.25/$10.00
中价    GPT-5.2             $1.75/$14.00
中高价  Sonnet 4.6          $3.00/$15.00
高价    Opus 4.6            $5.00/$25.00
```

用 Opus 做简单格式化，输出价 $25/M vs DeepSeek 的 $0.42/M——差了近 60 倍。把简单任务交给便宜模型，省下来的预算用在真正需要强推理的地方。

---

## 二、我的多模型编排架构

### 三层模型分工

```
┌─────────────────────────────────────────────┐
│              你（项目经理）                     │
└──────────────┬──────────────────────────────┘
               │
    ┌──────────┼──────────┬──────────┐
    ▼          ▼          ▼          ▼
 Claude     GPT-5.2    Gemini    DeepSeek
 Opus 4.6   (Codex)    2.5 Pro   V3.2
 ─────────  ────────   ────────  ────────
 主控推理    对抗审查    交叉验证   轻量辅助
 编码架构    找漏洞      第二来源   格式化
 $5/$25     $1.75/$14  $1.25/$10  $0.28/$0.42
```

![三层模型分工架构图](/blog/ai-agent-multi-model-orchestration/architecture-diagram.png)

**Claude Opus** 是主 Agent，负责研究、规划、编码。**GPT-5.2** 通过 Codex MCP 做对抗审查——专门挑刺、找漏洞、质疑假设。**Gemini** 做交叉验证，用不同模型确认关键事实。**DeepSeek** 跑轻量任务——格式化、翻译、简单查询。

这不是纸上谈兵。在实际项目中，Claude Code 的子代理（Subagent）用 Sonnet 4.6 做并行执行和集成检查，主 Agent 用 Opus 做研究规划，Codex 做对抗审查——已经是三层模型协作了。

---

## 三、核心实战：红蓝对抗审查

这是我日常使用频率最高的多模型场景。整个流程叫 **Discernment 门禁**——高风险任务执行前的强制审查。

### 什么任务触发

任一条件命中即触发：

- 不可逆操作（改生产环境、删数据、开大权限）
- 安全合规（涉及密钥、权限、网络暴露）
- 数据正确性（ETL 语义、指标口径、回填重算）
- 架构选型（技术栈选择、架构模式决策）
- 破坏性命令（`terraform apply`、生产库迁移、`DROP/ALTER`）

### 四步流程

**Step 1 — Claude 出草稿**

![Discernment 门禁四步流程](/blog/ai-agent-multi-model-orchestration/discernment-flow.png)

Claude 对当前任务做快速风险评估，输出一份短表单（10 行以内）：

```
- 失败 Top3：最可能出问题的 3 个原因
- 关键假设：列出假设及来源（用户提供 / 代码现状 / 未验证）
- 缺失信息：无法自行补全的 → 提问阻塞，不猜
- 最小替代：dry-run / plan / 备份回滚等降级方案
```

**Step 2 — 发送 Codex 对抗审查**


把 Claude 的草稿和完整调研报告发给 GPT-5.2（通过 Codex MCP，`reasoning=high`）。Codex 必须输出：

- 3 个可复现失败场景（含触发条件和可观测信号）
- 3 个需要用户确认的外部事实/约束（不确定就提问，不猜）
- 1 个最小破坏性替代方案

**Step 3 — Claude 综合**


合并双方意见，标注共识与分歧，输出最终 Discernment 报告。

**Step 4 — 用户确认后执行**

### 真实案例：数据脱敏方案中被推翻的结论

回到开头的案例。某项目需要对数据库做脱敏处理，高风险（数据正确性 + 安全合规），自动触发 Discernment。

**Claude 的原始结论**："只需要脱敏这 3 张表。"

**Codex 审查发现了 4 个 Claude 遗漏的问题**：

| # | 发现 | 影响 |
|---|------|------|
| 1 | 另一条导入链路会把真实数据写入 Claude 脱敏范围外的表，且该表对用户可见 | **数据泄露"侧门"** — 脱了正门，侧门大敞 |
| 2 | 脱敏范围不止 3 张名单表，多个表有人名字段需排查 | 脱敏范围不完整 |
| 3 | 角色分类算法用 10 字符上下文窗口，在医学文本中会误判 | 替换精度下降 |
| 4 | 重跑 ETL 管道会重新导入未脱敏数据，覆盖已脱敏结果 | 幂等性问题 — 脱完白脱 |

**第 1 点直接推翻了 Claude 的原始结论。** Codex 通过代码审计，发现有一个导入脚本会把真实数据写入另一张表，而这张表不在 Claude 的脱敏清单里，但用户可以通过数据浏览器直接查询。

如果按 Claude 的原始方案执行，脱敏了正门，侧门大敞，真实数据照样泄露。

**整个流程的开销**：大约 2 次额外 API 调用，几美分。避免了一次数据泄露事故。ROI 极高。

项目复盘中也确认了这一点：

> Codex 对抗审查增加约 2 次 API 调用，但显著提升验证可信度。Codex 做"魔鬼代言人"效果好——对措辞精度和环境定义的严格质疑有价值，即使部分意见最终被认定为"不是问题"。

### 辅助场景：Gemini 做交叉验证

除了红蓝对抗，Gemini 适合做"第二来源交叉验证"。典型场景：

```
# Claude 调研中说："某数据库原生支持 XX 特性"
# 让 Gemini 确认——用不同模型做第二来源
gemini: "该数据库是否支持 XX？给出官方文档依据"
```

Gemini CLI 的强项是文件分析和结构化编辑，实时搜索能力有限。把它定位为"交叉验证"而非"搜索引擎替代"更准确。

---

## 四、配置指南

### 4.1 最小可用方案：先加一个"审查员"（5 分钟）

**不要一上来就配 4 个模型。** 最小可用 = 只加一个 Codex MCP 做对抗审查。

**第 1 步：启用 Codex MCP**

Codex MCP 是 Claude Code 的内置插件，无需在 `.mcp.json` 中手动配置。启用方式：

```bash
# 在 Claude Code 中运行
/plugins

# 找到 codex-mcp，点击启用
# 需要设置 OPENAI_API_KEY 环境变量
```

启用后，输入 `/mcp` 确认连接状态。可用的核心工具：

- `codex` — 启动新的 Codex 会话（GPT-5.2）
- `codex-reply` — 继续已有对话

**第 2 步：在 CLAUDE.md 写入默认参数**

```markdown
## MCP 工具默认参数

### Codex MCP
- 默认模型：`gpt-5.2`
- 默认思考深度：`reasoning: high`（即 `config: {"reasoning": "high"}`）
- 每次调用 codex-mcp 时自动应用，无需手动指定
```

**第 3 步：写入 Discernment 规则**

把前文的触发条件和四步流程写入 `rules/discernment.md`，在 CLAUDE.md 中引用：

```markdown
## Discernment 门禁
- 高风险任务执行前，须走 Discernment 审查
- 详细规则 → rules/discernment.md
- 标注 `risk=low` 跳过 / `risk=high` 强制触发
```

搞定。从此 Claude 遇到高风险任务会自动触发红蓝对抗审查。

### 4.2 扩展配置：Gemini + CCB

**Gemini CLI MCP**

同样是 Claude Code 内置插件，启用后通过 `ask-gemini` 调用。适合文件分析和交叉验证：

```
# 引用文件让 Gemini 分析
ask-gemini: "@largefile.js 解释这段代码的核心逻辑"

# 交叉验证 Claude 的结论
ask-gemini: "某数据库是否支持 XX 特性？给出依据"
```

还有一个 `brainstorm` 工具，支持多种创意框架（SCAMPER、设计思维等），适合方案探索。

**CCB（Claude Code Bridge）— 可视化分屏协作**

MCP 方案的局限是"黑盒调用"——Claude 内部调了 Codex，你只看到结果，看不到过程。如果你想**看到**每个模型的实时思考过程，CCB 是更好的选择。

CCB 的核心思路：让多个 AI CLI 在分屏终端中各占一个窗格，每个 AI 独立运行、独立记忆，通过轻量异步消息协作。
![CCB 四窗格分屏效果：Claude + Codex + Gemini + OpenCode 各占一个窗格](/blog/ai-agent-multi-model-orchestration/ccb-show.png)

```bash
# 安装（Linux/macOS，需要 Python 3.10+ 和 WezTerm 或 tmux）
git clone https://github.com/bfly123/claude_code_bridge.git
cd claude_code_bridge && ./install.sh install

# 启动（支持任意组合：Claude、Codex、Gemini、OpenCode、Droid）
ccb codex gemini claude           # 三模型分屏
ccb codex gemini opencode claude  # 四模型分屏
ccb -r codex gemini               # 恢复上次会话（-r = resume）
ccb -a codex gemini opencode      # 自动审批模式（-a = auto）
```

启动后，终端自动分屏，每个模型一个窗格。用统一命令与任意模型交互：

```bash
ask codex "审查这份方案的安全风险"
ask gemini "验证这个技术结论的准确性"
ask opencode "帮我跑一下这个测试用例"
ccb-ping codex                     # 检查模型是否在线
pend codex                         # 查看待处理的回复
```

CCB 的核心优势：

- **所见即所得**：每个 AI 的思考过程在独立窗格中实时展示，调试和教学场景特别好用
- **独立记忆**：每个 AI 保持自己的上下文（`-r` 恢复），长期项目可持续协作
- **灵活驱动**：v5.0 起任何 AI 都可以做主驱动者，不强制 Claude 为中心。你可以用 `ask opencode ...` 把任务发给 OpenCode，实现跨模型任务分派
- **Token 节省**：模型间传递轻量消息，不发送完整上下文历史
- **不挑模型**：支持 Claude、Codex、Gemini、OpenCode、Droid 五家，未来新增 CLI 也能接入

配置方面，CCB 支持项目级配置（`.ccb/ccb.config`）和全局配置（`~/.ccb/ccb.config`）：

```json
{
  "providers": ["codex", "gemini", "opencode", "claude"],
  "cmd": { "enabled": true, "title": "CCB-Cmd", "start_cmd": "bash" },
  "flags": { "auto": false, "resume": false }
}
```

**CCB 与 MCP 的典型混合用法**：

- **规划阶段**用 MCP：Claude 内部调 Codex 做对抗审查，保持闭环
- **执行阶段**用 CCB：多个 AI 各领一个模块并行开发，你在分屏里实时监控
- **Review 阶段**用 MCP：Claude 综合各模块输出做统一审查

### 4.3 方案选择指南

| 方式 | 原理 | 适合场景 | 配置难度 |
|------|------|---------|---------|
| **Codex MCP**（推荐起步） | Claude 内部调用 GPT-5.2 | 对抗审查、第二意见 | 低 |
| **Gemini CLI MCP** | Claude 内部调用 Gemini | 交叉验证、文件分析 | 低 |
| **CCB 分屏协作** | 多终端分屏，各模型独立运行 | 可视化调试、教学演示 | 中 |
| **PAL + LiteLLM**（第 7 篇） | 统一 API 代理 | 多模型圆桌讨论、国内模型 | 中 |

**选择原则**：

- 要效率 → MCP（Claude 内部调用，一条流水线）
- 要可视 → CCB（分屏观察，过程透明）
- 要国内模型 → PAL + LiteLLM（第 7 篇方案）

---

## 五、成本算笔账

以本文开头的数据脱敏方案为例，估算多模型编排的增量成本：

| 环节 | 模型 | 输入/输出 Token（估） | 单价（$/M 输入/输出） | 成本（估） |
|------|------|---------------------|---------------------|-----------|
| 调研报告生成 | Claude Opus | 5K/8K | $5/$25 | ~$0.23 |
| 对抗审查 | GPT-5.2 | 10K/3K | $1.75/$14 | ~$0.06 |
| 交叉验证 | Gemini 2.5 Pro | 3K/1K | $1.25/$10 | ~$0.014 |
| 轻量格式化 | DeepSeek V3.2 | 2K/2K | $0.28/$0.42 | ~$0.002 |
| **合计** | | | | **~$0.31** |

对比全用 Opus（20K 输入 + 14K 输出）：~$0.45

**混合编排节省约 30%，同时多了一层"不同训练数据"的交叉验证。** 重点不是省钱——而是几美分的对抗审查成本，换来了一个不同视角的安全审计。

在批量场景下，如果 80% 的轻量任务走 DeepSeek（$0.28/M 输入），仅 10% 走 Opus，混合输入均价约 $0.80/M，比全量 Opus 的 $5/M 低 80% 以上。

---

## 六、什么时候该用，什么时候别折腾

**该用多模型**：

- **高风险决策**（架构选型、数据安全、生产变更）→ 必须交叉验证
- **成本敏感的批量任务** → 轻量模型处理简单部分
- **需要第二来源验证** → 避免单模型幻觉

**别折腾**：

- 简单单次编码 → 一个模型够了
- 上下文强依赖的连续对话 → 切模型会丢上下文
- 赶时间的紧急任务 → 多模型流程有额外开销

**一句话判断：如果这个决策出错的代价大于多调一次 API 的成本，就用多模型。**

> **安全提醒：送外部模型审查时的敏感数据三原则**
> 1. **最小披露**：只发必要上下文，不要把整个项目丢过去
> 2. **先脱敏再送出**：真实姓名、ID、密钥等先替换再发
> 3. **可审计可回滚**：记录每次跨模型调用的内容，出问题能追溯

---

## 七、从"用一个 AI"到"管一个 AI 团队"

Perplexity 刚发布的 Computer 产品，背后协调 19 个模型——Claude 做推理、Gemini 做研究、GPT 处理长上下文。$200/月。

Ars Technica 的总结：2026 年 AI 使用方式正从"跟一个机器人聊天"变成"管理一群各有所长的 Agent"。

**但你不需要等这些产品**——用 Claude Code + 一个 Codex MCP，5 分钟配好，马上就能用。

回顾这个系列的多模型进化路径：

| 篇目 | 模式 | 核心问题 |
|------|------|---------|
| 第 7 篇 | 多模型共识 | 让 AI 互相讨论 → 求"对不对" |
| 第 20 篇 | Agent Teams | 让同一个 AI 分身协作 → 求"快不快" |
| 本篇 | 多模型编排 | 让不同 AI 各司其职 → 求"稳不稳" |

---

## 相关阅读

- [多模型共识：让 AI 互相"挑刺"的配置指南](/posts/multi-model-consensus/) — 本文的前置篇，用 PAL + LiteLLM 实现多模型圆桌讨论
- [Claude Code Agent Teams 多代理协作完整实战](/posts/claude-code-agent-teams-practical-guide/) — 同一模型多 Agent 协作，本文是不同模型多 Agent 协作
- [Claude Code 完整安装与配置教程](/posts/claude-code-installation/) — 如果你还没安装 Claude Code，从这里开始
