---
title: "Claude Code Computer Use 实战：让 AI 看见你的屏幕"
author: deletexiumu
pubDatetime: 2026-04-02T00:00:00+08:00
featured: false
draft: false
tags:
  - Claude Code
  - 教程
  - AI 工具
description: "Claude Code 新增 Computer Use 能力，可通过截屏→视觉分析→模拟操作的循环控制 macOS 桌面应用。本文从开启配置到实战踩坑完整走一遍，含工具选择决策树、成本分析和 6 条提升成功率的关键技巧。"
---

写了一个 macOS 原生设置面板，SwiftUI 代码编译通过了。接下来要验证"开关切换后偏好是否正确持久化"——打开 App，手动点开关，退出再进，看值还在不在。或者写个 XCUITest（Apple 的 UI 自动化测试框架），配置半天 accessibility identifier（UI 元素标识符），跑一遍发现断言写错了，再改。

现在有另一条路：让 Claude Code 自己截屏、看到设置界面、点击开关、验证状态变化。**写完代码，自己看，自己测，自己改**，闭环了。

这就是 Computer Use——Claude Code 从"代码助手"变成了"全栈操作员"。不过先别急着兴奋，这个功能有明确的适用边界。本文带你从开启配置到实战踩坑，完整走一遍。

**前置提醒**：Computer Use 目前仅支持 macOS，需要 Pro（$20/月）或 Max 订阅。Windows 和 Linux 用户暂时用不了，Research Preview 阶段。

---

## Computer Use 是什么，什么时候该用

### 一句话定义

Claude Code 新增的能力：通过**截屏 → 视觉分析 → 模拟操作**的循环，直接控制你的本地 GUI 应用。不需要 API，不需要集成，看见什么就能操作什么。

### 工作原理

整个过程是一个不断重复的循环：

![截屏→分析→操作→验证 循环流程图](/blog/claude-code-computer-use/workflow.png)

1. Claude 对屏幕截屏
2. 视觉模型分析截图，识别 UI 元素和当前状态
3. 输出动作指令——点击某个坐标、输入文字、按快捷键、滚动页面
4. 本地执行器在你的 Mac 上执行这个动作
5. 再截屏，验证操作结果
6. 循环继续，直到任务完成

关键点：Claude 不直接控制屏幕。它通过"看截图 → 输出指令 → 由本地执行器执行"的间接模式工作。每步都要截图验证，所以**慢但可靠**。

### 什么时候该用 Computer Use？

Claude Code 有四层操作能力，按优先级从高到低选择：

![工具选择决策树](/blog/claude-code-computer-use/decision-tree.png)

```
你要操作的东西有 MCP Server 吗？
  → 有：用 MCP 集成（MCP 即 Model Context Protocol，让 AI 通过标准协议连接外部服务，如 Slack、Notion、数据库等，最精准）
  → 没有：有 CLI 可用吗？
    → 有：用 Bash 工具（快速可靠）
    → 没有：是浏览器里的操作吗？
      → 是：用 Claude in Chrome（浏览器专用，支持完整交互）
      → 不是：用 Computer Use（本地 GUI 应用的万能后备）
```

Computer Use 排在最后是有原因的——它依赖视觉识别，速度慢、精度不如直接 API 调用。但对于**没有 CLI、没有 API、只有图形界面**的场景，它是目前唯一的选择。

一个常见误解需要澄清：**Computer Use 对浏览器仅有查看权限，不能执行点击等交互操作**。Claude 能截屏看到浏览器页面内容，但无法在其中点击、输入或滚动。完整的浏览器自动化要用 Claude in Chrome 或 Playwright MCP 方案。

| 能力 | 适用场景 | 精确度 | 速度 | 典型用途 |
|------|---------|--------|------|---------|
| MCP 集成 | 有 API 的服务 | 高 | 快 | Slack、数据库 |
| Bash 工具 | 命令行操作 | 高 | 快 | git、npm、脚本 |
| Claude in Chrome | 浏览器内操作 | 高 | 中 | 网页测试、表单 |
| Computer Use | 本地 GUI 应用 | 中（视觉依赖） | 慢（截屏循环） | 系统设置、IDE、Finder |

---

## 开启与配置

### 前提条件

- **仅 macOS**（不支持 Windows/Linux，Research Preview 阶段）
- Claude Pro（$20/月）或 Max 订阅（Team/Enterprise 暂不可用）
- Claude Code v2.1.85 或更高（`claude --version` 检查）
- 必须通过 claude.ai 认证（不支持 Bedrock/Vertex/Foundry 等第三方 provider）
- 仅限交互式会话（`-p` 非交互模式不可用）

### 三步开启

**第一步：启用 MCP 服务器**

在 Claude Code 中输入 `/mcp`，在服务器列表中找到 `computer-use`（默认关闭），选择 Enable。

**第二步：授予 macOS 权限**

首次使用时弹出两个权限请求：
- **Accessibility（辅助功能）**：允许 Claude 点击、输入和滚动
- **Screen Recording（屏幕录制）**：允许 Claude 看到屏幕内容

路径：System Settings → Privacy & Security → 对应项，找到你的终端应用并启用。

**第三步：重启确认**

授权后选择 Try again。Screen Recording 权限可能需要**重启 Claude Code 或终端应用**才能生效。设置按项目持久化，每个项目只需配置一次。

### 权限模型与安全机制

启用 `computer-use` 服务器**不等于**授予 Claude 操作所有应用的权限。每个会话中首次使用某个应用时，终端会弹出审批提示，你可以选择 **Allow for this session** 或 **Deny**。

高风险应用会触发额外警告（Sentinel Warnings）：

| 应用类型 | 警告内容 |
|---------|---------|
| Terminal、VS Code 等 IDE | "Equivalent to shell access"——等同于给了 shell 权限 |
| Finder（访达） | "Can read or write any file"——可读写任意文件 |
| System Settings（系统设置） | "Can change system settings"——可修改系统配置 |

审批前务必读清楚提示。这不是走形式——授权 Terminal 意味着 Claude 可以执行任意命令。

不同类型的应用，Claude 获得的**控制等级**也不同：

| 控制等级 | 适用应用 | 说明 |
|---------|---------|------|
| View-only（仅查看） | 浏览器、交易平台 | 只能截屏查看，不能点击操作 |
| Click-only（仅点击） | 终端、IDE | 可以点击但操作受限 |
| Full control（完全控制） | 其他所有应用 | 点击、输入、拖拽等全部操作 |

这解释了为什么浏览器是 view-only——不是 bug，而是安全设计。终端和 IDE 被限制为 click-only 也是因为它们等同于 shell 访问。

**紧急停止**：随时按 `Esc` 或 `Ctrl+C` 中止操作。`Esc` 按键会被直接消费——即使屏幕上有对话框，Esc 也不会关闭对话框而是中止 Computer Use，这个设计防止了 prompt injection 利用 Esc 键来关闭安全确认框。Computer Use 运行时会获取机器级锁，同一时间只允许一个会话控制屏幕，其他应用会被隐藏（防止误操作非目标应用）。终端本身不会出现在截图中——主要目的是防止 prompt injection 通过截图中的终端输出反馈给模型，同时也起到隐私保护作用。

**安全实践建议**：
- 不在包含敏感信息（密码管理器、银行页面）的桌面上使用
- 多应用场景明确指定目标应用（"In System Settings, not Finder..."）
- 生产环境建议在虚拟机中隔离使用
- 内置 prompt injection 分类器会自动扫描每张截图，检测潜在的注入攻击。一旦识别到可疑内容，Claude 会暂停操作并向你确认后再继续
- 截图和操作记录保留在用户本地，Anthropic 响应后不保留数据（符合 Zero Data Retention 即零数据留存政策）
- **必须人工接管的场景**：登录认证、密码输入、金融交易、同意服务条款、接受 cookies 等操作，Anthropic 官方明确建议由人工完成，不应交给 Computer Use 自动执行

### 成本构成

Computer Use 的 token 消耗分三部分：

1. **系统提示开销**：约 466-499 tokens（固定，启用即产生）[^6]
2. **工具定义**：约 735 tokens（固定）[^6]
3. **每次截屏**：按 vision 定价，社区经验值约 1000-1500 tokens（取决于分辨率和内容复杂度）[^7]

[^6]: 来源：Anthropic Computer Use API 官方文档 platform.claude.com
[^7]: 来源：amanhimself.dev 实测 1000x1000 截屏约 1,334 tokens

粗略估算：一个典型的原生 App 测试任务（8-10 步操作），每步截屏 1000+ tokens，加上系统提示和工具定义的固定开销，总消耗大约是同等复杂度纯文本编码任务的数倍。

**额度警告**：社区反馈 Pro 计划的使用额度在重度 Computer Use 场景下消耗极快。PCWorld 编辑 Ben Patterson 实测让 Claude 在 3D 棋盘上下棋，30 分钟就几乎耗尽了 5 小时的 Pro 额度[^8]。

[^8]: 来源：Ben Patterson, "Claude controlled my Mac for half an hour", PCWorld, 2026 年 3 月

建议把额度留给真正需要视觉操作的场景，能用 Bash 解决的就别用 Computer Use。

---

## 实战场景

### 场景一：原生 App 设置验证（完整流程）

这是 Computer Use 最典型的应用场景——验证原生 GUI 应用的交互行为。以下是一个典型的使用流程。

**任务**：写了一个 macOS 菜单栏工具（MenuBarStats），需要验证偏好设置面板中的"刷新间隔"滑块是否正确更新标签文字，以及设置是否持久化。

**第一步：启动应用并打开偏好设置**

直接告诉 Claude：

```
Build the MenuBarStats target, launch it, open the preferences window,
and verify the interval slider updates the label. Screenshot the
preferences window when you're done.
```

Claude 会先用 Bash 执行 `xcodebuild` 编译项目，然后切换到 Computer Use 模式——截屏查看桌面，找到并启动应用，用 `Cmd+,` 快捷键打开偏好设置。

<!-- 截图：Claude Code 截屏后分析偏好设置窗口的输出 -->

**第二步：操作 UI 并验证**

Claude 截屏看到偏好设置窗口后，识别出滑块和标签的位置。它会：
1. 点击滑块并拖动到新位置
2. 截屏验证标签文字是否更新
3. 关闭偏好设置，重新打开
4. 再次截屏，确认设置已持久化

每一步操作后都会截屏验证，这就是"慢但可靠"的体现——不会假设操作成功就往下走。

<!-- 截图：自动拖动滑块并验证标签更新的过程 -->

如果验证过程中 Claude 发现了问题（比如标签在窗口缩小时被截断），它会直接切换回代码修复，然后重新编译、再次打开 App 验证——整个"写代码 → 编译 → 验证 → 发现问题 → 改代码 → 再验证"的闭环大幅减少了手动 GUI 操作。但请注意：**涉及登录、密码输入、金融交易、同意服务条款等操作，仍应由你手动接管**——Computer Use 不适合在这些场景下无人值守运行。

### 场景二：iOS Simulator 流程验证

写完 SwiftUI 代码后，让 Claude 打开 iOS Simulator 验证交互流程是否正确。

```
Open the iOS Simulator, launch the app, tap through the onboarding
screens, and tell me if any screen takes more than a second to load.
```

Claude 的执行路径：
1. 通过 Bash 启动 Simulator（`open -a Simulator`）
2. 切换到 Computer Use，截屏确认 Simulator 已启动
3. 在 Simulator 中导航——点击 Next、滑动页面、输入测试数据
4. 每个屏幕截图并记录加载时间
5. 汇报结果，标注慢的页面

这个场景的价值在于：Simulator 的交互测试以前要么手动做，要么写 XCUITest。Computer Use 提供了一个中间地带——比手动快（Claude 不会分心），比写测试轻（自然语言描述即可）。

### 场景三：Finder 文件整理

对一个混乱的项目目录，让 Claude 通过 Finder 查看文件结构并按规则整理。

```
Open ~/Downloads/project-assets in Finder, preview each image file,
rename them to match our naming convention (type-description-date),
and move screenshots to the screenshots/ subfolder.
```

Claude 会打开 Finder 窗口，用 Quick Look 预览文件内容（截屏识别文件类型和内容），然后执行重命名和移动操作。

**安全提醒**：Finder（访达）操作等同于任意文件读写。授权前确认操作范围，避免用模糊动词（如"clean up"——有用户因此被删了 11GB 数据[^9]）。明确说"rename and move"而不是"organize"。

[^9]: 来源：Reddit r/ClaudeAI，Cowork 发布后社区最热门的负面案例

---

## 提升成功率的关键技巧

### 官方推荐的最佳实践

**1. 每步后截图验证**

在 prompt 中加入验证要求：

```
After each step, take a screenshot and carefully evaluate if you have
achieved the right outcome. Only when you confirm a step was executed
correctly should you move on to the next one.
```

不要假设操作成功。Claude 偶尔会点错位置，截图验证是兜底。

**2. 键盘优先于鼠标**

键盘快捷键比坐标点击更稳定。`Cmd+,` 打开设置比在菜单栏里找 Preferences 再点击可靠得多。下拉菜单和滚动条这类精细 UI 元素，用键盘操作（如方向键选择、Tab 切换焦点）成功率更高。

**3. 用 zoom 放大小元素**

目标元素太小时，让 Claude 先用 zoom 动作放大该区域再操作。这在高分辨率屏幕上尤其有用——小图标在缩小后的截图里可能只有几个像素。

**4. 显式指定目标应用**

多窗口环境下，Claude 可能操作错误的窗口。在 prompt 中明确说"In Xcode, not VS Code"、"In the System Settings window, not Finder"。

**5. 点击后留等待时间**

UI 响应需要时间。可以在 prompt 中要求"点击后等 1 秒再截屏"，避免截到动画中间状态。

**6. 推荐分辨率**

推荐 1024x768，最长边不超过 1568px。超过这个尺寸截图会被降采样，Claude 在缩小后的图像上分析坐标，再反向换算到实际屏幕位置——中间的缩放转换容易引入偏差。

### 实际踩坑记录

**坑 1：Retina 高 DPI 坐标偏移**

macOS Retina 屏的 display scaling 会导致 Claude 输出的点击坐标与实际屏幕位置不匹配。官方给出的解决方案是手动 resize 截图并将坐标按比例换算回去。如果你遇到"明明看到了按钮但总是点偏"的情况，大概率是这个问题。

> 来源：Anthropic 官方 Computer Use API 文档

**坑 2：外接显示器黑屏**

连接外接显示器后，Computer Use 截屏可能出现黑屏或空白。解决方法简单粗暴：断开所有外接显示器，仅使用 MacBook 内置屏幕。

> 来源：Claude Computer Use Troubleshooting Guide (claudelab.net)

**坑 3：多浏览器窗口选错**

多个浏览器窗口打开时，Claude 可能操作错误窗口。解决方法：在 prompt 中明确指定"In Chrome, not Safari"。更稳妥的做法是操作前关闭不需要的窗口。

> 来源：Anthropic 官方文档

**坑 4：3D/透视界面精度差**

PCWorld 编辑 Ben Patterson 实测让 Claude 在国际象棋 App 的 3D 透视棋盘上下棋。Claude 自己也承认："The Chess app uses a 3D perspective board, which makes it tricky to click precisely." 结果是 30 分钟不断截屏重试，额度很快耗尽。3D 界面、透视变换、动画元素——这些目前都不适合用 Computer Use。

> 来源：Ben Patterson, PCWorld (2026 年 3 月)

### 当前已知限制

- **速度**：每个操作需完整截屏→分析→执行循环，比 Bash/MCP 慢一个数量级
- **浏览器 view-only**：Computer Use 不能在浏览器中点击，需要用 Claude in Chrome
- **CAPTCHA/2FA**：故意不支持（安全考虑）
- **不支持并发**：同一时间只能有一个会话使用 Computer Use
- **仅 macOS**：不支持 Windows/Linux
- **复杂任务偶尔需要重试**：官方原话是"Complex tasks sometimes need a second try"

### 什么时候不该用

- 有 CLI 能完成的事——用 Bash
- 有 API/MCP 集成的服务——用 MCP
- 浏览器内的操作——用 Claude in Chrome
- 涉及密码、支付等敏感操作
- 需要高精度像素级操作的场景（3D 界面、精密绘图）

---

## 与其他 AI 桌面操作方案对比

| 维度 | Claude Code Computer Use | ChatGPT agent（原 Operator） | Cursor Cloud Agents |
|------|-------------------------|---------------------------|---------------------|
| 定价 | $20/月 (Pro)[^1] | $20/月 (Plus) / $200/月 (Pro) | $20/月 (Pro)[^2] |
| 控制范围 | 本地桌面（非浏览器） | 云端浏览器 | 云端沙箱 |
| 适用人群 | 开发者 | 通用用户 | 开发者 |
| 编码集成 | 原生闭环 | 无 | IDE 原生 |

[^1]: $20/月是 Pro 订阅价格，但 Computer Use 消耗额度很快。重度使用可能需要 Max 计划（$100/月或 $200/月）。
[^2]: Cursor Pro $20/月已包含 Cloud Agents（来源：cursor.com/en/pricing，2026 年 3 月查询）。

Claude Code 的 Computer Use 不是一个独立产品，而是**编码工作流的自然延伸**——写完代码顺手验证原生 App 效果，不用切换工具。它的独特价值在"本地 GUI 应用"控制，而不是浏览器自动化（浏览器有更好的方案）。

**与 ChatGPT agent 的区别**：OpenAI 的桌面操作能力（原名 Operator）已在 2025 年 8 月并入 ChatGPT agent，不再作为独立产品存在[^3]。ChatGPT agent 是一个综合能力体（包含代码执行、连接器、终端等），但其**网页操作核心是云端浏览器**，面向通用 Web 任务；Claude Code Computer Use 运行在你的本地机器上，面向开发者的桌面操作——定位完全不同。

[^3]: 来源：OpenAI 帮助中心 help.openai.com/en/articles/10421097-operator

行业融合趋势也值得关注：UiPath（传统 RPA 厂商）已用 Claude Opus 4.5 驱动其 Screen Agent，在 OSWorld-Verified 基准测试中获得代理自动化最高排名[^4]。Cursor 在 2026 年 2 月上线了 Cloud Agents with Computer Use[^5]。传统自动化工具和 AI 编码工具正在融合——AI 桌面操作正在成为开发工具标配。

[^4]: 来源：UiPath 官方投资者关系页 ir.uipath.com，2026 年
[^5]: 来源：cursor.com/blog/agent-computer-use，2026-02-24

---

回到开头的场景：现在写完偏好面板代码，一句"帮我打开设置页面验证一下开关是否正常"就够了。

Computer Use 目前还在 Research Preview 阶段，体验不完美——慢、费额度、浏览器还不能点。但它代表的方向很明确：AI 编码工具正在从"文本世界"走向"可视世界"。当 Claude 能看见你屏幕上的一切，它能帮你做的事就不再局限于代码文件。

记住选择原则：**MCP > Bash > Claude in Chrome > Computer Use**。把 Computer Use 留给那些只有 GUI 才能操作的场景——系统设置（System Settings）、原生 App 验证、Xcode/Simulator 测试。在这些场景里，它是目前最省事的方案。

**现在就试试**：

1. 确认版本：`claude --version`（需 v2.1.85+）
2. 启用功能：在 Claude Code 中输入 `/mcp` → 启用 `computer-use`
3. 授权：Accessibility + Screen Recording 两项 macOS 权限
4. 试跑第一条 prompt：`Open System Settings, navigate to General > About, and tell me the macOS version and chip type`

从这条无风险的只读操作开始，感受一下截屏→分析→操作的循环。

---

## 相关阅读

- [Claude Code 安装后必做的 9 项设置](/posts/claude-code-essential-settings/) — 基础配置指南，Computer Use 是在这些设置完成后的进阶功能
- [从一条推文读懂 Claude Code：工具设计原理与实战指南](/posts/claude-code-tool-design-philosophy/) — 理解 Computer Use 在 Claude Code 工具体系中的位置
- [两天重建 Claude Code：一万行代码背后的架构设计](/posts/rebuild-claude-code-architecture/) — Computer Use 在 Claude Code 整体架构中的角色
