OpenClaw 怎么用：让 Agent 读网页、查资料和控制浏览器

OpenClaw 这类浏览器 Agent 工具应该先作为 browser 流程验证，而不是直接交给它真实账号。它不是一个“更会聊天的模型”，更像是给 Agent 加了一双眼睛和一只手：能读网页，能搜索，必要时还能打开浏览器看页面。

但你不能把它当成万能网页机器人。真正好用的方式，是先让它做轻量、只读、可复核的网页任务；等你知道它读得准、动作稳，再逐步把浏览器交互加进去。

官方来源与核验规则：

OpenClaw 项目官网/GitHub/README/release note；
Model Context Protocol；
Playwright Docs；
浏览器自动化相关工具的官方文档。

核验规则：先用公开网页、只读任务和托管浏览器 profile 验证；不要一开始接真实账号、提交表单、下载文件或发布内容。

浏览器 Agent 价值公式：

1	可用价值 = 网页读取收益 + 搜索整理收益 - 账号风险 - 自动点击风险 - 反自动化不确定性

先把 OpenClaw 理解成四层能力

我更建议把 OpenClaw 拆成四层来看，而不是一上来就问“它能不能帮我自动操作网站”。

第一层是 web fetch。它适合读公开静态页面，比如文档、博客、价格页、FAQ、功能页。你给它 URL，它去抓正文，再把网页整理成模型更容易看的文本。这个方式最轻，速度快，成本低，也不容易误操作。

第二层是 web search。这一步不是打开浏览器，而是通过你配置的搜索服务去找网页。你要先配好搜索 provider 和 API key，否则任务里写“去搜一下”也没用。搜索适合做候选页面收集，比如找 10 个竞品页面、找某个工具的使用案例、找某个主题最近有哪些讨论。

第三层是托管浏览器。OpenClaw 会启动一个专门给 Agent 用的浏览器 Profile。它不是你的日常浏览器，也不会默认带着你的登录态。这个很重要，因为它把实验环境和真实账号隔开了。

第四层才是更重的浏览器自动化，比如点击、输入、展开页面，或者用 Playwright 处理复杂页面。它很强，但也更容易遇到登录、验证码、反自动化检测、页面状态过期这些问题。所以我的建议是：能 fetch 就别开浏览器，能只读就别登录，能列清单就别让 Agent 直接提交。

安装前先想清楚：你到底想让它读什么

很多人装浏览器 Agent 的时候容易犯一个错：还没想清楚用途，就先把浏览器、搜索、账号、文件权限全打开。

更稳的顺序是先问三个问题。

第一，你主要读公开网页，还是要操作登录后的页面？如果只是读公开资料，那 fetch 和 search 已经能解决大部分问题。登录后的页面风险大很多，最好先列成“人工复核项”。

第二，你准备让它用哪个搜索服务？OpenClaw 有搜索入口，不代表你已经有搜索能力。你要配置 provider、API key，还要知道这个 provider 的额度和返回质量。不要把搜索失败误判成“网上没有内容”。

第三，浏览器 Profile 用谁的？托管 Profile 适合测试和公开页面读取；真实 Profile 可能能复用你的登录状态，但也意味着 Agent 能看到真实账号页面。除非任务非常明确，否则不要一开始就接真实浏览器。

我会把第一次安装后的目标设得很低：能 fetch 一个公开网页，能 search 到几条结果，能打开托管浏览器读到页面标题。这三件事都稳定了，再谈复杂自动化。

第一次测试不要做“自动运营账号”

OpenClaw 的第一条任务最好短一点、只读一点、结果可检查一点。

可以这样写：

请读取下面 3 个公开网页，只提取这些字段：页面标题、H1、主要功能、价格信息、FAQ 小标题和更新时间。
不要点击按钮，不要登录，不要提交表单，不要下载文件。
如果页面读取失败，直接标记“需要浏览器或人工复核”，不要猜。
最后输出一个 Markdown 表格：URL、读到了什么、缺了什么、下一步需要人工确认什么。

这个任务看起来普通，但能测出很多东西：fetch 能不能读页面，模型会不会乱补内容，遇到失败会不会停下来，输出能不能做成你后续能用的表格。

如果这个任务都不稳定，就不要急着让它去点按钮、填表单、跑多页面流程。

fetch 和浏览器怎么分工

我实际会按这个顺序用 OpenClaw：

场景	优先方式	原因
文档页、博客页、价格页	web fetch	快、便宜、可批量处理
需要先找候选页面	web search	先收集 URL，再逐个读取
页面大量依赖 JavaScript	托管浏览器	fetch 可能读不到正文
需要点击展开内容	托管浏览器	先看页面状态，再做动作
登录页、社交平台、后台页面	人工复核优先	账号和外部动作风险高

这样做的好处是你不会把所有问题都推给浏览器。浏览器 Agent 最贵的地方不是资源，而是不可控：页面会变，弹窗会挡，按钮文案会变，登录状态会过期，引用的页面元素也会失效。

所以只要网页能直接读，就先直接读。读不到再升级到浏览器。

DOM snapshot 不是截图

很多浏览器 Agent 读页面时，用的不是完整截图，而是 DOM snapshot。你可以把它理解成“页面结构的压缩版”：有哪些文本、按钮、链接、输入框，大概在什么层级。

这对模型很友好，因为 token 少，也方便定位元素。但它和人眼看到的页面不是一回事。

比如页面上有弹窗、遮罩、广告、懒加载区域、无限滚动内容，snapshot 可能只看到一部分。再比如你刚刚点击了一个按钮，旧 snapshot 里的按钮引用可能已经过期了。

所以浏览器任务里有一个很实用的习惯：每次导航、点击、展开之后，都重新读取页面状态。不要让 Agent 拿着旧页面信息连续猜。

真实浏览器 Profile 要慎用

有些任务用空白托管浏览器会失败，尤其是社交平台、登录页、后台系统、需要已有 Cookie 的页面。这个时候有人会让 Agent 连接真实浏览器 Profile。

技术上这条路能走，但我不建议把它当默认方案。

因为一旦接上真实 Profile，Agent 看到的就不是测试网页，而是你的真实账号、真实会话、真实后台。它可能看到私信、订单、草稿、控制台、支付信息，也可能碰到提交、删除、发布这类动作。

更稳的做法是：让 Agent 负责读取公开资料、整理字段、生成待确认清单；需要登录确认的部分，单独列出来，你自己打开浏览器检查。这样效率不会差太多，但出错空间小很多。

它适合放进什么工作流

OpenClaw 最适合做这些事：

批量读取公开网页，整理成表格。
给内容选题收集竞品页面和 FAQ。
检查某个工具页的功能、价格、更新时间。
把网页内容转成后续写作或产品分析能用的字段表。
对 fetch 读不到的页面做浏览器补漏。

它不适合一上来做这些事：

自动登录账号。
自动评论、私信、发帖。
自动提交表单、购买、删除内容。
绕过验证码、付费墙或平台限制。
自己判断“这个外部动作应该执行”。

这不是说 OpenClaw 能力不够，而是网页任务一旦外部可见，错误成本就变高。Agent 最擅长的是读、整理、对比、生成草稿；真正会影响账号、钱、发布状态的动作，最好人工点最后一下。

我的推荐配置顺序

如果你刚开始用，我建议按这个顺序开放能力：

只开 fetch，读公开网页。
配 search provider，用来找候选页面。
开托管浏览器，只做只读页面检查。
允许点击展开，但不允许提交。
只在明确任务里接真实 Profile，而且先把禁止动作写清楚。

每一步都用一个很小的任务验证，不要直接上复杂流程。比如先读 3 个 URL，再读 20 个 URL；先打开一个页面看标题，再让它点击展开 FAQ；先输出人工确认清单，再考虑是否让它继续执行下一步。

小结

OpenClaw 的价值不是“AI 可以控制浏览器”这句话，而是它让网页任务可以分层处理：简单页面直接 fetch，资料收集交给 search，复杂页面再开浏览器，登录和外部动作尽量留给人工。

如果你后面想把它接进更完整的 Agent 工作流，可以继续看 OpenClaw 和 MCP 怎么接：把浏览器能力做成 Agent 可控工具；如果你更关心本地流程怎么沉淀，可以看 Hermes Skills 怎么设计：把重复任务变成 Agent 可复用流程。

只要你按这个顺序用，它会很适合做网页研究、竞品分析和资料整理。反过来，如果一开始就让它接真实账号、自动提交、自动发布，那问题往往不是工具不好，而是任务设计太激进。