OpenClaw 不是一个“更会聊天的模型”,它更像是给 Agent 加了一双眼睛和一只手:能读网页,能搜索,必要时还能打开浏览器看页面。

但你不能把它当成万能网页机器人。真正好用的方式,是先让它做轻量、只读、可复核的网页任务;等你知道它读得准、动作稳,再逐步把浏览器交互加进去。

先把 OpenClaw 理解成四层能力

我更建议把 OpenClaw 拆成四层来看,而不是一上来就问“它能不能帮我自动操作网站”。

第一层是 web fetch。它适合读公开静态页面,比如文档、博客、价格页、FAQ、功能页。你给它 URL,它去抓正文,再把网页整理成模型更容易看的文本。这个方式最轻,速度快,成本低,也不容易误操作。

第二层是 web search。这一步不是打开浏览器,而是通过你配置的搜索服务去找网页。你要先配好搜索 provider 和 API key,否则任务里写“去搜一下”也没用。搜索适合做候选页面收集,比如找 10 个竞品页面、找某个工具的使用案例、找某个主题最近有哪些讨论。

第三层是托管浏览器。OpenClaw 会启动一个专门给 Agent 用的浏览器 Profile。它不是你的日常浏览器,也不会默认带着你的登录态。这个很重要,因为它把实验环境和真实账号隔开了。

第四层才是更重的浏览器自动化,比如点击、输入、展开页面,或者用 Playwright 处理复杂页面。它很强,但也更容易遇到登录、验证码、反自动化检测、页面状态过期这些问题。所以我的建议是:能 fetch 就别开浏览器,能只读就别登录,能列清单就别让 Agent 直接提交。

安装前先想清楚:你到底想让它读什么

很多人装浏览器 Agent 的时候容易犯一个错:还没想清楚用途,就先把浏览器、搜索、账号、文件权限全打开。

更稳的顺序是先问三个问题。

第一,你主要读公开网页,还是要操作登录后的页面?如果只是读公开资料,那 fetch 和 search 已经能解决大部分问题。登录后的页面风险大很多,最好先列成“人工复核项”。

第二,你准备让它用哪个搜索服务?OpenClaw 有搜索入口,不代表你已经有搜索能力。你要配置 provider、API key,还要知道这个 provider 的额度和返回质量。不要把搜索失败误判成“网上没有内容”。

第三,浏览器 Profile 用谁的?托管 Profile 适合测试和公开页面读取;真实 Profile 可能能复用你的登录状态,但也意味着 Agent 能看到真实账号页面。除非任务非常明确,否则不要一开始就接真实浏览器。

我会把第一次安装后的目标设得很低:能 fetch 一个公开网页,能 search 到几条结果,能打开托管浏览器读到页面标题。这三件事都稳定了,再谈复杂自动化。

第一次测试不要做“自动运营账号”

OpenClaw 的第一条任务最好短一点、只读一点、结果可检查一点。

可以这样写:

1
2
3
4
请读取下面 3 个公开网页,只提取这些字段:页面标题、H1、主要功能、价格信息、FAQ 小标题和更新时间。
不要点击按钮,不要登录,不要提交表单,不要下载文件。
如果页面读取失败,直接标记“需要浏览器或人工复核”,不要猜。
最后输出一个 Markdown 表格:URL、读到了什么、缺了什么、下一步需要人工确认什么。

这个任务看起来普通,但能测出很多东西:fetch 能不能读页面,模型会不会乱补内容,遇到失败会不会停下来,输出能不能做成你后续能用的表格。

如果这个任务都不稳定,就不要急着让它去点按钮、填表单、跑多页面流程。

fetch 和浏览器怎么分工

我实际会按这个顺序用 OpenClaw:

场景优先方式原因
文档页、博客页、价格页web fetch快、便宜、可批量处理
需要先找候选页面web search先收集 URL,再逐个读取
页面大量依赖 JavaScript托管浏览器fetch 可能读不到正文
需要点击展开内容托管浏览器先看页面状态,再做动作
登录页、社交平台、后台页面人工复核优先账号和外部动作风险高

这样做的好处是你不会把所有问题都推给浏览器。浏览器 Agent 最贵的地方不是资源,而是不可控:页面会变,弹窗会挡,按钮文案会变,登录状态会过期,引用的页面元素也会失效。

所以只要网页能直接读,就先直接读。读不到再升级到浏览器。

DOM snapshot 不是截图

很多浏览器 Agent 读页面时,用的不是完整截图,而是 DOM snapshot。你可以把它理解成“页面结构的压缩版”:有哪些文本、按钮、链接、输入框,大概在什么层级。

这对模型很友好,因为 token 少,也方便定位元素。但它和人眼看到的页面不是一回事。

比如页面上有弹窗、遮罩、广告、懒加载区域、无限滚动内容,snapshot 可能只看到一部分。再比如你刚刚点击了一个按钮,旧 snapshot 里的按钮引用可能已经过期了。

所以浏览器任务里有一个很实用的习惯:每次导航、点击、展开之后,都重新读取页面状态。不要让 Agent 拿着旧页面信息连续猜。

真实浏览器 Profile 要慎用

有些任务用空白托管浏览器会失败,尤其是社交平台、登录页、后台系统、需要已有 Cookie 的页面。这个时候有人会让 Agent 连接真实浏览器 Profile。

技术上这条路能走,但我不建议把它当默认方案。

因为一旦接上真实 Profile,Agent 看到的就不是测试网页,而是你的真实账号、真实会话、真实后台。它可能看到私信、订单、草稿、控制台、支付信息,也可能碰到提交、删除、发布这类动作。

更稳的做法是:让 Agent 负责读取公开资料、整理字段、生成待确认清单;需要登录确认的部分,单独列出来,你自己打开浏览器检查。这样效率不会差太多,但出错空间小很多。

它适合放进什么工作流

OpenClaw 最适合做这些事:

  1. 批量读取公开网页,整理成表格。
  2. 给内容选题收集竞品页面和 FAQ。
  3. 检查某个工具页的功能、价格、更新时间。
  4. 把网页内容转成后续写作或产品分析能用的字段表。
  5. 对 fetch 读不到的页面做浏览器补漏。

它不适合一上来做这些事:

  1. 自动登录账号。
  2. 自动评论、私信、发帖。
  3. 自动提交表单、购买、删除内容。
  4. 绕过验证码、付费墙或平台限制。
  5. 自己判断“这个外部动作应该执行”。

这不是说 OpenClaw 能力不够,而是网页任务一旦外部可见,错误成本就变高。Agent 最擅长的是读、整理、对比、生成草稿;真正会影响账号、钱、发布状态的动作,最好人工点最后一下。

我的推荐配置顺序

如果你刚开始用,我建议按这个顺序开放能力:

  1. 只开 fetch,读公开网页。
  2. 配 search provider,用来找候选页面。
  3. 开托管浏览器,只做只读页面检查。
  4. 允许点击展开,但不允许提交。
  5. 只在明确任务里接真实 Profile,而且先把禁止动作写清楚。

每一步都用一个很小的任务验证,不要直接上复杂流程。比如先读 3 个 URL,再读 20 个 URL;先打开一个页面看标题,再让它点击展开 FAQ;先输出人工确认清单,再考虑是否让它继续执行下一步。

小结

OpenClaw 的价值不是“AI 可以控制浏览器”这句话,而是它让网页任务可以分层处理:简单页面直接 fetch,资料收集交给 search,复杂页面再开浏览器,登录和外部动作尽量留给人工。

如果你后面想把它接进更完整的 Agent 工作流,可以继续看 OpenClaw 和 MCP 怎么接:把浏览器能力做成 Agent 可控工具;如果你更关心本地流程怎么沉淀,可以看 Hermes Skills 怎么设计:把重复任务变成 Agent 可复用流程

只要你按这个顺序用,它会很适合做网页研究、竞品分析和资料整理。反过来,如果一开始就让它接真实账号、自动提交、自动发布,那问题往往不是工具不好,而是任务设计太激进。