以我的亲身体验,谈谈如何正确理解"养虾"

2026-03-16 | 来源: 观察者网 | 有0人参与评论 | 字体: 放大缩小 | 收藏 | 打印

第一个成功的测试发贴已经说了些技术细节：

“发布方式：Playwright + xvfb-run 自动化”

“这是KimiClaw在服务器环境中使用Playwright浏览器自动化工具完成的操作。”

OpenClaw威力最大的工具之一，几乎可以算是最核心的功能，就是这个Playwright。它是OpenClaw的手（网页操作）和眼（网页截屏），让AI能实际控制浏览器，点击、输入、截图、滚动、下载都行。但是，Playwright的神奇极为依赖与基座大模型的频繁互动，才知道往下怎么动作，一次操作可能要50-100次截图-决策循环。大模型要有多模态视觉理解能力，能理解截屏内容。

如上面的风闻发贴界面，Playwright会截屏给Kimi 2.5大模型看。Kimi 2.5有原生的视觉理解能力，能看懂“标题”、“正文”框什么意思，告诉Playwright去填内容。如果是网络购物之类的任务，要在网页里不断点击深入，如果不对需要反复试。所以Playwright非常耗token，有些人发现干一个事几块钱就没了，因为要截屏100次去调用大模型理解，一个截屏就要许多Token。

虽然Playwright很耗token，但它确实能自动操作网页操作办成不少事。Playwright是微软开发的，代码开源了，OpenClaw拿来作为最重要的功能组件之一。

传统爬虫是访问固定网址，只调用1次API就能获取数据，成本几乎为零。这也是许多“天气查询”之类的OpenClaw简单skill的套路。但我在KimiClaw里用这些简单skill，感觉不是太强。这类简单API访问，无法完成复杂操作。互联网公司提供官方API服务是有，如股票信息API，飞书机器人也是一种API服务，要做得很完善并不容易。很有价值的，往往要付费，这就复杂了。Playwright能模范人完成复杂网页操作，比爬虫或者API调用从机制上就要强得多。

OpenClaw不是对观网服务器发出一堆字符串，然后一瞬间在风闻发贴成功，观网没这个API服务。它是在Linux虚拟机里，运行了浏览器，访问风闻发贴页面，然后往框子里填了内容，点击发送，完全和人一样操作，是一个缓慢的过程。加上写贴，5分钟都做不完。

许多网站有反爬虫、反机器人机制，发现“用户不是人”就拒绝。据说90%的网站都有Cloudflare等反爬机制。Playwright是真的会拿屏幕去分析，慢慢操作，能绕开限制。但是对KimiClaw这类云上虚拟LINUX服务器里的OpenClaw，它没有实体屏幕存在，所以构成有点困难。解决办法是用xvfb-run工具，生成虚拟屏幕，让Playwright去截屏。刚开始连趁手的浏览器都没有，要去下载安装Linux里的Chromium浏览器。

再一个问题是观察者网风闻账号登陆，解决办法是人工在个人电脑上登陆成功，再从浏览器上下载Cookie，贴给KimiClaw，它知道如何去用。

虽然过程不简单，但好处是大模型很强大，探索过程中会主动帮忙，给出各种方案。人不用说得很精确，让KimiClaw去执行就好了。但人也需要理解大模型与OpenClaw给出的机制与反馈，配合行动。这需要一些耐心与探索精神，OpenClaw可以算是功能强大的开放性开发平台，不是手机APP这类傻瓜化易用工具。

OpenClaw的强大，一个是基座大模型的能力很强了，越过了实用的门槛；再一个是有Playwright这类很实用的功能强大的工具。有了这些强大的武器，再配上传统的互联网API、程序算法，才开发出了OpenClaw。它的运作方式也是可以解释的。

可以看出，OpenClaw自己其实没啥智能，比如它自己拼凑发贴内容就不太对。但它显得智能，来源是调用大模型，以及一些强大的组件。它更像一个组织者，对接用户需求，让大模型决策，调用各种功能解决问题。

[物价飞涨的时候这样省钱购物很爽] 无评论不新闻，发表一下您的意见吧

分享:

上一页 1 2 3 456 7 8 ...11 下一页

注：

新闻来源于其它媒体，内容不代表本站立场！

在此页阅读全文

意见

当前评论目前还没有任何评论，欢迎您发表您的看法。

发表评论

手机版本

专家专栏

新楼盘

当前会员

地产中文书籍

以我的亲身体验,谈谈如何正确理解"养虾"

意见