以我的亲身体验,谈谈如何正确理解"养虾"
第一个成功的测试发贴已经说了些技术细节:
“发布方式:Playwright + xvfb-run 自动化”
“这是KimiClaw在服务器环境中使用Playwright浏览器自动化工具完成的操作。”
OpenClaw威力最大的工具之一,几乎可以算是最核心的功能,就是这个Playwright。它是OpenClaw的手(网页操作)和眼(网页截屏),让AI能实际控制浏览器,点击、输入、截图、滚动、下载都行。但是,Playwright的神奇极为依赖与基座大模型的频繁互动,才知道往下怎么动作,一次操作可能要50-100次截图-决策循环。大模型要有多模态视觉理解能力,能理解截屏内容。

如上面的风闻发贴界面,Playwright会截屏给Kimi 2.5大模型看。Kimi 2.5有原生的视觉理解能力,能看懂“标题”、“正文”框什么意思,告诉Playwright去填内容。如果是网络购物之类的任务,要在网页里不断点击深入,如果不对需要反复试。所以Playwright非常耗token,有些人发现干一个事几块钱就没了,因为要截屏100次去调用大模型理解,一个截屏就要许多Token。
虽然Playwright很耗token,但它确实能自动操作网页操作办成不少事。Playwright是微软开发的,代码开源了,OpenClaw拿来作为最重要的功能组件之一。
传统爬虫是访问固定网址,只调用1次API就能获取数据,成本几乎为零。这也是许多“天气查询”之类的OpenClaw简单skill的套路。但我在KimiClaw里用这些简单skill,感觉不是太强。这类简单API访问,无法完成复杂操作。互联网公司提供官方API服务是有,如股票信息API,飞书机器人也是一种API服务,要做得很完善并不容易。很有价值的,往往要付费,这就复杂了。Playwright能模范人完成复杂网页操作,比爬虫或者API调用从机制上就要强得多。
OpenClaw不是对观网服务器发出一堆字符串,然后一瞬间在风闻发贴成功,观网没这个API服务。它是在Linux虚拟机里,运行了浏览器,访问风闻发贴页面,然后往框子里填了内容,点击发送,完全和人一样操作,是一个缓慢的过程。加上写贴,5分钟都做不完。
许多网站有反爬虫、反机器人机制,发现“用户不是人”就拒绝。据说90%的网站都有Cloudflare等反爬机制。Playwright是真的会拿屏幕去分析,慢慢操作,能绕开限制。但是对KimiClaw这类云上虚拟LINUX服务器里的OpenClaw,它没有实体屏幕存在,所以构成有点困难。解决办法是用xvfb-run工具,生成虚拟屏幕,让Playwright去截屏。刚开始连趁手的浏览器都没有,要去下载安装Linux里的Chromium浏览器。
再一个问题是观察者网风闻账号登陆,解决办法是人工在个人电脑上登陆成功,再从浏览器上下载Cookie,贴给KimiClaw,它知道如何去用。
虽然过程不简单,但好处是大模型很强大,探索过程中会主动帮忙,给出各种方案。人不用说得很精确,让KimiClaw去执行就好了。但人也需要理解大模型与OpenClaw给出的机制与反馈,配合行动。这需要一些耐心与探索精神,OpenClaw可以算是功能强大的开放性开发平台,不是手机APP这类傻瓜化易用工具。
OpenClaw的强大,一个是基座大模型的能力很强了,越过了实用的门槛;再一个是有Playwright这类很实用的功能强大的工具。有了这些强大的武器,再配上传统的互联网API、程序算法,才开发出了OpenClaw。它的运作方式也是可以解释的。
可以看出,OpenClaw自己其实没啥智能,比如它自己拼凑发贴内容就不太对。但它显得智能,来源是调用大模型,以及一些强大的组件。它更像一个组织者,对接用户需求,让大模型决策,调用各种功能解决问题。
[加西网正招聘多名全职sales 待遇优]
这条新闻还没有人评论喔,等着您的高见呢
“发布方式:Playwright + xvfb-run 自动化”
“这是KimiClaw在服务器环境中使用Playwright浏览器自动化工具完成的操作。”
OpenClaw威力最大的工具之一,几乎可以算是最核心的功能,就是这个Playwright。它是OpenClaw的手(网页操作)和眼(网页截屏),让AI能实际控制浏览器,点击、输入、截图、滚动、下载都行。但是,Playwright的神奇极为依赖与基座大模型的频繁互动,才知道往下怎么动作,一次操作可能要50-100次截图-决策循环。大模型要有多模态视觉理解能力,能理解截屏内容。

如上面的风闻发贴界面,Playwright会截屏给Kimi 2.5大模型看。Kimi 2.5有原生的视觉理解能力,能看懂“标题”、“正文”框什么意思,告诉Playwright去填内容。如果是网络购物之类的任务,要在网页里不断点击深入,如果不对需要反复试。所以Playwright非常耗token,有些人发现干一个事几块钱就没了,因为要截屏100次去调用大模型理解,一个截屏就要许多Token。
虽然Playwright很耗token,但它确实能自动操作网页操作办成不少事。Playwright是微软开发的,代码开源了,OpenClaw拿来作为最重要的功能组件之一。
传统爬虫是访问固定网址,只调用1次API就能获取数据,成本几乎为零。这也是许多“天气查询”之类的OpenClaw简单skill的套路。但我在KimiClaw里用这些简单skill,感觉不是太强。这类简单API访问,无法完成复杂操作。互联网公司提供官方API服务是有,如股票信息API,飞书机器人也是一种API服务,要做得很完善并不容易。很有价值的,往往要付费,这就复杂了。Playwright能模范人完成复杂网页操作,比爬虫或者API调用从机制上就要强得多。
OpenClaw不是对观网服务器发出一堆字符串,然后一瞬间在风闻发贴成功,观网没这个API服务。它是在Linux虚拟机里,运行了浏览器,访问风闻发贴页面,然后往框子里填了内容,点击发送,完全和人一样操作,是一个缓慢的过程。加上写贴,5分钟都做不完。
许多网站有反爬虫、反机器人机制,发现“用户不是人”就拒绝。据说90%的网站都有Cloudflare等反爬机制。Playwright是真的会拿屏幕去分析,慢慢操作,能绕开限制。但是对KimiClaw这类云上虚拟LINUX服务器里的OpenClaw,它没有实体屏幕存在,所以构成有点困难。解决办法是用xvfb-run工具,生成虚拟屏幕,让Playwright去截屏。刚开始连趁手的浏览器都没有,要去下载安装Linux里的Chromium浏览器。
再一个问题是观察者网风闻账号登陆,解决办法是人工在个人电脑上登陆成功,再从浏览器上下载Cookie,贴给KimiClaw,它知道如何去用。
虽然过程不简单,但好处是大模型很强大,探索过程中会主动帮忙,给出各种方案。人不用说得很精确,让KimiClaw去执行就好了。但人也需要理解大模型与OpenClaw给出的机制与反馈,配合行动。这需要一些耐心与探索精神,OpenClaw可以算是功能强大的开放性开发平台,不是手机APP这类傻瓜化易用工具。
OpenClaw的强大,一个是基座大模型的能力很强了,越过了实用的门槛;再一个是有Playwright这类很实用的功能强大的工具。有了这些强大的武器,再配上传统的互联网API、程序算法,才开发出了OpenClaw。它的运作方式也是可以解释的。
可以看出,OpenClaw自己其实没啥智能,比如它自己拼凑发贴内容就不太对。但它显得智能,来源是调用大模型,以及一些强大的组件。它更像一个组织者,对接用户需求,让大模型决策,调用各种功能解决问题。
[加西网正招聘多名全职sales 待遇优]
| 分享: |
| 注: | 在此页阅读全文 |
推荐:



