以我的親身體驗,談談如何正確理解"養蝦"
第壹個成功的測試發貼已經說了些技術細節:
“發布方式:Playwright + xvfb-run 自動化”
“這是KimiClaw在服務器環境中使用Playwright瀏覽器自動化工具完成的操作。”
OpenClaw威力最大的工具之壹,幾乎可以算是最核心的功能,就是這個Playwright。它是OpenClaw的手(網頁操作)和眼(網頁截屏),讓AI能實際控制瀏覽器,點擊、輸入、截圖、滾動、下載都行。但是,Playwright的神奇極為依賴與基座大模型的頻繁互動,才知道往下怎麼動作,壹次操作可能要50-100次截圖-決策循環。大模型要有多模態視覺理解能力,能理解截屏內容。

如上面的風聞發貼界面,Playwright會截屏給Kimi 2.5大模型看。Kimi 2.5有原生的視覺理解能力,能看懂“標題”、“正文”框什麼意思,告訴Playwright去填內容。如果是網絡購物之類的任務,要在網頁裡不斷點擊深入,如果不對需要反復試。所以Playwright非常耗token,有些人發現幹壹個事幾塊錢就沒了,因為要截屏100次去調用大模型理解,壹個截屏就要許多Token。
雖然Playwright很耗token,但它確實能自動操作網頁操作辦成不少事。Playwright是微軟開發的,代碼開源了,OpenClaw拿來作為最重要的功能組件之壹。
傳統爬蟲是訪問固定網址,只調用1次API就能獲取數據,成本幾乎為零。這也是許多“天氣查詢”之類的OpenClaw簡單skill的套路。但我在KimiClaw裡用這些簡單skill,感覺不是太強。這類簡單API訪問,無法完成復雜操作。互聯網公司提供官方API服務是有,如股票信息API,飛書機器人也是壹種API服務,要做得很完善並不容易。很有價值的,往往要付費,這就復雜了。Playwright能模范人完成復雜網頁操作,比爬蟲或者API調用從機制上就要強得多。
OpenClaw不是對觀網服務器發出壹堆字符串,然後壹瞬間在風聞發貼成功,觀網沒這個API服務。它是在Linux虛擬機裡,運行了瀏覽器,訪問風聞發貼頁面,然後往框子裡填了內容,點擊發送,完全和人壹樣操作,是壹個緩慢的過程。加上寫貼,5分鍾都做不完。
許多網站有反爬蟲、反機器人機制,發現“用戶不是人”就拒絕。據說90%的網站都有Cloudflare等反爬機制。Playwright是真的會拿屏幕去分析,慢慢操作,能繞開限制。但是對KimiClaw這類雲上虛擬LINUX服務器裡的OpenClaw,它沒有實體屏幕存在,所以構成有點困難。解決辦法是用xvfb-run工具,生成虛擬屏幕,讓Playwright去截屏。剛開始連趁手的瀏覽器都沒有,要去下載安裝Linux裡的Chromium瀏覽器。
再壹個問題是觀察者網風聞賬號登陸,解決辦法是人工在個人電腦上登陸成功,再從瀏覽器上下載Cookie,貼給KimiClaw,它知道如何去用。
雖然過程不簡單,但好處是大模型很強大,探索過程中會主動幫忙,給出各種方案。人不用說得很精確,讓KimiClaw去執行就好了。但人也需要理解大模型與OpenClaw給出的機制與反饋,配合行動。這需要壹些耐心與探索精神,OpenClaw可以算是功能強大的開放性開發平台,不是手機APP這類傻瓜化易用工具。
OpenClaw的強大,壹個是基座大模型的能力很強了,越過了實用的門檻;再壹個是有Playwright這類很實用的功能強大的工具。有了這些強大的武器,再配上傳統的互聯網API、程序算法,才開發出了OpenClaw。它的運作方式也是可以解釋的。
可以看出,OpenClaw自己其實沒啥智能,比如它自己拼湊發貼內容就不太對。但它顯得智能,來源是調用大模型,以及壹些強大的組件。它更像壹個組織者,對接用戶需求,讓大模型決策,調用各種功能解決問題。
[物價飛漲的時候 這樣省錢購物很爽]
這條新聞還沒有人評論喔,等著您的高見呢
“發布方式:Playwright + xvfb-run 自動化”
“這是KimiClaw在服務器環境中使用Playwright瀏覽器自動化工具完成的操作。”
OpenClaw威力最大的工具之壹,幾乎可以算是最核心的功能,就是這個Playwright。它是OpenClaw的手(網頁操作)和眼(網頁截屏),讓AI能實際控制瀏覽器,點擊、輸入、截圖、滾動、下載都行。但是,Playwright的神奇極為依賴與基座大模型的頻繁互動,才知道往下怎麼動作,壹次操作可能要50-100次截圖-決策循環。大模型要有多模態視覺理解能力,能理解截屏內容。

如上面的風聞發貼界面,Playwright會截屏給Kimi 2.5大模型看。Kimi 2.5有原生的視覺理解能力,能看懂“標題”、“正文”框什麼意思,告訴Playwright去填內容。如果是網絡購物之類的任務,要在網頁裡不斷點擊深入,如果不對需要反復試。所以Playwright非常耗token,有些人發現幹壹個事幾塊錢就沒了,因為要截屏100次去調用大模型理解,壹個截屏就要許多Token。
雖然Playwright很耗token,但它確實能自動操作網頁操作辦成不少事。Playwright是微軟開發的,代碼開源了,OpenClaw拿來作為最重要的功能組件之壹。
傳統爬蟲是訪問固定網址,只調用1次API就能獲取數據,成本幾乎為零。這也是許多“天氣查詢”之類的OpenClaw簡單skill的套路。但我在KimiClaw裡用這些簡單skill,感覺不是太強。這類簡單API訪問,無法完成復雜操作。互聯網公司提供官方API服務是有,如股票信息API,飛書機器人也是壹種API服務,要做得很完善並不容易。很有價值的,往往要付費,這就復雜了。Playwright能模范人完成復雜網頁操作,比爬蟲或者API調用從機制上就要強得多。
OpenClaw不是對觀網服務器發出壹堆字符串,然後壹瞬間在風聞發貼成功,觀網沒這個API服務。它是在Linux虛擬機裡,運行了瀏覽器,訪問風聞發貼頁面,然後往框子裡填了內容,點擊發送,完全和人壹樣操作,是壹個緩慢的過程。加上寫貼,5分鍾都做不完。
許多網站有反爬蟲、反機器人機制,發現“用戶不是人”就拒絕。據說90%的網站都有Cloudflare等反爬機制。Playwright是真的會拿屏幕去分析,慢慢操作,能繞開限制。但是對KimiClaw這類雲上虛擬LINUX服務器裡的OpenClaw,它沒有實體屏幕存在,所以構成有點困難。解決辦法是用xvfb-run工具,生成虛擬屏幕,讓Playwright去截屏。剛開始連趁手的瀏覽器都沒有,要去下載安裝Linux裡的Chromium瀏覽器。
再壹個問題是觀察者網風聞賬號登陸,解決辦法是人工在個人電腦上登陸成功,再從瀏覽器上下載Cookie,貼給KimiClaw,它知道如何去用。
雖然過程不簡單,但好處是大模型很強大,探索過程中會主動幫忙,給出各種方案。人不用說得很精確,讓KimiClaw去執行就好了。但人也需要理解大模型與OpenClaw給出的機制與反饋,配合行動。這需要壹些耐心與探索精神,OpenClaw可以算是功能強大的開放性開發平台,不是手機APP這類傻瓜化易用工具。
OpenClaw的強大,壹個是基座大模型的能力很強了,越過了實用的門檻;再壹個是有Playwright這類很實用的功能強大的工具。有了這些強大的武器,再配上傳統的互聯網API、程序算法,才開發出了OpenClaw。它的運作方式也是可以解釋的。
可以看出,OpenClaw自己其實沒啥智能,比如它自己拼湊發貼內容就不太對。但它顯得智能,來源是調用大模型,以及壹些強大的組件。它更像壹個組織者,對接用戶需求,讓大模型決策,調用各種功能解決問題。
[物價飛漲的時候 這樣省錢購物很爽]
| 分享: |
| 注: | 在此頁閱讀全文 |
推薦:



