以我的親身體驗,談談如何正確理解"養蝦"

2026-03-16 | 來源: 觀察者網 | 有0人參與評論 | 字體: 放大縮小 | 收藏 | 打印

第壹個成功的測試發貼已經說了些技術細節：

“發布方式：Playwright + xvfb-run 自動化”

“這是KimiClaw在服務器環境中使用Playwright瀏覽器自動化工具完成的操作。”

OpenClaw威力最大的工具之壹，幾乎可以算是最核心的功能，就是這個Playwright。它是OpenClaw的手（網頁操作）和眼（網頁截屏），讓AI能實際控制瀏覽器，點擊、輸入、截圖、滾動、下載都行。但是，Playwright的神奇極為依賴與基座大模型的頻繁互動，才知道往下怎麼動作，壹次操作可能要50-100次截圖-決策循環。大模型要有多模態視覺理解能力，能理解截屏內容。

如上面的風聞發貼界面，Playwright會截屏給Kimi 2.5大模型看。Kimi 2.5有原生的視覺理解能力，能看懂“標題”、“正文”框什麼意思，告訴Playwright去填內容。如果是網絡購物之類的任務，要在網頁裡不斷點擊深入，如果不對需要反復試。所以Playwright非常耗token，有些人發現幹壹個事幾塊錢就沒了，因為要截屏100次去調用大模型理解，壹個截屏就要許多Token。

雖然Playwright很耗token，但它確實能自動操作網頁操作辦成不少事。Playwright是微軟開發的，代碼開源了，OpenClaw拿來作為最重要的功能組件之壹。

傳統爬蟲是訪問固定網址，只調用1次API就能獲取數據，成本幾乎為零。這也是許多“天氣查詢”之類的OpenClaw簡單skill的套路。但我在KimiClaw裡用這些簡單skill，感覺不是太強。這類簡單API訪問，無法完成復雜操作。互聯網公司提供官方API服務是有，如股票信息API，飛書機器人也是壹種API服務，要做得很完善並不容易。很有價值的，往往要付費，這就復雜了。Playwright能模范人完成復雜網頁操作，比爬蟲或者API調用從機制上就要強得多。

OpenClaw不是對觀網服務器發出壹堆字符串，然後壹瞬間在風聞發貼成功，觀網沒這個API服務。它是在Linux虛擬機裡，運行了瀏覽器，訪問風聞發貼頁面，然後往框子裡填了內容，點擊發送，完全和人壹樣操作，是壹個緩慢的過程。加上寫貼，5分鍾都做不完。

許多網站有反爬蟲、反機器人機制，發現“用戶不是人”就拒絕。據說90%的網站都有Cloudflare等反爬機制。Playwright是真的會拿屏幕去分析，慢慢操作，能繞開限制。但是對KimiClaw這類雲上虛擬LINUX服務器裡的OpenClaw，它沒有實體屏幕存在，所以構成有點困難。解決辦法是用xvfb-run工具，生成虛擬屏幕，讓Playwright去截屏。剛開始連趁手的瀏覽器都沒有，要去下載安裝Linux裡的Chromium瀏覽器。

再壹個問題是觀察者網風聞賬號登陸，解決辦法是人工在個人電腦上登陸成功，再從瀏覽器上下載Cookie，貼給KimiClaw，它知道如何去用。

雖然過程不簡單，但好處是大模型很強大，探索過程中會主動幫忙，給出各種方案。人不用說得很精確，讓KimiClaw去執行就好了。但人也需要理解大模型與OpenClaw給出的機制與反饋，配合行動。這需要壹些耐心與探索精神，OpenClaw可以算是功能強大的開放性開發平台，不是手機APP這類傻瓜化易用工具。

OpenClaw的強大，壹個是基座大模型的能力很強了，越過了實用的門檻；再壹個是有Playwright這類很實用的功能強大的工具。有了這些強大的武器，再配上傳統的互聯網API、程序算法，才開發出了OpenClaw。它的運作方式也是可以解釋的。

可以看出，OpenClaw自己其實沒啥智能，比如它自己拼湊發貼內容就不太對。但它顯得智能，來源是調用大模型，以及壹些強大的組件。它更像壹個組織者，對接用戶需求，讓大模型決策，調用各種功能解決問題。

[物價飛漲的時候這樣省錢購物很爽] 這條新聞還沒有人評論喔，等著您的高見呢

分享:

上壹頁 1 2 3 456 7 8 ...11 下壹頁

注：

新聞來源於其它媒體，內容不代表本站立場！

在此頁閱讀全文

意見

當前評論目前還沒有任何評論，歡迎您發表您的看法。

發表評論

手機版本

專家專欄

新樓盤

當前會員

地產中文書籍

以我的親身體驗,談談如何正確理解"養蝦"

意見