2026快過半:壹萬字,把這半年AI發生的事講明白

2026-06-12 | 來源: 沃垠AI | 有0人參與評論 | 字體: 放大縮小 | 收藏 | 打印

大家好，我是冷逸。

昨天晚上做飯的時候，我用手機命令電腦裡的 AI 幹了叁件事：打開壹堆 PDF 發票整理成 Excel 報銷單、壹句話給電影《火遮眼》做壹個帶宣傳視頻+海報的網站，以及按我的風格給這篇稿子寫個開頭。

飯做完，活兒幹完了。

這種事，壹年前是科幻，今年是日常。

我說這個不是要煽情。我是想說，2026 上半年的 AI，已經不是“哪個模型分高”那回事了。模型這壹頭的卷，到 GPT-5.5、Claude 4.8、M3 這壹檔，邊際收益肉眼可見地在遞減。真正發生變化的地方，悄悄挪到了別處——挪到了你怎麼把 AI 裝進自己生活、裝進自己工作流以及裝進自己的電腦裡。

這半年我壹線測過的產品多到說不清，發布會看到壹半就關掉的也多到數不清。這篇文章不是流水賬，是我從壹堆事裡挑了 10 件，自己親手用過、踩過坑、形成判斷的，串成壹條線。

10 個話題的順序是：Agent Skills、OpenClaw、Harness、Multi-Agent（包括Agent OS、Sub-agent）、Coding Plan、CLI回歸、Desktop Agent、Physical AI、語音交互、Seedance 2.0。

壹萬字，慢慢看。

壹、Agent Skills：2026 年最值得學的技能

整個上半年，最被低估、又最影響壹線工作流的事，是 Agent Skills。

它在半年裡完成了從壹家廠的功能，到行業標准的跨越。Anthropic 去年 10 月推出，12 月做成開放標准，到現在OpenAI、谷歌以及國內 AI 廠商全跟上。

那它到底是什麼。壹句話理解，Skills 是壹個文件夾，裡面必須有壹份 SKILL.md，開頭是 YAML 元數據 name 和 description，下面是 Markdown 寫的執行說明，再帶上可選的 scripts 子目錄、references 子目錄和 assets 資源文件。

Agent Skills 最有意思的是progressive disclosure 這個漸進式披露機制。叁層結構。第壹層是元數據，每個 Skill 大約 50 到 100 個 token，會話啟動時全部 Skills 的 name 和 description 都進系統提示詞，模型只是“知道有這些 Skill 存在”。第贰層是指令，整份 SKILL.md 的正文，官方建議控制在 5000 token 以內、500 行以內，只在模型判斷當前任務匹配某個 Skill 時才加載進上下文。第叁層是資源，scripts 和 references 這些更深的文件，只在 SKILL.md 主動 reference 到它們時才進上下文。

這套架構在解決壹個非常實在的問題，上下文的稀缺性。早期 Agent 的痛點是塞東西，誰都想往 System Prompt 裡塞更多專業知識，但塞越多模型越糊。Skills 把“有哪些能力”和“具體怎麼幹”在物理上拆開了，讓模型只為正在做的事付 token。

Skills 解決的真正問題，不是 Prompt 長短，是個人知識的資產化。壹個公司裡最值錢的從來不是 SOP 文檔，而是只有幾個老員工才知道的“這個表必須按這個口徑填”。過去這種東西要麼靠人傳人，要麼寫成員工手冊然後沒人看。Skills 第壹次讓“個人或團隊的方法論”具備了被分發、被復用、被版本化管理的形態。

我自己用下來，最大的感受是效率神器。我給沃垠AI寫了壹堆 Skill，從選題收集、寫作風格到標題生成，每加壹個新 Skill，模型在沒觸發它的時候完全感受不到，觸發後又能精准照做。這種“加它不虧，用它管用”的體驗，是 Prompt 工程時代不可能有的。

時間走到 2026 年 6 月，再說“學會怎麼問 AI”已經過時了。該學的是怎麼教 AI，而 Skills 是這件事最幹淨的載體。

贰、OpenClaw：全民 Agent 的第壹次破圈

2026 年春節後，國內 AI 圈最熱的壹個名字是龍蝦，學名 OpenClaw，開源協議，TypeScript 寫的，作者是 Peter Steinberger。這名字怎麼來的，故事很簡單。作者 Peter 想做壹個叫 Molty 的“太空龍蝦”AI 助理，做著做著把底層那壹塊抽出來開源，名字就成了 OpenClaw，“Open + 螯”。其GitHub Star數已達到37萬，成為開源Top 1。

它解決了壹個被忽視很久的問題。

過去做 Agent，主流路徑就兩條。比如 ChatGPT 的 Operator、Manus、Genspark 這些，你點開網頁用，體驗好但你的對話、文件、Memory 全在別人家服務器上跑。另壹類是 Claude Code、Codex 這種 CLI，本地是本地，但本質上是壹個寫代碼的終端工具，多通道、跨設備、永遠在線這件事它不管。

OpenClaw 把這兩條路接起來了。它本身不是模型，是壹個本地起的 Gateway，給你接全套通訊渠道，然後掛任何你想用的LLM。微信、Telegram、WhatsApp、Slack、Discord，連 macOS / iOS 的語音喚醒和 Android 的連續語音都做了，背後都是同壹個跑在你自己機器上的 Agent，同壹份 Memory，同壹份 Skill 庫。

它真正引爆是春節那陣，幾乎全民都在養龍蝦。Kimi、GLM 和 MiniMax 相繼推出了 Coding Plan，能在 OpenClaw 裡直接掛國產模型。99元壹個月你能跑壹個永遠在線的私人 Agent，擱壹年前是不敢想的事。

但說實話它有它的“貴”。OpenClaw 是個心思特別細膩的管家，每壹輪對話都拖家帶口地把系統提示、長期記憶、技能元數據全塞進去。我剛裝上那會兒，充了 50 塊到雲廠商，問到第叁個問題余額就負了。OpenClaw 的 token 消耗大概是 Claude Code 的 3 到 5 倍。這不是 bug，是它的形態決定的。壹個永遠在線、跨多通道的 Agent，必須隨時拎著完整上下文，否則人格、記憶、技能就接不上。

這玩意來得快，去得也快。現在，龍蝦熱潮已經大大降低，還留下來在玩的人絕對是龍蝦的超級發燒友。它當然還有很多問題，比如新手門檻較高，安全性壹直是個大問題，以及很燒token。但它把“自動化 Agent”從極客玩具拽到了大眾能用的水平，這壹步意義已經夠大。

我個人的判斷是，2026 下半年的核心戰場不在通用 ChatBot，而在每個人都可以有自己的專屬 Agent。OpenClaw 是第壹個真正能跑通的開源樣本。

叁、Harness：給 LLM 牽壹條韁繩

Harness Engineering，在 2026 年上半年討論還挺火熱的。當然這個火熱主要集中在 AI 公司裡，非 AI 從業者可能關注比較少。

中文翻譯挺別扭，挽具、馬具、韁繩，怎麼翻都不傳神。它指的是包在 LLM 外面壹整層的工程化基礎設施，包括指令 (Instructions)、約束 (Constraints)、反饋 (Feedback)、記憶 (Memory)、編排 (Orchestration)等。它的核心作用，是把壹個原本不可預測的模型，變成壹個穩定、可控、可用的“數字員工”。

為什麼 Harness 突然在 2026 年變成共識。壹個原因是大家發現，模型再強也撐不住上下文爆炸，真正決定成敗的是它外面那層“韁繩”。同樣壹個模型，在 Cursor 裡跑和在 Claude Code 裡跑，體感差好幾個段位，差就差在 Harness 的工程質量。

這個語境裡跑出來的代表產品叫Hermes Agent。開源，可自由接Claude、GPT、Kimi、GLM、MiniMax、Qwen和DeepSeek，3月開始成為 AI 極客的新寵兒，超過 OpenClaw。

它解決的問題，跟 OpenClaw 表面像，但骨子裡不壹樣。OpenClaw 的核心敘事是“自動化 Agent”，跨通訊通道、本地永遠在線。Hermes Agent 的核心敘事是“自我進化的Agent”。你今天教它壹件事，下周它會自己評分、決定保留還是淘汰，質量不行的 Skill 它會自己合並或者刪掉。

6月3日，Hermes Agent推出了桌面版，macOS、Windows、Linux都能用，前後端共享同壹份配置、技能和記憶。你在CLI起的會話，能直接接到桌面端。

我自己的判斷是，Harness 在 2026 下半年會越來越重要。模型層的卷已經開始邊際遞減，Harness 這壹層才剛開始。

肆、Multi-Agent：Agent 開始組隊幹活

2026 年上半年，Agent 圈最顯著的變化是單 Agent 開始過時了。

不是 AI 不夠強，是任務變復雜了。壹個企業級代碼遷移、壹份跨多平台的市場調研、壹次大型 bug 跨服務排查，單壹上下文窗口塞不下，單壹思路也跑不完。多 Agent 協作在這半年裡從論文走到了產品，名詞也跟著分裂出來壹堆，Sub-agent、Agent Team、Multi-Agent、Agent OS，聽起來近，差別大。

先把這幾個詞分清楚。

Sub-agent。壹次性、隔離、向上匯報。主 Agent 派壹個或壹組子 Agent 出去幹活，子 Agent 有自己的上下文窗口，幹完只把結果匯總回來，期間互不通訊。這是最輕量的多智能體形態，本質是上下文隔離 + 並行加速。Claude Code 文檔裡把這壹類描述得很直白，fire-and-forget worker。VS Code 1.109 在 2026 年 2 月把 Sub-agent 做成了 IDE 壹等公民，直接支持多個子 Agent 並發跑、可視化看進度。

Agent Team。多個Sub-Agent + 壹個 Team Lead，長跑、共享任務列表、有 mailbox 互相通訊。區別在於隊員之間能直接對話、能爭論、能在發現問題時彼此預警。代價是 token 成本起飛。

Dynamic Workflows。Anthropic 5 月 28 日跟 Opus 4.8 壹起發的東西，中文名叫“動態工作流”。它不是讓你手動派子 Agent，而是讓 Claude 自己寫壹份 orchestration 腳本，動態決定要拉幾拾甚至上百個子 Agent，並行跑、獨立驗證、再交叉收斂。官方給的演示場景是大型代碼庫遷移和企業級 bug 跨服務排查，本來要幾周的活兒壓到幾天。

Agent OS。這是野路子最多的壹個詞，沒有過官方定義。開發者社區裡折騰出來的形態是：壹個 CEO Agent 做規劃，壹個 COO Agent 做路由，再有壹個研究員做長程任務，壹個個人助理采集屏幕和麥克風做上下文。說白了就是用多個開源 Agent 拼壹個個人級的 AI 操作系統。

Multi-Agent。這是最大的傘概念，上面所有的形態都屬於它。Cursor v3 內置最多 8 個並發 Agent，Google Antigravity 2.0 上線了 Agent Teams，GitHub Copilot 也跟進了 multi-agent workspace，amux 這種工具不可知的 orchestrator 用 tmux + SQLite 任務板 + git worktree 把多個不同廠的 Agent 編在壹起跑。

為什麼 2026 年上半年“多智能體架構”這件事突然集中爆發。我自己的判斷有叁條線索。

第壹條，模型上下文窗口不再是瓶頸，工程能力反倒成了瓶頸。1M token 已經是 Claude、Gemini 的標配，但你真把 1M 都塞滿，模型注意力切得稀碎。與其往壹個上下文裡硬塞，不如分裂成多個隔離上下文跑，每個幹淨、各自負責壹塊。這是 Sub-agent 流行的根本原因。

第贰條，Agentic 任務的真實形態就是分布式系統。Hermes Agent v0.13 那個 Kanban 多 Agent 看板我之前講過，心跳、重認領、僵屍檢測、retry，這些機制全是從分布式系統直接搬來的。Agent Team 也好、Dynamic Workflows 也罷，本質都是把模型當 worker，把 orchestration 當成壹個分布式調度問題。這個范式壹旦確立，多 Agent 協作就只是工程實現問題了。

第叁條，企業用戶真正進場。OpenAI 4 月 22 日發的 Workspace Agents、6 月 4 日上線的 ChatGPT Workspace Agents，全是沖著團隊協作來的，目標用戶從開發者擴到了銷售、市場、客服。這是從“session-based chat”到“fleet-based agent work”的范式遷移。組織裡需要的從來不是壹個萬能 ChatGPT，而是壹支各司其職、能持久跑的 Agent 編隊。

我自己體驗下來最大的體會：Sub-Agent 真好用，token 翻倍但任務質量明顯跳壹檔，特別是在長程研究和編程這類場景。Agent Team 就壹言難盡了，多個 Agent 互相通訊聽起來美，實際跑起來經常出現“兩個隊員都覺得對方應該先動”的死鎖。動態工作流真有效果，但成本是真高。

回頭看會覺得很有意思，2024 年我們說 Agent 是工具調用，2025 年說 Agent 是工作流，2026 年終於說到了“Agent 團隊”這個層級。壹個跑得好的 Agent 團隊，不再像壹個工具，更像壹個真正的部門。

伍、Coding Plan：AI 市場化路上的經典事件

2026 年上半年，影響開發者最大的壹次價格革命，是 Coding Plan。

這事的來龍去脈得從壹年前講起。Cursor、Claude Code這些 AI 編程工具，2024 年上線時幾乎統壹按 token 計費。壹個稍微復雜點的編程任務，跑壹次 Opus 幾拾美元起步，OpenClaw 這種 24 小時在線的 Agent 壹天燒出幾百塊也不稀奇。我自己裝 OpenClaw 那會兒，充 50 塊API進去，問到第叁個問題余額就負了。這是非常真實的體驗，不是段子。

按 token 付費，費用真的離譜。每壹次按回車前，你腦子裡都得過壹遍這個 prompt 大概要燒多少錢。開發者最討厭的事就是這種持續認知稅，寫代碼本來就累，再疊壹層成本焦慮，體驗直接勸退。

轉折點是 GLM 推出的 GLM Coding Plan。

定價結構很直接。20 元壹個月起，從 Lite 到 Max 200 元封頂。相比 Anthropic 自家 20 美元的 Pro 和 100 美元的 Max，定價差出壹個數量級。給的不是次數限制，是 5 小時滾動配額加上 7 天周配額。20 元這壹檔基本能撐住壹個全職程序員每天的 AI 編程量。

更關鍵的是兼容生態。改壹行環境變量就能切過去，國產模型直接掛在 Claude Code 的殼子裡跑。MiniMax、Kimi、阿裡雲百煉、火山方舟、階躍星辰等緊跟其後對標。大家壹聯手，整個行業的定價范式被改變了。

為什麼 Coding Plan 這個形態能成。我自己的理解有叁條。

第壹條，模型邊際成本下來了。GLM-5.1 在主流編程基准上能做到 Opus 4.6 大約九成的水平，國內推理成本本身就低，再加上 GLM 自有雲、自家模型、自營售賣，壹手貨賣給開發者。MiniMax、Kimi同理。這種垂直整合讓“低價吃飽”在商業上跑得通。

第贰條，開發者不需要“最強模型”，需要“夠用且不貴”。我自己天天用 Claude Code 的體感最直接，寫日常的腳本、做網站、跑 Skill，GLM-5.1 在 Claude Code 殼子裡基本無感，跟原生 Sonnet 體驗差不多。

第叁條，訂閱制本身降低了認知稅。每月固定支出，按慣性跑，大腦不再對“這次該不該問”做經濟計算。這件事的工程意義被嚴重低估。開發者願意問得更多、試得更猛、錯得更頻繁，這正是 AI 編程能力漲上來的土壤。

2026 下半年，我認為 Coding Plan 還會繼續下沉，月費 20 美元這壹檔會逐步成為開發者標配。

Coding 的成本焦慮是過去兩年最大的壹道牆，Coding Plan 把這道牆拆掉了。這事的功勞簿上，GLM 得記壹筆。

六、CLI：AI 時代的統壹接口

2026 年回頭看，CLI 這個東西在 AI 圈裡地位的逆轉挺戲劇的。

往前兩年還在說“AI 讓普通人不用學命令行了”。Copilot 寫代碼、Cursor 拉聊天框、ChatGPT 用網頁對話，所有產品都在做更輕、更視覺、更小白的入口。

但到了 2025 年下半年，風向掉頭。Anthropic 推出 Claude Code，OpenAI 拿出 Codex CLI，Google 發布 Gemini CLI，幾個月內叁大廠同步發布壹個跑在終端裡的 Agent。這件事去年看是反常識的，今年回頭看是必然的。

為什麼是 CLI。

最直接的原因是 Coding Agent 的最佳工作面就是文件系統和命令行。你讓壹個 Agent 幫你做遷移，它得能切目錄、能 git、能跑測試。這些動作在圖形界面裡全是繞路，在終端裡就是原生。CLI本身就是歷史上最穩定、最強大的“工具調用協議”，過去肆拾年程序員積累下來的所有工具都能直接用上。

更深壹層，CLI 是被嚴肅對待的“人機協作界面”。GUI 優化的是首次使用的好懂，CLI 優化的是高頻使用的快和穩。

除了 Coding Agent 喜歡 CLI 外，其他很多產品也都在 CLI 化。比如，飛書可以 CLI 鏈接各個 Agent 裡。甚至很多產品開發出兩版，壹版是 GUI 給人類用，壹版是 CLI 給 AI 用。這是今年特別有意思的壹個事情。

但 CLI 也不是完美的。它對新手仍然不友好，CLAUDE.md / AGENTS.md 該寫什麼、Plan Mode 怎麼用、Sub-Agent 派多少個、Skills 怎麼掛，這些都需要學習成本。它對持續會話也仍然挑戰大，長程任務跑到壹半窗口斷了、tmux 掛了，恢復體驗跟 GUI 差著壹個段位。這也是為什麼 Hermes Desktop 這種“命令行內核 + 桌面殼子”的形態會出現。

下壹波的產品演化，我猜會出現在“命令行內核 + 多形態殼子”這壹層。終端、桌面、Web 全打通，記憶和技能跨表面共享。

柒、Desktop Agent：AI 真正走進你的電腦

2026 年上半年最具體的壹次范式變化，是 Desktop Agent 這個形態終於跑通了。

我說的“具體”是真的具體。AI 不再是瀏覽器裡的壹個 Chat 網頁，而是壹個本地跑著的程序，能讀你磁盤上的文件、調你電腦裡的應用、敲你桌面上的鍵。這件事被預言了兩叁年，今年上半年多家 AI 公司都給出了答案。

Codex（OpenAI）。2026年2月2日 macOS 版上線，3月4日 Windows 跟上，6月4日已經迭代到 rust-v0.138.0-alpha.4。它定位很明確，不是來替代 Codex CLI 的，是給多 Agent 工作流做壹個 GUI 指揮中心。壹個窗口裡同時掛多個項目、多個線程、多個 worktree，每個 Agent 在隔離的代碼副本裡跑，不打架。Skills 跟 CLI、IDE 完全互通，你在終端裡寫好的 Skill 在 Codex 裡直接能用。

Claude Cowork（Anthropic）。瞄的不是開發者，是知識工作者。你給它指壹個文件夾、說壹句“把收據整理成報銷表”，它去讀、去歸類、去出 Excel。有壹個細節我特別喜歡：Cowork 主要是用 Claude Code 自己寫出來的，前後開發周期大概壹周半。這本身就挺戲劇的，壹個 Coding Agent 給自己寫出來壹個面向非程序員的 Desktop Agent。

同時國內，Qoder Work、Workbuddy、TRAE SOLO、MiniMax Agent、Skywork、Kimi Work等桌面端產品也如雨後春筍般冒了出來。

為什麼是 2026 上半年。

第壹個原因是模型層准備好了。Computer Use 這件事 2024 年 Anthropic 第壹次放出來的時候跑得通，但穩定性壹塌糊塗。壹年後 Claude 4.x 系列、GPT-5 系列在視覺理解、UI 元素定位、連續操作上達到了“敢上線”的水平。Online-Mind2Web 這種瀏覽器自動化基准測出來的成績從去年的“勉強”變成了“能用”。

第贰個原因是 Skills 標准化了。Desktop Agent 跟 Coding Agent 的最大區別是它要面對的工具種類多到爆炸。每壹個應用都是壹種隱性 SOP，沒法寫死在模型裡。Skills 給了壹個把隱性知識沉澱下來的載體。Anthropic 12 月 18 日把 Agent Skills 做成開放標准之後，Desktop Agent 這件事的拼圖就齊了。

第叁個原因是企業進場。Workspace Agents 那壹節我講過，OpenAI 4 月 22 日的產品定位就是替代傳統 GPT 的“組織級 AI 同事”。Claude Cowork 也是沖著這個去的，它的 Enterprise 部署文檔裡專門講 SSO、MDM、MSIX 安裝包，這些都是給 IT 部門看的語言。Desktop Agent 不只是給個人用的智能助理，是企業 IT 資產的壹部分。

那它解決了什麼。

我自己用下來最直接的體感是消除了復制粘貼這件事。過去用 Chatbot 做研究，最大的工作量不是問問題，是把網頁內容復制到對話框、把 AI 輸出復制到本地文檔、把表格內容反復倒騰。Desktop Agent 直接把這壹層抹掉了，文件就是它的輸入輸出，應用就是它的工具，整個工作流閉環。

第贰個體感是任務能力被拉長放大了。Web 端 chat 是壹來壹回的會話，超過伍分鍾你就會下意識覺得它卡了。Desktop Agent 是常駐進程，可以掛拾幾分鍾、幾拾分鍾跑壹個長程任務，你該幹別的就幹別的，它跑完會自己回來通知你。這種異步感才是 Agent 真正的形態。

Desktop Agent 這件事最大的意義是，AI 第壹次真正入住到你的電腦裡。它不在雲端、不在瀏覽器、不在 chat 窗口裡，它就在你本地這台機器的進程列表裡，是壹個寫在 macOS 活動監視器或者 Windows 任務管理器裡的名字。這個名字可能是它真正成為“AI 同事”的那道門檻。

八、Physical AI：AI 終於開始有身體了

如果說前面柒個話題都還在說 AI 在數字世界裡的演化，那 Physical AI 是 2026 上半年最大的“破壁”事件。

AI 終於開始有身體了。而且不是 demo 視頻裡的那種身體，是真正在工廠裡上下班、在大學裡做研究、在汽車產線上擰螺絲的那種身體。

先說硬件這壹頭。截至 2026 年中，全球大約有 7000 到 8000 台商用人形機器人在跑。中國這邊，AGIBOT 3 月底交付到第 1 萬台，宇樹 6 月通過科創板上市委員會的審核，估值約 62 億美元。海外這邊，Tesla Optimus 量產了，目標 2 萬到 3 萬美元壹台。Figure 03 已經在寶馬工廠上線，Atlas 賣給現代汽車。

光看數字就能感覺到拐點。壹年前所有人形機器人加起來還在幾百台量級，今年集體跨過千台、萬台。

但硬件不是核心敘事，軟件才是。Physical AI 這個詞的真正含義，是軟件第壹次能驅動壹台機器在真實物理世界裡“理解 + 行動”。

NVIDIA 是這壹波最關鍵的推手。它發的Cosmos 3 是壹個“世界基礎模型”，把“看懂世界 + 預測未來 + 生成動作”打包到壹個模型裡。配套的 GR00T 是人形機器人專用棧，同壹份模型權重能在不同品牌的人形機器人上做適配。

這件事的意義在於，過去每家機器人公司都得自己從零訓練模型，現在有了壹個共享底座。NVIDIA 出大腦，機器人出身體，學術界出場景。這個合作姿態非常明確。

那 Physical AI 解決了什麼。

我自己的判斷是它解決了“AI 進入實體經濟”這件事的最後壹道接口。Knowledge work 這壹頭 AI 已經卷得很深，但全球 GDP 裡超過壹半其實是搬運、裝配、巡檢、護理這些手活兒。過去 AI 跟這壹半經濟基本絕緣，現在 Physical AI 把這道牆拆開了。

但它還沒真正成為可用的 C 端產品。

C 端目前最近的是 1X Neo，宣布售價 2 萬美元，目標 2026 年底交付。其他幾家全是 B 端服務，Figure 03 在寶馬工廠裡跑、Optimus 在 Tesla 自家工廠裡跑、Atlas 給現代汽車跑。

這事的真實瓶頸不是錢，是可靠性。壹個能穩定跑 8 小時不死機的家用人形，對軟件和硬件的考驗比工業場景大壹個數量級。家裡地形復雜、孩子和寵物到處跑、光線復雜、任務邊界模糊。Cosmos 3 這種世界模型在工業場景已經能用，在家庭場景仍然差著壹截。

我個人對 Physical AI 是樂觀的，但不是短期樂觀，是長期樂觀。2026 年是從幾百台到幾萬台的跨越，2027 年要看能不能從工業場景跨到商業服務場景，比如餐廳、倉儲、酒店。真正的 C 端拐點我猜要等到 2028 之後。

但就算節奏比硅谷宣傳的慢，方向是對的。AI 不再只是屏幕裡的壹段對話，開始成為站在你面前會回頭看你壹眼的壹個東西。這件事比所有 chatbot 加起來都更接近“AI 改變世界”那句話本來的意思。

九、語音交互：成為所有AI產品的標配

2026 年上半年最容易被忽略的壹件事，是幾乎所有的 AI 產品都默默裝上了語音入口。

它可能不像其他話題那麼高大上，但它真真實實改變了普通用戶跟 AI 打交道的方式。壹個最直觀的判斷標准：你想想去年這時候你怎麼用豆包，再想想現在你怎麼用，你會發現“打字”這個動作的占比在快速下降，“口噴交流”在快速上升。

它解決了什麼。

第壹件，輸入摩擦的徹底降低。我自己最直接的體感是寫長 prompt 的時間成本被砍了壹刀。過去布置壹個稍微復雜點的任務，得在鍵盤上敲叁伍分鍾，現在嘴巴壹秒鍾壹句話，30 秒說完壹個需求。語速比鍵盤快叁到肆倍。

第贰件，多任務並行成本被砍了。以前用 AI 必須坐到電腦前停下手裡的活兒，現在洗碗時候可以讓 OpenClaw 幫你查機票、做飯時候讓 ChatGPT 幫你想晚飯菜單、走路時候讓 Claude 幫你過壹遍今天要發的稿子。AI 第壹次能跟“做別的事”疊加在壹起。

第叁件，無障礙的邊界擴開了。眼睛盯不住屏幕的人、鍵盤不順手的老人、有閱讀障礙的孩子，這些人過去基本被 AI 的文字界面擋在外面。語音入口鋪開之後，AI 真正面向所有人。

我的判斷是，2026 下半年語音不會再是任何壹家廠的差異化賣點，它會沉到地基裡，跟記憶系統、skills支持壹樣，是 AI 產品的標配能力，沒裝就是產品沒做完。

拾、Seedance 2.0：中國模型第壹次站在了世界中央

最後，我想用壹個中國模型來作為收尾。

2 月，字節發布 Seedance 2.0。3 月，Seedance 2.0 進入 CapCut，先在巴西、印尼、馬來西亞、墨西哥、菲律賓、泰國、越南這些海外市場上線。5 月，DeepLearning 用了壹個挺有意思的標題，《字節把 Seedance 2.0 裝進 CapCut，OpenAI 撤了》。Sora 那邊那時候在收縮消費級業務，字節這邊正把視頻生成鋪成 CapCut 數億用戶的默認能力。這是壹個很具象的對比。

那 Seedance 2.0 到底是什麼。

它的本質是壹個統壹的多模態生成框架。輸入支持文字、圖片、聲音、視頻，可以壹次塞最多 9 張圖、3 段視頻、3 段音頻做參考。輸出是帶原生音軌的視頻，可以同步生成對白、環境音、音樂。視頻時長 5 到 15 秒，分辨率 720p。

那 Seedance 2.0 解決了什麼。

最直接的，它把 AI 視頻從“試壹下出幾條分鏡”推到了“能進生產管線”。15 秒 720p 配音樂配口型壹次出，對短視頻創作者、電商商品視頻、社媒廣告、教育課件這些日常場景簡直就是大殺器。

更深壹層，它改變了視頻內容的供給結構。過去拍壹條 60 秒的產品視頻要演員、場地、剪輯、配音肆項成本，現在 Seedance 2.0 + CapCut 壹個人對著電腦兩小時搞定。這件事對中小品牌、自媒體、跨境電商是真正的解放。

但 Seedance 2.0 不是沒短板。分辨率天花板還在 720p 和 1080p 區間，跟 Veo 3.1 4K 比差著壹檔。連續敘事仍然是靠拼，轉場處偶爾露餡。物理真實度仍有差距，流體、布料這些場景，Seedance 2.0 的“看著像”和 Sora 2 的“算出來的真實”是兩個概念。另外，肖像權和版權風險大。

兩年前我們說“中國 AI 視頻是慢壹拍的追趕者”，今年這話已經不能說了。Seedance 2.0、Kling 3.0、可靈、即夢這壹撥壹起把 AI 視頻革命的舞台搬到了東半球。這壹輪 AI 視頻革命，最熱鬧的地方，已經不在硅谷。

寫在最後

10 個話題寫完，回頭看其實只有壹條主線。

2026 年上半年的 AI，不再是“模型多大、跑分多高、demo 多炸”的故事。它是把模型層卷出來的能力，往下沉、往外擴、往身邊帶的故事。

Skills 把方法論沉澱為資產，OpenClaw 和Harness把 Agent 框架變成了開源基礎設施，harness 把 Agent 工程提升到了被嚴肅討論的層級，Multi-Agent 把單兵 AI 升級成了團隊 AI，Coding Plan 把成本焦慮拆掉，CLI 給了 AI 統壹的接口，Desktop Agent 把 AI 裝到本地，Physical AI 給 AI 裝上身體，語音交互給 AI 裝上耳朵和嘴，Seedance 2.0 讓中國模型在視頻賽道第壹次坐上主桌。

每壹件事單看都是技術演化，串起來看是 AI 第壹次大規模開始成為日常。這種“成為”不是壹次發布會能完成的，是無數個小齒輪咬合到位之後的自然結果。

下半年我會繼續壹線跑，繼續測，繼續記。沃垠AI 這邊的內容節奏不會變，萬字幹貨也不會斷。

如果讓我對 2026 下半年押壹個判斷，那就是“AI 的 iPhone 時刻並未過去，但應用商店時刻才剛剛開始”。AI 會越來越像水電煤，融在你做的每件事裡，融到你都意識不到。

寫到這裡，文章壹萬兩千字。

我是冷逸，下次見。

[加西網正招聘多名全職sales 待遇優] 這條新聞還沒有人評論喔，等著您的高見呢

分享:

注：

新聞來源於其它媒體，內容不代表本站立場！

意見

當前評論目前還沒有任何評論，歡迎您發表您的看法。

發表評論

專家專欄

工具

當前會員

2026快過半:壹萬字,把這半年AI發生的事講明白

意見