2026快过半:一万字,把这半年AI发生的事讲明白

大家好,我是冷逸。
昨天晚上做饭的时候,我用手机命令电脑里的 AI 干了三件事:打开一堆 PDF 发票整理成 Excel 报销单、一句话给电影《火遮眼》做一个带宣传视频+海报的网站,以及按我的风格给这篇稿子写个开头。
饭做完,活儿干完了。
这种事,一年前是科幻,今年是日常。
我说这个不是要煽情。我是想说,2026 上半年的 AI,已经不是“哪个模型分高”那回事了。模型这一头的卷,到 GPT-5.5、Claude 4.8、M3 这一档,边际收益肉眼可见地在递减。真正发生变化的地方,悄悄挪到了别处——挪到了你怎么把 AI 装进自己生活、装进自己工作流以及装进自己的电脑里。
这半年我一线测过的产品多到说不清,发布会看到一半就关掉的也多到数不清。这篇文章不是流水账,是我从一堆事里挑了 10 件,自己亲手用过、踩过坑、形成判断的,串成一条线。
10 个话题的顺序是:Agent Skills、OpenClaw、Harness、Multi-Agent(包括Agent OS、Sub-agent)、Coding Plan、CLI回归、Desktop Agent、Physical AI、语音交互、Seedance 2.0。
一万字,慢慢看。
一、Agent Skills:2026 年最值得学的技能
整个上半年,最被低估、又最影响一线工作流的事,是 Agent Skills。
它在半年里完成了从一家厂的功能,到行业标准的跨越。Anthropic 去年 10 月推出,12 月做成开放标准,到现在OpenAI、谷歌以及国内 AI 厂商全跟上。
那它到底是什么。一句话理解,Skills 是一个文件夹,里面必须有一份 SKILL.md,开头是 YAML 元数据 name 和 description,下面是 Markdown 写的执行说明,再带上可选的 scripts 子目录、references 子目录和 assets 资源文件。
Agent Skills 最有意思的是progressive disclosure 这个渐进式披露机制。三层结构。第一层是元数据,每个 Skill 大约 50 到 100 个 token,会话启动时全部 Skills 的 name 和 description 都进系统提示词,模型只是“知道有这些 Skill 存在”。第二层是指令,整份 SKILL.md 的正文,官方建议控制在 5000 token 以内、500 行以内,只在模型判断当前任务匹配某个 Skill 时才加载进上下文。第三层是资源,scripts 和 references 这些更深的文件,只在 SKILL.md 主动 reference 到它们时才进上下文。

这套架构在解决一个非常实在的问题,上下文的稀缺性。早期 Agent 的痛点是塞东西,谁都想往 System Prompt 里塞更多专业知识,但塞越多模型越糊。Skills 把“有哪些能力”和“具体怎么干”在物理上拆开了,让模型只为正在做的事付 token。
[加西网正招聘多名全职sales 待遇优]
| 分享: |
| 注: | 在此页阅读全文 |
| 延伸阅读 |
推荐:
2026快过半:一万字,把这半年AI发生的事讲明白