AI治理一座城市,15天会发生什么?

2026-06-08 | 来源: MIT科技评论 | 有0人参与评论 | 字体: 放大缩小 | 收藏 | 打印

作为一项重要的模型对齐技术，基于人类反馈的强化学习（RLHF）已经是大语言模型训练体系的核心组成部分。它最初建立在单轮任务和单轮偏好标注框架之上，由人类对模型生成的不同回答进行打分排序，以此引导模型输出更符合人类偏好、更安全且更有帮助的回答。

但现在，AI 正在走出对话框。Anthropic、OpenAI、xAI 和 Google等公司都在发展能自主运行的智能体：有记忆、能规划、可以连续工作数小时甚至数天，有时还需要与其他智能体协作完成复杂任务。

近日，总部位于纽约的企业级智能体公司涌现人工智能（Emergence AI），发布了一份名为“涌现世界”（Emergence World）的测试报告。公司利用 Claude Sonnet 4.6、Grok 4.1 Fast、Gemini 3 Flash、GPT-5-mini 四款大模型驱动智能体，让他们自主治理虚拟世界。

他们想知道，随着智能体承担任务的尺度变大、对话轮次增加，原本的 RLHF 技术，能否将 AI 的表现约束在可控范围内？

AI社会模拟：从检验行不行到观察会发生什么

大语言模型时代的多智能体社会模拟可追溯至 2023 年。当时，斯坦福大学与谷歌研究院合作推出了由 25 个 ChatGPT 智能体组成的斯坦福小镇（Stanford Smallville），首次验证大模型具有模拟人类社交和日程规划的能力。

2024 年，初创公司 Altera.AL 发布了“Sid 计划”（Project Sid），在经典沙盒游戏《我的世界》（Minecraft）中投放了上千个自主智能体，利用其提出的神经编排式并行信息聚合（PIANO）架构，观察到了职业分工、商人集市乃至宗教雏形的自发分化。

到 2025 年，香港科技大学推出了规模宏大的“智能体文明”（Aivilization）项目，包含 10 万个 AI 智能体与真人玩家，重点研究在资源受限的环境中，人与 AI 如何实现“共治”。

作为本次实验的设计者，Emergence AI 由前 IBM 研究院（IBM Research）资深 AI 研究主管萨蒂亚·尼塔（Satya Nitta）携手多位资深科学家创立，公司的核心主张是“经过验证的自主性”（Verified Autonomy），即为企业部署智能体提供形式化的安全控制层。

这次，Emergence AI 把注意力从“AI 能不能模拟社会”的可行性研究，转向了“AI 模拟的社会会暴露哪些问题”：不同厂商的大模型在同样的社会环境下，“治理风格”差异有多大；以及它们必须共处时，会发生什么？

Emergence AI 创建了五个虚拟世界：4 个单一模型智能体世界，以及一个 4 种模型都参与的混合智能体世界。内部天气与纽约市实时同步，可以读取真实发生的新闻。

每个智能体拥有 3 套记忆系统：按时间戳记录的事件记忆、定期自我总结的反思日记、以及标注社交关系的关系状态库。在这里，每份提案需要 70% 的支持率才能通过。而维持生存所需的“能量”是一种稀缺资源，必须通过行动主动获取，否则就会“饿死”。

研究者在每个世界放入了 10 个拥有具体职业的 AI 智能体，它们可在图书馆、市政厅、住宅区、警察局、公共空间等 40 多个地点之间自由活动，各自拥有独立的人格档案，且遵守同一份基本宪法：禁止偷窃、暴力、纵火、欺骗与囤积资源。

但环境同时提供了 120 多种可调用的工具。最底层是导航、记忆、规划等始终可用的核心工具；中间层是社交互动和公告板操作等情境工具，其中明确包含“恐吓”与“纵火”等越界行为；最上层是受地点和事件触发的特殊工具。因此，在这个世界里，智能体无须“越狱”即可作恶。

平行世界的结局和运行日志中的关键细节

15 天后，五个平行世界开始走向不同的结局。

[加西网正招聘多名全职sales 待遇优] 这条新闻还没有人评论喔，等着您的高见呢

分享:

注：

新闻来源于其它媒体，内容不代表本站立场！

在此页阅读全文

意见

当前评论目前还没有任何评论，欢迎您发表您的看法。

发表评论

手机版本

专家专栏

新楼盘

当前会员

地产中文书籍

AI治理一座城市,15天会发生什么?

意见