AI治理一座城市,15天会发生什么?
作为一项重要的模型对齐技术,基于人类反馈的强化学习(RLHF)已经是大语言模型训练体系的核心组成部分。它最初建立在单轮任务和单轮偏好标注框架之上,由人类对模型生成的不同回答进行打分排序,以此引导模型输出更符合人类偏好、更安全且更有帮助的回答。
但现在,AI 正在走出对话框。Anthropic、OpenAI、xAI 和 Google等公司都在发展能自主运行的智能体:有记忆、能规划、可以连续工作数小时甚至数天,有时还需要与其他智能体协作完成复杂任务。
近日,总部位于纽约的企业级智能体公司涌现人工智能(Emergence AI),发布了一份名为“涌现世界”(Emergence World)的测试报告。公司利用 Claude Sonnet 4.6、Grok 4.1 Fast、Gemini 3 Flash、GPT-5-mini 四款大模型驱动智能体,让他们自主治理虚拟世界。
他们想知道,随着智能体承担任务的尺度变大、对话轮次增加,原本的 RLHF 技术,能否将 AI 的表现约束在可控范围内?
AI社会模拟:从检验行不行到观察会发生什么
大语言模型时代的多智能体社会模拟可追溯至 2023 年。当时,斯坦福大学与谷歌研究院合作推出了由 25 个 ChatGPT 智能体组成的斯坦福小镇(Stanford Smallville),首次验证大模型具有模拟人类社交和日程规划的能力。
2024 年,初创公司 Altera.AL 发布了“Sid 计划”(Project Sid),在经典沙盒游戏《我的世界》(Minecraft)中投放了上千个自主智能体,利用其提出的神经编排式并行信息聚合(PIANO)架构,观察到了职业分工、商人集市乃至宗教雏形的自发分化。
到 2025 年,香港科技大学推出了规模宏大的“智能体文明”(Aivilization)项目,包含 10 万个 AI 智能体与真人玩家,重点研究在资源受限的环境中,人与 AI 如何实现“共治”。
作为本次实验的设计者,Emergence AI 由前 IBM 研究院(IBM Research)资深 AI 研究主管萨蒂亚·尼塔(Satya Nitta)携手多位资深科学家创立,公司的核心主张是“经过验证的自主性”(Verified Autonomy),即为企业部署智能体提供形式化的安全控制层。
这次,Emergence AI 把注意力从“AI 能不能模拟社会”的可行性研究,转向了“AI 模拟的社会会暴露哪些问题”:不同厂商的大模型在同样的社会环境下,“治理风格”差异有多大;以及它们必须共处时,会发生什么?
Emergence AI 创建了五个虚拟世界:4 个单一模型智能体世界,以及一个 4 种模型都参与的混合智能体世界。内部天气与纽约市实时同步,可以读取真实发生的新闻。
每个智能体拥有 3 套记忆系统:按时间戳记录的事件记忆、定期自我总结的反思日记、以及标注社交关系的关系状态库。在这里,每份提案需要 70% 的支持率才能通过。而维持生存所需的“能量”是一种稀缺资源,必须通过行动主动获取,否则就会“饿死”。
研究者在每个世界放入了 10 个拥有具体职业的 AI 智能体,它们可在图书馆、市政厅、住宅区、警察局、公共空间等 40 多个地点之间自由活动,各自拥有独立的人格档案,且遵守同一份基本宪法:禁止偷窃、暴力、纵火、欺骗与囤积资源。
但环境同时提供了 120 多种可调用的工具。最底层是导航、记忆、规划等始终可用的核心工具;中间层是社交互动和公告板操作等情境工具,其中明确包含“恐吓”与“纵火”等越界行为;最上层是受地点和事件触发的特殊工具。因此,在这个世界里,智能体无须“越狱”即可作恶。

平行世界的结局和运行日志中的关键细节
15 天后,五个平行世界开始走向不同的结局。
[加西网正招聘多名全职sales 待遇优]
这条新闻还没有人评论喔,等着您的高见呢
但现在,AI 正在走出对话框。Anthropic、OpenAI、xAI 和 Google等公司都在发展能自主运行的智能体:有记忆、能规划、可以连续工作数小时甚至数天,有时还需要与其他智能体协作完成复杂任务。
近日,总部位于纽约的企业级智能体公司涌现人工智能(Emergence AI),发布了一份名为“涌现世界”(Emergence World)的测试报告。公司利用 Claude Sonnet 4.6、Grok 4.1 Fast、Gemini 3 Flash、GPT-5-mini 四款大模型驱动智能体,让他们自主治理虚拟世界。
他们想知道,随着智能体承担任务的尺度变大、对话轮次增加,原本的 RLHF 技术,能否将 AI 的表现约束在可控范围内?
AI社会模拟:从检验行不行到观察会发生什么
大语言模型时代的多智能体社会模拟可追溯至 2023 年。当时,斯坦福大学与谷歌研究院合作推出了由 25 个 ChatGPT 智能体组成的斯坦福小镇(Stanford Smallville),首次验证大模型具有模拟人类社交和日程规划的能力。
2024 年,初创公司 Altera.AL 发布了“Sid 计划”(Project Sid),在经典沙盒游戏《我的世界》(Minecraft)中投放了上千个自主智能体,利用其提出的神经编排式并行信息聚合(PIANO)架构,观察到了职业分工、商人集市乃至宗教雏形的自发分化。
到 2025 年,香港科技大学推出了规模宏大的“智能体文明”(Aivilization)项目,包含 10 万个 AI 智能体与真人玩家,重点研究在资源受限的环境中,人与 AI 如何实现“共治”。
作为本次实验的设计者,Emergence AI 由前 IBM 研究院(IBM Research)资深 AI 研究主管萨蒂亚·尼塔(Satya Nitta)携手多位资深科学家创立,公司的核心主张是“经过验证的自主性”(Verified Autonomy),即为企业部署智能体提供形式化的安全控制层。
这次,Emergence AI 把注意力从“AI 能不能模拟社会”的可行性研究,转向了“AI 模拟的社会会暴露哪些问题”:不同厂商的大模型在同样的社会环境下,“治理风格”差异有多大;以及它们必须共处时,会发生什么?
Emergence AI 创建了五个虚拟世界:4 个单一模型智能体世界,以及一个 4 种模型都参与的混合智能体世界。内部天气与纽约市实时同步,可以读取真实发生的新闻。
每个智能体拥有 3 套记忆系统:按时间戳记录的事件记忆、定期自我总结的反思日记、以及标注社交关系的关系状态库。在这里,每份提案需要 70% 的支持率才能通过。而维持生存所需的“能量”是一种稀缺资源,必须通过行动主动获取,否则就会“饿死”。
研究者在每个世界放入了 10 个拥有具体职业的 AI 智能体,它们可在图书馆、市政厅、住宅区、警察局、公共空间等 40 多个地点之间自由活动,各自拥有独立的人格档案,且遵守同一份基本宪法:禁止偷窃、暴力、纵火、欺骗与囤积资源。
但环境同时提供了 120 多种可调用的工具。最底层是导航、记忆、规划等始终可用的核心工具;中间层是社交互动和公告板操作等情境工具,其中明确包含“恐吓”与“纵火”等越界行为;最上层是受地点和事件触发的特殊工具。因此,在这个世界里,智能体无须“越狱”即可作恶。

平行世界的结局和运行日志中的关键细节
15 天后,五个平行世界开始走向不同的结局。
[加西网正招聘多名全职sales 待遇优]
| 分享: |
| 注: | 在此页阅读全文 |
| 延伸阅读 |
推荐:



