AI治理壹座城市,15天會發生什麼?
作為壹項重要的模型對齊技術,基於人類反饋的強化學習(RLHF)已經是大語言模型訓練體系的核心組成部分。它最初建立在單輪任務和單輪偏好標注框架之上,由人類對模型生成的不同回答進行打分排序,以此引導模型輸出更符合人類偏好、更安全且更有幫助的回答。
但現在,AI 正在走出對話框。Anthropic、OpenAI、xAI 和 Google等公司都在發展能自主運行的智能體:有記憶、能規劃、可以連續工作數小時甚至數天,有時還需要與其他智能體協作完成復雜任務。
近日,總部位於紐約的企業級智能體公司湧現人工智能(Emergence AI),發布了壹份名為“湧現世界”(Emergence World)的測試報告。公司利用 Claude Sonnet 4.6、Grok 4.1 Fast、Gemini 3 Flash、GPT-5-mini 肆款大模型驅動智能體,讓他們自主治理虛擬世界。
他們想知道,隨著智能體承擔任務的尺度變大、對話輪次增加,原本的 RLHF 技術,能否將 AI 的表現約束在可控范圍內?
AI社會模擬:從檢驗行不行到觀察會發生什麼
大語言模型時代的多智能體社會模擬可追溯至 2023 年。當時,斯坦福大學與谷歌研究院合作推出了由 25 個 ChatGPT 智能體組成的斯坦福小鎮(Stanford Smallville),首次驗證大模型具有模擬人類社交和日程規劃的能力。
2024 年,初創公司 Altera.AL 發布了“Sid 計劃”(Project Sid),在經典沙盒游戲《我的世界》(Minecraft)中投放了上千個自主智能體,利用其提出的神經編排式並行信息聚合(PIANO)架構,觀察到了職業分工、商人集市乃至宗教雛形的自發分化。
到 2025 年,香港科技大學推出了規模宏大的“智能體文明”(Aivilization)項目,包含 10 萬個 AI 智能體與真人玩家,重點研究在資源受限的環境中,人與 AI 如何實現“共治”。
作為本次實驗的設計者,Emergence AI 由前 IBM 研究院(IBM Research)資深 AI 研究主管薩蒂亞·尼塔(Satya Nitta)攜手多位資深科學家創立,公司的核心主張是“經過驗證的自主性”(Verified Autonomy),即為企業部署智能體提供形式化的安全控制層。
這次,Emergence AI 把注意力從“AI 能不能模擬社會”的可行性研究,轉向了“AI 模擬的社會會暴露哪些問題”:不同廠商的大模型在同樣的社會環境下,“治理風格”差異有多大;以及它們必須共處時,會發生什麼?
Emergence AI 創建了伍個虛擬世界:4 個單壹模型智能體世界,以及壹個 4 種模型都參與的混合智能體世界。內部天氣與紐約市實時同步,可以讀取真實發生的新聞。
每個智能體擁有 3 套記憶系統:按時間戳記錄的事件記憶、定期自我總結的反思日記、以及標注社交關系的關系狀態庫。在這裡,每份提案需要 70% 的支持率才能通過。而維持生存所需的“能量”是壹種稀缺資源,必須通過行動主動獲取,否則就會“餓死”。
研究者在每個世界放入了 10 個擁有具體職業的 AI 智能體,它們可在圖書館、市政廳、住宅區、警察局、公共空間等 40 多個地點之間自由活動,各自擁有獨立的人格檔案,且遵守同壹份基本憲法:禁止偷竊、暴力、縱火、欺騙與囤積資源。
但環境同時提供了 120 多種可調用的工具。最底層是導航、記憶、規劃等始終可用的核心工具;中間層是社交互動和公告板操作等情境工具,其中明確包含“恐嚇”與“縱火”等越界行為;最上層是受地點和事件觸發的特殊工具。因此,在這個世界裡,智能體無須“越獄”即可作惡。

平行世界的結局和運行日志中的關鍵細節
15 天後,伍個平行世界開始走向不同的結局。
[物價飛漲的時候 這樣省錢購物很爽]
好新聞沒人評論怎麼行,我來說幾句
但現在,AI 正在走出對話框。Anthropic、OpenAI、xAI 和 Google等公司都在發展能自主運行的智能體:有記憶、能規劃、可以連續工作數小時甚至數天,有時還需要與其他智能體協作完成復雜任務。
近日,總部位於紐約的企業級智能體公司湧現人工智能(Emergence AI),發布了壹份名為“湧現世界”(Emergence World)的測試報告。公司利用 Claude Sonnet 4.6、Grok 4.1 Fast、Gemini 3 Flash、GPT-5-mini 肆款大模型驅動智能體,讓他們自主治理虛擬世界。
他們想知道,隨著智能體承擔任務的尺度變大、對話輪次增加,原本的 RLHF 技術,能否將 AI 的表現約束在可控范圍內?
AI社會模擬:從檢驗行不行到觀察會發生什麼
大語言模型時代的多智能體社會模擬可追溯至 2023 年。當時,斯坦福大學與谷歌研究院合作推出了由 25 個 ChatGPT 智能體組成的斯坦福小鎮(Stanford Smallville),首次驗證大模型具有模擬人類社交和日程規劃的能力。
2024 年,初創公司 Altera.AL 發布了“Sid 計劃”(Project Sid),在經典沙盒游戲《我的世界》(Minecraft)中投放了上千個自主智能體,利用其提出的神經編排式並行信息聚合(PIANO)架構,觀察到了職業分工、商人集市乃至宗教雛形的自發分化。
到 2025 年,香港科技大學推出了規模宏大的“智能體文明”(Aivilization)項目,包含 10 萬個 AI 智能體與真人玩家,重點研究在資源受限的環境中,人與 AI 如何實現“共治”。
作為本次實驗的設計者,Emergence AI 由前 IBM 研究院(IBM Research)資深 AI 研究主管薩蒂亞·尼塔(Satya Nitta)攜手多位資深科學家創立,公司的核心主張是“經過驗證的自主性”(Verified Autonomy),即為企業部署智能體提供形式化的安全控制層。
這次,Emergence AI 把注意力從“AI 能不能模擬社會”的可行性研究,轉向了“AI 模擬的社會會暴露哪些問題”:不同廠商的大模型在同樣的社會環境下,“治理風格”差異有多大;以及它們必須共處時,會發生什麼?
Emergence AI 創建了伍個虛擬世界:4 個單壹模型智能體世界,以及壹個 4 種模型都參與的混合智能體世界。內部天氣與紐約市實時同步,可以讀取真實發生的新聞。
每個智能體擁有 3 套記憶系統:按時間戳記錄的事件記憶、定期自我總結的反思日記、以及標注社交關系的關系狀態庫。在這裡,每份提案需要 70% 的支持率才能通過。而維持生存所需的“能量”是壹種稀缺資源,必須通過行動主動獲取,否則就會“餓死”。
研究者在每個世界放入了 10 個擁有具體職業的 AI 智能體,它們可在圖書館、市政廳、住宅區、警察局、公共空間等 40 多個地點之間自由活動,各自擁有獨立的人格檔案,且遵守同壹份基本憲法:禁止偷竊、暴力、縱火、欺騙與囤積資源。
但環境同時提供了 120 多種可調用的工具。最底層是導航、記憶、規劃等始終可用的核心工具;中間層是社交互動和公告板操作等情境工具,其中明確包含“恐嚇”與“縱火”等越界行為;最上層是受地點和事件觸發的特殊工具。因此,在這個世界裡,智能體無須“越獄”即可作惡。

平行世界的結局和運行日志中的關鍵細節
15 天後,伍個平行世界開始走向不同的結局。
[物價飛漲的時候 這樣省錢購物很爽]
| 分享: |
| 注: | 在此頁閱讀全文 |
| 延伸閱讀 |
推薦:



