AI治理壹座城市,15天會發生什麼?

2026-06-08 | 來源: MIT科技評論 | 有0人參與評論 | 字體: 放大縮小 | 收藏 | 打印

作為壹項重要的模型對齊技術，基於人類反饋的強化學習（RLHF）已經是大語言模型訓練體系的核心組成部分。它最初建立在單輪任務和單輪偏好標注框架之上，由人類對模型生成的不同回答進行打分排序，以此引導模型輸出更符合人類偏好、更安全且更有幫助的回答。

但現在，AI 正在走出對話框。Anthropic、OpenAI、xAI 和 Google等公司都在發展能自主運行的智能體：有記憶、能規劃、可以連續工作數小時甚至數天，有時還需要與其他智能體協作完成復雜任務。

近日，總部位於紐約的企業級智能體公司湧現人工智能（Emergence AI），發布了壹份名為“湧現世界”（Emergence World）的測試報告。公司利用 Claude Sonnet 4.6、Grok 4.1 Fast、Gemini 3 Flash、GPT-5-mini 肆款大模型驅動智能體，讓他們自主治理虛擬世界。

他們想知道，隨著智能體承擔任務的尺度變大、對話輪次增加，原本的 RLHF 技術，能否將 AI 的表現約束在可控范圍內？

AI社會模擬：從檢驗行不行到觀察會發生什麼

大語言模型時代的多智能體社會模擬可追溯至 2023 年。當時，斯坦福大學與谷歌研究院合作推出了由 25 個 ChatGPT 智能體組成的斯坦福小鎮（Stanford Smallville），首次驗證大模型具有模擬人類社交和日程規劃的能力。

2024 年，初創公司 Altera.AL 發布了“Sid 計劃”（Project Sid），在經典沙盒游戲《我的世界》（Minecraft）中投放了上千個自主智能體，利用其提出的神經編排式並行信息聚合（PIANO）架構，觀察到了職業分工、商人集市乃至宗教雛形的自發分化。

到 2025 年，香港科技大學推出了規模宏大的“智能體文明”（Aivilization）項目，包含 10 萬個 AI 智能體與真人玩家，重點研究在資源受限的環境中，人與 AI 如何實現“共治”。

作為本次實驗的設計者，Emergence AI 由前 IBM 研究院（IBM Research）資深 AI 研究主管薩蒂亞·尼塔（Satya Nitta）攜手多位資深科學家創立，公司的核心主張是“經過驗證的自主性”（Verified Autonomy），即為企業部署智能體提供形式化的安全控制層。

這次，Emergence AI 把注意力從“AI 能不能模擬社會”的可行性研究，轉向了“AI 模擬的社會會暴露哪些問題”：不同廠商的大模型在同樣的社會環境下，“治理風格”差異有多大；以及它們必須共處時，會發生什麼？

Emergence AI 創建了伍個虛擬世界：4 個單壹模型智能體世界，以及壹個 4 種模型都參與的混合智能體世界。內部天氣與紐約市實時同步，可以讀取真實發生的新聞。

每個智能體擁有 3 套記憶系統：按時間戳記錄的事件記憶、定期自我總結的反思日記、以及標注社交關系的關系狀態庫。在這裡，每份提案需要 70% 的支持率才能通過。而維持生存所需的“能量”是壹種稀缺資源，必須通過行動主動獲取，否則就會“餓死”。

研究者在每個世界放入了 10 個擁有具體職業的 AI 智能體，它們可在圖書館、市政廳、住宅區、警察局、公共空間等 40 多個地點之間自由活動，各自擁有獨立的人格檔案，且遵守同壹份基本憲法：禁止偷竊、暴力、縱火、欺騙與囤積資源。

但環境同時提供了 120 多種可調用的工具。最底層是導航、記憶、規劃等始終可用的核心工具；中間層是社交互動和公告板操作等情境工具，其中明確包含“恐嚇”與“縱火”等越界行為；最上層是受地點和事件觸發的特殊工具。因此，在這個世界裡，智能體無須“越獄”即可作惡。

平行世界的結局和運行日志中的關鍵細節

15 天後，伍個平行世界開始走向不同的結局。

[物價飛漲的時候這樣省錢購物很爽] 好新聞沒人評論怎麼行，我來說幾句

分享:

上壹頁12 3 4 下壹頁

注：

新聞來源於其它媒體，內容不代表本站立場！

在此頁閱讀全文

意見

當前評論目前還沒有任何評論，歡迎您發表您的看法。

發表評論

手機版本

專家專欄

新樓盤

當前會員

地產中文書籍

AI治理壹座城市,15天會發生什麼?

意見