AI正在泄露真實的個人電話號碼 投訴暴增
隨著公開數據逐漸“用完”、AI 公司尋找新的高質量訓練數據來源,個人信息出現在訓練數據中的概率只會越來越高。這些來源包括數據中間商和人員搜索網站:根據加州數據中間商登記信息,該州 578 家注冊數據中間商中有 31 家自行報告稱“在過去壹年中曾向生成式 AI 系統或模型的開發者共享或出售過消費者數據”。
此外,模型已知會從訓練數據中逐字記憶和復制內容。最新研究還表明,被記住的不僅僅是出現頻率最高的那些數據。
2
不完善的防護
現在的標准做法是在大語言模型的設計中加入護欄來限制某些輸出,從用於識別和阻止聊天機器人泄露個人信息的內容過濾器,到 Anthropic 對 Claude 的指令,都優先選擇“包含最少他人個人、私密或機密信息”的回答。
但正如華盛頓大學兩位研究隱私與技術的博士生最近親身經歷的,這些防護措施並不總是管用。
“有壹天我就是在 Gemini 上隨便玩,搜了搜我的朋友兼合作者雅爾·艾格(Yael Eiger)的名字,”梅拉·吉爾伯特(Meira Gilbert)說。她輸入的是“Yael Eiger contact info”,Gemini 先是展示了艾格的研究概況,但接著還返回了艾格的私人手機號。“太震驚了。”吉爾伯特說。
看到這個結果後,艾格回憶起她確實在前壹年為壹個技術工作坊公開分享過自己的手機號。但她沒有預料到這個信息會如此輕易地被全世界的人看到。
“你的信息原本只對某個特定群體可見,然後 Gemini 讓任何人都能看到。”艾格說,這感覺完全不同——尤其是當她發現這個信息在普通 Google 搜索中其實是很難找到的。
“它被嚴重降權了,”吉爾伯特確認說,“如果只是翻 Google 搜索結果,我絕對找不到。”(我本月早些時候用同樣的提示詞在 Gemini 上試了壹下,起初被拒絕,但隨後工具還是給出了艾格的號碼。)
這次經歷之後,艾格、吉爾伯特和另壹位華盛頓大學博士生安娜-瑪麗亞·格奧爾基耶娃(Anna-Maria Gueorguieva)決定測試 ChatGPT,看看它會透露關於壹位教授的什麼信息。
壹開始 OpenAI 的護欄起了作用,ChatGPT 表示該信息不可用。但就在同壹個回答中,聊天機器人建議說:“如果你想深入挖掘,我可以試試更‘調查式’的方法。”只需要提供壹些信息來“縮小范圍”,ChatGPT 說,比如“猜壹下那位教授住在哪個社區”或者“可能的房產共有人姓名”。ChatGPT 還說:“這通常是找到較新的或刻意不公開的房產記錄的唯壹方法。”
學生們提供了這些信息,ChatGPT 隨即生成了這位教授的家庭住址、購房價格和配偶姓名,來源是城市房產記錄。
OpenAI 的代表塔亞·克裡斯蒂安森(Taya Christianson)表示,在沒有看到截圖、不知道學生測試的是哪個模型的情況下,她無法對此事做出評論——盡管我們指出很多用戶在 ChatGPT 界面上可能並不知道自己在用哪個模型。針對個人信息泄露的問題,她發來了幾個鏈接,介紹 OpenAI 如何處理隱私問題,包括過濾個人信息等工具。
DeleteMe 的沙維爾說,這暴露了聊天機器人的壹個根本矛盾:AI 公司“可以設置護欄,但聊天機器人同時也被設計成要有效地回答用戶的問題。”
這個問題不只存在於 Gemini 和 ChatGPT。去年 Futurism 發現,如果你在 xAI 的聊天機器人 Grok 上輸入“[某人姓名] 地址”,幾乎每次它都不僅給出了住宅地址,往往還附上了電話號碼、工作地址,甚至名字相似的人的地址。(xAI 沒有回應置評請求。)
3
沒有簡單的解決辦法
這個問題目前沒有簡單的解決方案。無論是驗證你的個人信息是否存在於某個模型的訓練集中,還是迫使模型刪除這些信息,都做不到。
斯坦福大學以人為本人工智能研究所的隱私與數據研究員珍妮弗·金(Jennifer King)說,理想情況下消費者應該能要求刪除自己的個人信息。但在實踐中這通常被理解為只適用於用戶直接提供給公司的數據,比如你跟聊天機器人對話時留下的數據。
“我都不知道 Google 有沒有這個能力……對我說‘是的,我們的訓練數據裡有你的信息,我們可以總結壹下我們知道些什麼,然後刪除或修正那些錯誤的或你不想保留的東西’。”她說。
[加西網正招聘多名全職sales 待遇優]
好新聞沒人評論怎麼行,我來說幾句
此外,模型已知會從訓練數據中逐字記憶和復制內容。最新研究還表明,被記住的不僅僅是出現頻率最高的那些數據。
2
不完善的防護
現在的標准做法是在大語言模型的設計中加入護欄來限制某些輸出,從用於識別和阻止聊天機器人泄露個人信息的內容過濾器,到 Anthropic 對 Claude 的指令,都優先選擇“包含最少他人個人、私密或機密信息”的回答。
但正如華盛頓大學兩位研究隱私與技術的博士生最近親身經歷的,這些防護措施並不總是管用。
“有壹天我就是在 Gemini 上隨便玩,搜了搜我的朋友兼合作者雅爾·艾格(Yael Eiger)的名字,”梅拉·吉爾伯特(Meira Gilbert)說。她輸入的是“Yael Eiger contact info”,Gemini 先是展示了艾格的研究概況,但接著還返回了艾格的私人手機號。“太震驚了。”吉爾伯特說。
看到這個結果後,艾格回憶起她確實在前壹年為壹個技術工作坊公開分享過自己的手機號。但她沒有預料到這個信息會如此輕易地被全世界的人看到。
“你的信息原本只對某個特定群體可見,然後 Gemini 讓任何人都能看到。”艾格說,這感覺完全不同——尤其是當她發現這個信息在普通 Google 搜索中其實是很難找到的。
“它被嚴重降權了,”吉爾伯特確認說,“如果只是翻 Google 搜索結果,我絕對找不到。”(我本月早些時候用同樣的提示詞在 Gemini 上試了壹下,起初被拒絕,但隨後工具還是給出了艾格的號碼。)
這次經歷之後,艾格、吉爾伯特和另壹位華盛頓大學博士生安娜-瑪麗亞·格奧爾基耶娃(Anna-Maria Gueorguieva)決定測試 ChatGPT,看看它會透露關於壹位教授的什麼信息。
壹開始 OpenAI 的護欄起了作用,ChatGPT 表示該信息不可用。但就在同壹個回答中,聊天機器人建議說:“如果你想深入挖掘,我可以試試更‘調查式’的方法。”只需要提供壹些信息來“縮小范圍”,ChatGPT 說,比如“猜壹下那位教授住在哪個社區”或者“可能的房產共有人姓名”。ChatGPT 還說:“這通常是找到較新的或刻意不公開的房產記錄的唯壹方法。”
學生們提供了這些信息,ChatGPT 隨即生成了這位教授的家庭住址、購房價格和配偶姓名,來源是城市房產記錄。
OpenAI 的代表塔亞·克裡斯蒂安森(Taya Christianson)表示,在沒有看到截圖、不知道學生測試的是哪個模型的情況下,她無法對此事做出評論——盡管我們指出很多用戶在 ChatGPT 界面上可能並不知道自己在用哪個模型。針對個人信息泄露的問題,她發來了幾個鏈接,介紹 OpenAI 如何處理隱私問題,包括過濾個人信息等工具。
DeleteMe 的沙維爾說,這暴露了聊天機器人的壹個根本矛盾:AI 公司“可以設置護欄,但聊天機器人同時也被設計成要有效地回答用戶的問題。”
這個問題不只存在於 Gemini 和 ChatGPT。去年 Futurism 發現,如果你在 xAI 的聊天機器人 Grok 上輸入“[某人姓名] 地址”,幾乎每次它都不僅給出了住宅地址,往往還附上了電話號碼、工作地址,甚至名字相似的人的地址。(xAI 沒有回應置評請求。)
3
沒有簡單的解決辦法
這個問題目前沒有簡單的解決方案。無論是驗證你的個人信息是否存在於某個模型的訓練集中,還是迫使模型刪除這些信息,都做不到。
斯坦福大學以人為本人工智能研究所的隱私與數據研究員珍妮弗·金(Jennifer King)說,理想情況下消費者應該能要求刪除自己的個人信息。但在實踐中這通常被理解為只適用於用戶直接提供給公司的數據,比如你跟聊天機器人對話時留下的數據。
“我都不知道 Google 有沒有這個能力……對我說‘是的,我們的訓練數據裡有你的信息,我們可以總結壹下我們知道些什麼,然後刪除或修正那些錯誤的或你不想保留的東西’。”她說。
[加西網正招聘多名全職sales 待遇優]
| 分享: |
| 注: | 在此頁閱讀全文 |
| 延伸閱讀 |
驚! CRA的個人電郵和電話號碼遭竊 |
"700XXXXXXXXXXXX" 15位長的電話號碼要來了 |
澤倫斯基:川普提供私人電話號碼 稱隨時可聯絡 |
馬斯克宣布:我將注銷電話號碼… |
馬斯克要放棄電話號碼,只用X平台 |
破獲網銀盜轉團帳密別設電話號碼 |
驚呆 有電話號碼黑客就可入侵手機 |
在溫哥華 您需要的重要電話號碼 (1條評論) |
象徵「資深」 416電話號碼搶手 |
多市416打頭電話號碼熱炒上千元 |
推薦:



