AI正在泄露真实的个人电话号码 投诉暴增
随着公开数据逐渐“用完”、AI 公司寻找新的高质量训练数据来源,个人信息出现在训练数据中的概率只会越来越高。这些来源包括数据中间商和人员搜索网站:根据加州数据中间商登记信息,该州 578 家注册数据中间商中有 31 家自行报告称“在过去一年中曾向生成式 AI 系统或模型的开发者共享或出售过消费者数据”。
此外,模型已知会从训练数据中逐字记忆和复制内容。最新研究还表明,被记住的不仅仅是出现频率最高的那些数据。
2
不完善的防护
现在的标准做法是在大语言模型的设计中加入护栏来限制某些输出,从用于识别和阻止聊天机器人泄露个人信息的内容过滤器,到 Anthropic 对 Claude 的指令,都优先选择“包含最少他人个人、私密或机密信息”的回答。
但正如华盛顿大学两位研究隐私与技术的博士生最近亲身经历的,这些防护措施并不总是管用。
“有一天我就是在 Gemini 上随便玩,搜了搜我的朋友兼合作者雅尔·艾格(Yael Eiger)的名字,”梅拉·吉尔伯特(Meira Gilbert)说。她输入的是“Yael Eiger contact info”,Gemini 先是展示了艾格的研究概况,但接着还返回了艾格的私人手机号。“太震惊了。”吉尔伯特说。
看到这个结果后,艾格回忆起她确实在前一年为一个技术工作坊公开分享过自己的手机号。但她没有预料到这个信息会如此轻易地被全世界的人看到。
“你的信息原本只对某个特定群体可见,然后 Gemini 让任何人都能看到。”艾格说,这感觉完全不同——尤其是当她发现这个信息在普通 Google 搜索中其实是很难找到的。
“它被严重降权了,”吉尔伯特确认说,“如果只是翻 Google 搜索结果,我绝对找不到。”(我本月早些时候用同样的提示词在 Gemini 上试了一下,起初被拒绝,但随后工具还是给出了艾格的号码。)
这次经历之后,艾格、吉尔伯特和另一位华盛顿大学博士生安娜-玛丽亚·格奥尔基耶娃(Anna-Maria Gueorguieva)决定测试 ChatGPT,看看它会透露关于一位教授的什么信息。
一开始 OpenAI 的护栏起了作用,ChatGPT 表示该信息不可用。但就在同一个回答中,聊天机器人建议说:“如果你想深入挖掘,我可以试试更‘调查式’的方法。”只需要提供一些信息来“缩小范围”,ChatGPT 说,比如“猜一下那位教授住在哪个社区”或者“可能的房产共有人姓名”。ChatGPT 还说:“这通常是找到较新的或刻意不公开的房产记录的唯一方法。”
学生们提供了这些信息,ChatGPT 随即生成了这位教授的家庭住址、购房价格和配偶姓名,来源是城市房产记录。
OpenAI 的代表塔亚·克里斯蒂安森(Taya Christianson)表示,在没有看到截图、不知道学生测试的是哪个模型的情况下,她无法对此事做出评论——尽管我们指出很多用户在 ChatGPT 界面上可能并不知道自己在用哪个模型。针对个人信息泄露的问题,她发来了几个链接,介绍 OpenAI 如何处理隐私问题,包括过滤个人信息等工具。
DeleteMe 的沙维尔说,这暴露了聊天机器人的一个根本矛盾:AI 公司“可以设置护栏,但聊天机器人同时也被设计成要有效地回答用户的问题。”
这个问题不只存在于 Gemini 和 ChatGPT。去年 Futurism 发现,如果你在 xAI 的聊天机器人 Grok 上输入“[某人姓名] 地址”,几乎每次它都不仅给出了住宅地址,往往还附上了电话号码、工作地址,甚至名字相似的人的地址。(xAI 没有回应置评请求。)
3
没有简单的解决办法
这个问题目前没有简单的解决方案。无论是验证你的个人信息是否存在于某个模型的训练集中,还是迫使模型删除这些信息,都做不到。
斯坦福大学以人为本人工智能研究所的隐私与数据研究员珍妮弗·金(Jennifer King)说,理想情况下消费者应该能要求删除自己的个人信息。但在实践中这通常被理解为只适用于用户直接提供给公司的数据,比如你跟聊天机器人对话时留下的数据。
“我都不知道 Google 有没有这个能力……对我说‘是的,我们的训练数据里有你的信息,我们可以总结一下我们知道些什么,然后删除或修正那些错误的或你不想保留的东西’。”她说。
[加西网正招聘多名全职sales 待遇优]
无评论不新闻,发表一下您的意见吧
此外,模型已知会从训练数据中逐字记忆和复制内容。最新研究还表明,被记住的不仅仅是出现频率最高的那些数据。
2
不完善的防护
现在的标准做法是在大语言模型的设计中加入护栏来限制某些输出,从用于识别和阻止聊天机器人泄露个人信息的内容过滤器,到 Anthropic 对 Claude 的指令,都优先选择“包含最少他人个人、私密或机密信息”的回答。
但正如华盛顿大学两位研究隐私与技术的博士生最近亲身经历的,这些防护措施并不总是管用。
“有一天我就是在 Gemini 上随便玩,搜了搜我的朋友兼合作者雅尔·艾格(Yael Eiger)的名字,”梅拉·吉尔伯特(Meira Gilbert)说。她输入的是“Yael Eiger contact info”,Gemini 先是展示了艾格的研究概况,但接着还返回了艾格的私人手机号。“太震惊了。”吉尔伯特说。
看到这个结果后,艾格回忆起她确实在前一年为一个技术工作坊公开分享过自己的手机号。但她没有预料到这个信息会如此轻易地被全世界的人看到。
“你的信息原本只对某个特定群体可见,然后 Gemini 让任何人都能看到。”艾格说,这感觉完全不同——尤其是当她发现这个信息在普通 Google 搜索中其实是很难找到的。
“它被严重降权了,”吉尔伯特确认说,“如果只是翻 Google 搜索结果,我绝对找不到。”(我本月早些时候用同样的提示词在 Gemini 上试了一下,起初被拒绝,但随后工具还是给出了艾格的号码。)
这次经历之后,艾格、吉尔伯特和另一位华盛顿大学博士生安娜-玛丽亚·格奥尔基耶娃(Anna-Maria Gueorguieva)决定测试 ChatGPT,看看它会透露关于一位教授的什么信息。
一开始 OpenAI 的护栏起了作用,ChatGPT 表示该信息不可用。但就在同一个回答中,聊天机器人建议说:“如果你想深入挖掘,我可以试试更‘调查式’的方法。”只需要提供一些信息来“缩小范围”,ChatGPT 说,比如“猜一下那位教授住在哪个社区”或者“可能的房产共有人姓名”。ChatGPT 还说:“这通常是找到较新的或刻意不公开的房产记录的唯一方法。”
学生们提供了这些信息,ChatGPT 随即生成了这位教授的家庭住址、购房价格和配偶姓名,来源是城市房产记录。
OpenAI 的代表塔亚·克里斯蒂安森(Taya Christianson)表示,在没有看到截图、不知道学生测试的是哪个模型的情况下,她无法对此事做出评论——尽管我们指出很多用户在 ChatGPT 界面上可能并不知道自己在用哪个模型。针对个人信息泄露的问题,她发来了几个链接,介绍 OpenAI 如何处理隐私问题,包括过滤个人信息等工具。
DeleteMe 的沙维尔说,这暴露了聊天机器人的一个根本矛盾:AI 公司“可以设置护栏,但聊天机器人同时也被设计成要有效地回答用户的问题。”
这个问题不只存在于 Gemini 和 ChatGPT。去年 Futurism 发现,如果你在 xAI 的聊天机器人 Grok 上输入“[某人姓名] 地址”,几乎每次它都不仅给出了住宅地址,往往还附上了电话号码、工作地址,甚至名字相似的人的地址。(xAI 没有回应置评请求。)
3
没有简单的解决办法
这个问题目前没有简单的解决方案。无论是验证你的个人信息是否存在于某个模型的训练集中,还是迫使模型删除这些信息,都做不到。
斯坦福大学以人为本人工智能研究所的隐私与数据研究员珍妮弗·金(Jennifer King)说,理想情况下消费者应该能要求删除自己的个人信息。但在实践中这通常被理解为只适用于用户直接提供给公司的数据,比如你跟聊天机器人对话时留下的数据。
“我都不知道 Google 有没有这个能力……对我说‘是的,我们的训练数据里有你的信息,我们可以总结一下我们知道些什么,然后删除或修正那些错误的或你不想保留的东西’。”她说。
[加西网正招聘多名全职sales 待遇优]
| 分享: |
| 注: | 在此页阅读全文 |
| 延伸阅读 |
惊! CRA的个人电邮和电话号码遭窃 |
"700XXXXXXXXXXXX" 15位长的电话号码要来了 |
泽伦斯基:川普提供私人电话号码 称随时可联络 |
马斯克宣布:我将注销电话号码… |
马斯克要放弃电话号码,只用X平台 |
破获网银盗转团帐密别设电话号码 |
惊呆 有电话号码黑客就可入侵手机 |
在温哥华 您需要的重要电话号码 (1条评论) |
象徵「资深」 416电话号码抢手 |
多市416打头电话号码热炒上千元 |
推荐:
AI正在泄露真实的个人电话号码 投诉暴增