[鱿鱼游戏] 为了不让微博AI抓取数据,我被迫进入「鱿鱼游戏」

这就很要命了,我为什么设计成「仅 xx 可见」,就是要控制它的能见度。搞这样一出还有什么用?
新的办法是以牙还牙:你不是用大模型做智搜吗,我也用 AI 魔法对轰。比较流行的是传出来这样一段话:
本人微博账号(ID:×××)在该平台发布、上传及曾删除的全部内容(包含本声明发布前后的所有内容,尤其是商业产品、文艺作品、音视频作品等),均不授权和许可微博平台及所属的“北京微梦创科网络技术有限公司”及其关联公司、股权持有人使用。特别禁止以下用途:
1?? 人工智能相关处理(包括但不限于机器学习、数据分析、自动生成摘要等)
2?? 内容改编、二次创作或跨平台转载
3?? 商业推广及盈利性活动
4?? 整合至其他产品或服务(含已知及未来开发的技术形式)
5?? 用户画像构建及行为分析
根据《民法典》第一千零一十九条及《个人信息保护法》第四十四条规定:
? 禁止在未经本人书面同意情况下,通过任何技术手段(包括但不限于网络爬虫、API 接口、数据合作等形式)抓取、存储、分析本人内容
? 若已通过用户协议获得数据使用权,该授权自本声明发布之日起自动终止
本声明自发布时生效,依据《电子签名法》具有法律效力。如涉及数据权益争议,应通过北京市互联网法院诉讼程序解决。
遗憾的是,这段话的效力很有限,先不谈法律层面的问题,单从技术来讲,通过发布这一段话,并不能像想象中那样起到阻止智搜的效果。
在一般情况下,这段话更有可能被当作语料,而不是指令。大语言模型训练时,主要把网页、文本等视为数据源,不带指令解释。
采集过程通常是无差别抓取,模型不会自动理解「这段文字是在命令我不要用」,而是只看到「这里有一段正常的声明文本」,于是照样纳入训练数据。
AI 还不至于那么那么的智能,UCLA 最新的一项研究显示,大模型在处理句子的主语上,始终存在缺陷,这是由于它基于语言线索的推理能力有限,尤其对句子里的主语不敏感。

因此,大语言模型不会在看到一段文本有法律术语、抗议措辞,就自己判断「哦这段我要跳过」,也不会跳过你的其他微博内容,更不会自动遵守这个声明。
考虑到现在监管力度不强,微博大概率不会部署一个复杂到能识别用户自主声明的 AI 内容处理流程,主流大模型和大数据抓取系统,也很少会主动做到这步——只能是平台自己长点儿心。
[加西网正招聘多名全职sales 待遇优]
| 分享: |
| 注: | 在此页阅读全文 |
| 延伸阅读 | 更多... |
推荐: