Anthropic"蒸馏"了人类最大的知识库
2024 年初,在美国某处的一座仓库里,工人们正在做一件看起来有些奇怪的事:把书一本本送进机器,切掉书脊,扫描,然后把剩下的纸送去回收。
这些书是刚买来的,有些甚至是新的。没有人会读它们,它们存在的唯一目的,就是被数字化扫描,然后被销毁。
下令做这件事的,是一家名为 Anthropic 的 AI 公司。

在他们的内部文件里,这项计划有个代号:“巴拿马项目”。一份规划文件里如此写道:“这是我们以破坏性方式扫描全球所有书籍的计划,我们不希望外界知道我们正在做这件事。”
但这件事最终还是被人知道了。
上个月,一名美国联邦法官解封了一批与版权诉讼相关的文件,总计超过 4000 页。外界由此看到的,不只是一家 AI 公司的秘密,而是整个 AI 行业在数据争夺战中的真实面目。
被大模型“吃”掉的实体书
为什么这些处于技术前沿的科技巨头,会用如此原始甚至粗暴的方式对待纸质书?答案其实藏在 AI 对高质量数据的极度渴求里。
Anthropic 内部很早就意识到,训练 AI 模型光靠网络上的内容不够用。
根据《华盛顿邮报》报道,一位Anthropic 联合创始人在 2023 年 1 月的文件中写道,用书籍训练模型,可以让 AI 学会“如何写得更好”,而不是只会模仿质量参差不齐的网络语言。
书籍经过严格编辑和校对,内容结构清晰,是网络文本难以替代的高质量语料。
这个逻辑本身并不难理解,但问题是,既然承认书籍有价值,为什么不付钱?究其原因,挨个找出版社和作者谈授权,费时费力,成本也高。于是 Anthropic 启动了“巴拿马项目”。仅凭那句“不希望外界知道”,说明它也清楚这件事不见得光。
甚至“巴拿马项目”还没启动的时候,Anthropic 已经尝试通过另一种方式获取书籍。

Ben Mann
法院文件显示,Anthropic 联合创始人 Ben Mann 曾在 2021 年 6 月的 11 天里,从一个叫 LibGen 的“影子图书馆”网站下载了大量侵权小说和非小说类书籍。
一年后,另一个网站 Pirate Library Mirror 于 2022 年 7 月上线,该网站公开宣称“在大多数国家故意违反版权法”。
Mann 把这个网站的链接发给了其他 Anthropic 员工,并留言写道:“来得正是时候!!!”从这些感叹号,我们也能看出一位公司高管对一个公开承认违法的盗版网站表达的真实态度。
[加西网正招聘多名全职sales 待遇优]
还没人说话啊,我想来说几句
这些书是刚买来的,有些甚至是新的。没有人会读它们,它们存在的唯一目的,就是被数字化扫描,然后被销毁。
下令做这件事的,是一家名为 Anthropic 的 AI 公司。

在他们的内部文件里,这项计划有个代号:“巴拿马项目”。一份规划文件里如此写道:“这是我们以破坏性方式扫描全球所有书籍的计划,我们不希望外界知道我们正在做这件事。”
但这件事最终还是被人知道了。
上个月,一名美国联邦法官解封了一批与版权诉讼相关的文件,总计超过 4000 页。外界由此看到的,不只是一家 AI 公司的秘密,而是整个 AI 行业在数据争夺战中的真实面目。
被大模型“吃”掉的实体书
为什么这些处于技术前沿的科技巨头,会用如此原始甚至粗暴的方式对待纸质书?答案其实藏在 AI 对高质量数据的极度渴求里。
Anthropic 内部很早就意识到,训练 AI 模型光靠网络上的内容不够用。
根据《华盛顿邮报》报道,一位Anthropic 联合创始人在 2023 年 1 月的文件中写道,用书籍训练模型,可以让 AI 学会“如何写得更好”,而不是只会模仿质量参差不齐的网络语言。
书籍经过严格编辑和校对,内容结构清晰,是网络文本难以替代的高质量语料。
这个逻辑本身并不难理解,但问题是,既然承认书籍有价值,为什么不付钱?究其原因,挨个找出版社和作者谈授权,费时费力,成本也高。于是 Anthropic 启动了“巴拿马项目”。仅凭那句“不希望外界知道”,说明它也清楚这件事不见得光。
甚至“巴拿马项目”还没启动的时候,Anthropic 已经尝试通过另一种方式获取书籍。

Ben Mann
法院文件显示,Anthropic 联合创始人 Ben Mann 曾在 2021 年 6 月的 11 天里,从一个叫 LibGen 的“影子图书馆”网站下载了大量侵权小说和非小说类书籍。
一年后,另一个网站 Pirate Library Mirror 于 2022 年 7 月上线,该网站公开宣称“在大多数国家故意违反版权法”。
Mann 把这个网站的链接发给了其他 Anthropic 员工,并留言写道:“来得正是时候!!!”从这些感叹号,我们也能看出一位公司高管对一个公开承认违法的盗版网站表达的真实态度。
[加西网正招聘多名全职sales 待遇优]
| 分享: |
| 注: | 在此页阅读全文 |
| 延伸阅读 |
推荐:
Anthropic"蒸馏"了人类最大的知识库