Anthropic"蒸餾"了人類最大的知識庫
2024 年初,在美國某處的壹座倉庫裡,工人們正在做壹件看起來有些奇怪的事:把書壹本本送進機器,切掉書脊,掃描,然後把剩下的紙送去回收。
這些書是剛買來的,有些甚至是新的。沒有人會讀它們,它們存在的唯壹目的,就是被數字化掃描,然後被銷毀。
下令做這件事的,是壹家名為 Anthropic 的 AI 公司。

在他們的內部文件裡,這項計劃有個代號:“巴拿馬項目”。壹份規劃文件裡如此寫道:“這是我們以破壞性方式掃描全球所有書籍的計劃,我們不希望外界知道我們正在做這件事。”
但這件事最終還是被人知道了。
上個月,壹名美國聯邦法官解封了壹批與版權訴訟相關的文件,總計超過 4000 頁。外界由此看到的,不只是壹家 AI 公司的秘密,而是整個 AI 行業在數據爭奪戰中的真實面目。
被大模型“吃”掉的實體書
為什麼這些處於技術前沿的科技巨頭,會用如此原始甚至粗暴的方式對待紙質書?答案其實藏在 AI 對高質量數據的極度渴求裡。
Anthropic 內部很早就意識到,訓練 AI 模型光靠網絡上的內容不夠用。
根據《華盛頓郵報》報道,壹位Anthropic 聯合創始人在 2023 年 1 月的文件中寫道,用書籍訓練模型,可以讓 AI 學會“如何寫得更好”,而不是只會模仿質量參差不齊的網絡語言。
書籍經過嚴格編輯和校對,內容結構清晰,是網絡文本難以替代的高質量語料。
這個邏輯本身並不難理解,但問題是,既然承認書籍有價值,為什麼不付錢?究其原因,挨個找出版社和作者談授權,費時費力,成本也高。於是 Anthropic 啟動了“巴拿馬項目”。僅憑那句“不希望外界知道”,說明它也清楚這件事不見得光。
甚至“巴拿馬項目”還沒啟動的時候,Anthropic 已經嘗試通過另壹種方式獲取書籍。

Ben Mann
法院文件顯示,Anthropic 聯合創始人 Ben Mann 曾在 2021 年 6 月的 11 天裡,從壹個叫 LibGen 的“影子圖書館”網站下載了大量侵權小說和非小說類書籍。
壹年後,另壹個網站 Pirate Library Mirror 於 2022 年 7 月上線,該網站公開宣稱“在大多數國家故意違反版權法”。
Mann 把這個網站的鏈接發給了其他 Anthropic 員工,並留言寫道:“來得正是時候!!!”從這些感歎號,我們也能看出壹位公司高管對壹個公開承認違法的盜版網站表達的真實態度。
[物價飛漲的時候 這樣省錢購物很爽]
還沒人說話啊,我想來說幾句
這些書是剛買來的,有些甚至是新的。沒有人會讀它們,它們存在的唯壹目的,就是被數字化掃描,然後被銷毀。
下令做這件事的,是壹家名為 Anthropic 的 AI 公司。

在他們的內部文件裡,這項計劃有個代號:“巴拿馬項目”。壹份規劃文件裡如此寫道:“這是我們以破壞性方式掃描全球所有書籍的計劃,我們不希望外界知道我們正在做這件事。”
但這件事最終還是被人知道了。
上個月,壹名美國聯邦法官解封了壹批與版權訴訟相關的文件,總計超過 4000 頁。外界由此看到的,不只是壹家 AI 公司的秘密,而是整個 AI 行業在數據爭奪戰中的真實面目。
被大模型“吃”掉的實體書
為什麼這些處於技術前沿的科技巨頭,會用如此原始甚至粗暴的方式對待紙質書?答案其實藏在 AI 對高質量數據的極度渴求裡。
Anthropic 內部很早就意識到,訓練 AI 模型光靠網絡上的內容不夠用。
根據《華盛頓郵報》報道,壹位Anthropic 聯合創始人在 2023 年 1 月的文件中寫道,用書籍訓練模型,可以讓 AI 學會“如何寫得更好”,而不是只會模仿質量參差不齊的網絡語言。
書籍經過嚴格編輯和校對,內容結構清晰,是網絡文本難以替代的高質量語料。
這個邏輯本身並不難理解,但問題是,既然承認書籍有價值,為什麼不付錢?究其原因,挨個找出版社和作者談授權,費時費力,成本也高。於是 Anthropic 啟動了“巴拿馬項目”。僅憑那句“不希望外界知道”,說明它也清楚這件事不見得光。
甚至“巴拿馬項目”還沒啟動的時候,Anthropic 已經嘗試通過另壹種方式獲取書籍。

Ben Mann
法院文件顯示,Anthropic 聯合創始人 Ben Mann 曾在 2021 年 6 月的 11 天裡,從壹個叫 LibGen 的“影子圖書館”網站下載了大量侵權小說和非小說類書籍。
壹年後,另壹個網站 Pirate Library Mirror 於 2022 年 7 月上線,該網站公開宣稱“在大多數國家故意違反版權法”。
Mann 把這個網站的鏈接發給了其他 Anthropic 員工,並留言寫道:“來得正是時候!!!”從這些感歎號,我們也能看出壹位公司高管對壹個公開承認違法的盜版網站表達的真實態度。
[物價飛漲的時候 這樣省錢購物很爽]
| 分享: |
| 注: | 在此頁閱讀全文 |
| 延伸閱讀 |
推薦:



