[潛規則] 英偉達被起訴,用盜版訓練AI成行業潛規則?
這起訴訟的原告方是伍位擁有多部已注冊版權作品的作家。起訴書指控英偉達在使用NeMo Megatron框架開發其下壹代大語言模型時,使用了包含原告版權作品的盜版圖書館的數據集,這些盜版圖書館也被稱為“影子圖書館”。
NeMo Megatron是英偉達開發的壹個用於構建、訓練和部署大語言模型的端到端框架。
原告在美國加利福尼亞北區聯邦地區法院提起訴訟。2026年1月31日,英偉達提交了正式動議,認為原告未能提供足夠的證據證明該公司存在侵權行為,要求法院駁回原告起訴狀,並主張其行為屬於“合理使用”。法院已安排在 2026年4月2日舉行聽證會,審理英偉達提出的動議。
起訴書提供的內部記錄顯示,英偉達面臨著OpenAI的競爭壓力,為了在 2023 年開發者大會上展示其領先的技術,不惜通過“影子圖書館”獲取數百萬本盜版圖書來訓練其大語言模型。
此外,起訴書還指出,英偉達向其客戶提供工具和腳本,鼓勵並協助他們下載盜版數據集 。
大模型熱潮之下,陷入訓練數據版權糾紛的不止英偉達,OpenAI、xAI、Anthropic、Meta等人工智能巨頭也先後遭遇訴訟。在壹起侵權案件中,Anthropic曾同意支付至少15億美元達成和解,可能創下版權賠償金額紀錄。
英偉達高層批准盜版合作?
訓練數據的質量與數量對大模型開發起著關鍵性作用,圖書可以提供充足的數據量,在行業內被視為高質量的訓練數據。對於大模型開發者而言,“影子圖書館”的數據更方便易得,滿足了訓練中對圖書類數據的需求。
起訴書顯示,英偉達發布了多個NeMo Megatron系列大模型。根據其在Hugging Face網站上的描述,這些模型是在非營利研究機構EleutherAI發布的The Pile數據集上訓練的。
The Pile包含壹個名為 Books3的子集,該子集源自“影子圖書館”Bibliotik,包含約19萬本圖書。
除了使用The Pile,英偉達還被指控直接與“影子圖書館”直接合作,使用盜版圖書資源訓練大模型,其中包括全球最大的“影子圖書館”Anna’s Archive。
Anna’s Archive建立於 2022年11月,正值知名電子書庫Z-Library遭到美國政府大規模封禁及創始人被捕之際,旨在整合 Z-Library、Library Genesis (LibGen)、Open Library 和 Sci-Hub 等多家影子圖書館的資源,實現知識的“永久備份”。2026 年 1 月,美國俄亥俄州聯邦法院下達永久禁令,命令其必須刪除所有抓取的全球最大的圖書館目錄數據庫 WorldCat 的數據。
起訴書披露了英偉達與Anna’s Archive溝通協商的全過程。內部文件顯示,英偉達獲取盜版圖書最直接的原因是行業內激烈的競爭。2022年9月,英偉達發布了NeMo Megatron系列大模型。此後的壹年間,OpenAI推出的ChatGPT大獲成功,使得投資者對人工智能的關注度升溫。因此,2023年秋季的年度開發者大會被英偉達認為是壹個重要的時間節點,在此次大會上發布性能領先的大型語言模型才能更好地應對激烈的競爭態勢。
起訴書顯示,在為內部代號“NextLargeLLM”“NextLLMLarge”及“Next Generation LLM”(以下統稱NextLargeLLM)的項目獲取數據時,英偉達高度聚焦於圖書語料庫。2023年8月,英偉達與多家圖書出版商洽談,試圖快速獲取圖書數據資源,不過,這壹需求遭到了拒絕,並未達成數據授權協議。
為了解決對圖書資源的迫切需求,英偉達方面轉而致函Anna’s Archive,意圖了解後者數據“高速訪問權限”的具體形式。Anna’s Archive則在回函中聲明,鑒於其盜版資源是非法獲取的,建議英偉達內部確定可以合作後再告知和推進。
在聯系Anna’s Archive後的壹周內,英偉達管理層便迅速批准了雙方的合作計劃。此後Anna’s Archive向英偉達提供了數百萬本盜版圖書數據的訪問權限,總量約500TB。
起訴書稱,除了Anna’s Archive和The Pile,英偉達還下載了來自其他“影子圖書館”的圖書資源,包括Z-Library、LibGen和Sci-Hub。
Z-Library曾因書籍更新極快、用戶體驗好而迅速崛起。2022年11月,美國聯邦調查局查封了 Z-Library 超過 200 個核心域名。兩名俄羅斯籍創始人在阿根廷被捕,並面臨洗錢和侵犯版權的刑事指控,美國政府目前正尋求將其引渡。此外,美國、奧地利、德國、印度等國法院多次下令域名注冊商注銷其域名。
[物價飛漲的時候 這樣省錢購物很爽]
| 分享: |
| 注: | 在此頁閱讀全文 |
| 延伸閱讀 | 更多... |
推薦:



