[潜规则] 英伟达被起诉,用盗版训练AI成行业潜规则?
这起诉讼的原告方是五位拥有多部已注册版权作品的作家。起诉书指控英伟达在使用NeMo Megatron框架开发其下一代大语言模型时,使用了包含原告版权作品的盗版图书馆的数据集,这些盗版图书馆也被称为“影子图书馆”。
NeMo Megatron是英伟达开发的一个用于构建、训练和部署大语言模型的端到端框架。
原告在美国加利福尼亚北区联邦地区法院提起诉讼。2026年1月31日,英伟达提交了正式动议,认为原告未能提供足够的证据证明该公司存在侵权行为,要求法院驳回原告起诉状,并主张其行为属于“合理使用”。法院已安排在 2026年4月2日举行听证会,审理英伟达提出的动议。
起诉书提供的内部记录显示,英伟达面临着OpenAI的竞争压力,为了在 2023 年开发者大会上展示其领先的技术,不惜通过“影子图书馆”获取数百万本盗版图书来训练其大语言模型。
此外,起诉书还指出,英伟达向其客户提供工具和脚本,鼓励并协助他们下载盗版数据集 。
大模型热潮之下,陷入训练数据版权纠纷的不止英伟达,OpenAI、xAI、Anthropic、Meta等人工智能巨头也先后遭遇诉讼。在一起侵权案件中,Anthropic曾同意支付至少15亿美元达成和解,可能创下版权赔偿金额纪录。
英伟达高层批准盗版合作?
训练数据的质量与数量对大模型开发起着关键性作用,图书可以提供充足的数据量,在行业内被视为高质量的训练数据。对于大模型开发者而言,“影子图书馆”的数据更方便易得,满足了训练中对图书类数据的需求。
起诉书显示,英伟达发布了多个NeMo Megatron系列大模型。根据其在Hugging Face网站上的描述,这些模型是在非营利研究机构EleutherAI发布的The Pile数据集上训练的。
The Pile包含一个名为 Books3的子集,该子集源自“影子图书馆”Bibliotik,包含约19万本图书。
除了使用The Pile,英伟达还被指控直接与“影子图书馆”直接合作,使用盗版图书资源训练大模型,其中包括全球最大的“影子图书馆”Anna’s Archive。
Anna’s Archive建立于 2022年11月,正值知名电子书库Z-Library遭到美国政府大规模封禁及创始人被捕之际,旨在整合 Z-Library、Library Genesis (LibGen)、Open Library 和 Sci-Hub 等多家影子图书馆的资源,实现知识的“永久备份”。2026 年 1 月,美国俄亥俄州联邦法院下达永久禁令,命令其必须删除所有抓取的全球最大的图书馆目录数据库 WorldCat 的数据。
起诉书披露了英伟达与Anna’s Archive沟通协商的全过程。内部文件显示,英伟达获取盗版图书最直接的原因是行业内激烈的竞争。2022年9月,英伟达发布了NeMo Megatron系列大模型。此后的一年间,OpenAI推出的ChatGPT大获成功,使得投资者对人工智能的关注度升温。因此,2023年秋季的年度开发者大会被英伟达认为是一个重要的时间节点,在此次大会上发布性能领先的大型语言模型才能更好地应对激烈的竞争态势。
起诉书显示,在为内部代号“NextLargeLLM”“NextLLMLarge”及“Next Generation LLM”(以下统称NextLargeLLM)的项目获取数据时,英伟达高度聚焦于图书语料库。2023年8月,英伟达与多家图书出版商洽谈,试图快速获取图书数据资源,不过,这一需求遭到了拒绝,并未达成数据授权协议。
为了解决对图书资源的迫切需求,英伟达方面转而致函Anna’s Archive,意图了解后者数据“高速访问权限”的具体形式。Anna’s Archive则在回函中声明,鉴于其盗版资源是非法获取的,建议英伟达内部确定可以合作后再告知和推进。
在联系Anna’s Archive后的一周内,英伟达管理层便迅速批准了双方的合作计划。此后Anna’s Archive向英伟达提供了数百万本盗版图书数据的访问权限,总量约500TB。
起诉书称,除了Anna’s Archive和The Pile,英伟达还下载了来自其他“影子图书馆”的图书资源,包括Z-Library、LibGen和Sci-Hub。
Z-Library曾因书籍更新极快、用户体验好而迅速崛起。2022年11月,美国联邦调查局查封了 Z-Library 超过 200 个核心域名。两名俄罗斯籍创始人在阿根廷被捕,并面临洗钱和侵犯版权的刑事指控,美国政府目前正寻求将其引渡。此外,美国、奥地利、德国、印度等国法院多次下令域名注册商注销其域名。
[加西网正招聘多名全职sales 待遇优]
| 分享: |
| 注: | 在此页阅读全文 |
| 延伸阅读 | 更多... |
推荐: