驚曝Nature論文被天價賣出 商家賺上億作者0收入
目前來說,還很難。
倫敦帝國理工學院的計算機科學家Yves-Alexandre de Montjoye介紹道:要證明LLM使用了某篇確定的論文,是很困難的。
有壹個辦法,是使用論文文本中非常罕見的句子來提示模型,看看它的輸出是否就是原文中的下壹個詞。
有學者曾以「哈利·波特與魔法石」第叁章的開頭提示GPT-3,模型很快正確地吐出了大約壹整頁書中的內容
如果是的話,那就沒跑了——論文就在模型的訓練集中。
如果不是呢?這也未必是有效證據,能證明論文未被使用。
因為開發者可以對LLM進行編碼,讓它們過濾響應,從而不和訓練數據過於匹配。
可能的情況是,我們費了老大勁,依然無法明確地證明。
另壹種方法,就是「成員推理攻擊」。
這種方法的原理,就是當模型看到以前見過的東西時,會對輸出更有信心,
論文地址:https://arxiv.org/abs/2112.03570
為此,De Montjoye的團隊專門開發了壹種「版權陷阱」。
論文地址:https://arxiv.org/abs/2402.09363
為了設置陷阱,團隊會生成看似合理卻無意義的句子,並將其隱藏在作品中,比如白色背景上的白色文本或網頁上顯示為零寬度的字段。
如果模型對未使用的控制句的困惑度,比對隱藏在文本中的控制句的困惑度更高,這就可以作為陷阱曾被看到的統計證據。
版權爭議
然而,即使能證明LLM是在某篇論文上訓練的,又能怎麼辦呢?
這裡,就存在壹個由來已久的爭議。
在出版商看來,如果開發者在訓練中使用了受版權保護的文本,且沒有獲得許可,那鐵定就是侵權。
但另壹方卻可以這樣反駁:大模型並沒有抄襲啊,所以何來侵權之說?
的確,LLM並沒有復制任何東西,它只是從訓練數據中獲取信息,拆解這些內容,然後利用它們學習生成新的文本。
當然,這類訴訟已經有先例了,比如「紐約時報」對OpenAI那場石破天驚的起訴。
其中更加復雜的問題,是如何劃清商用和學術研究用途。
根據目前arXiv網站上的使用條款,如果是個人或研究用途,抓取、存儲、使用所有的電子預印本論文和網站元數據都是合規且被支持的。
然而,arXiv對商業方面的使用是嚴令禁止的。
那麼問題來了,如果某個商業公司使用了學術機構發布的開源數據集訓練自己的商業模型,且數據來源含有arXiv或類似學術出版機構,這怎麼算?
此外,出版商在用戶的訂閱條款中往往也沒有明確規定,能否將論文用作模型的訓練數據。
比如,壹個付費購買Wiley論文庫閱讀全文資格的用戶,是否被允許將這些文本拷貝下來喂給模型?
現在的問題是,有人想讓自己的作品納入LLM的訓練數據中,有人不想。
有人已經做出來壹個[haveibeentrained」的同名網站,用來檢測自己的內容是否被用於訓練AI模型
比如Mozilla基金會的Baack就表示,非常樂於看到自己的作品讓LLM變得更准確,「我並不介意有壹個以我的風格寫作的聊天機器人」。
但是,他只能代表自己,依然有其他很多藝術家和作家,會受到LLM的威脅。
如果提交論文後,這篇論文的出版商決定出售對版權作品的訪問權限,那個別的論文作者是根本沒有權力幹涉的。
整個圈子也是魚龍混雜,公開發表的文章既沒有既定的方法來分配來源,也無法確定文本是否已被使用。
包括de Montjoye在內的壹些研究者對此感到沮喪。
「我們需要LLM,但我們仍然希望有公平可言,但目前我們還沒有發明出理想的公平是什麼樣子。」
[物價飛漲的時候 這樣省錢購物很爽]
這條新聞還沒有人評論喔,等著您的高見呢
倫敦帝國理工學院的計算機科學家Yves-Alexandre de Montjoye介紹道:要證明LLM使用了某篇確定的論文,是很困難的。
有壹個辦法,是使用論文文本中非常罕見的句子來提示模型,看看它的輸出是否就是原文中的下壹個詞。
有學者曾以「哈利·波特與魔法石」第叁章的開頭提示GPT-3,模型很快正確地吐出了大約壹整頁書中的內容
如果是的話,那就沒跑了——論文就在模型的訓練集中。
如果不是呢?這也未必是有效證據,能證明論文未被使用。
因為開發者可以對LLM進行編碼,讓它們過濾響應,從而不和訓練數據過於匹配。
可能的情況是,我們費了老大勁,依然無法明確地證明。
另壹種方法,就是「成員推理攻擊」。
這種方法的原理,就是當模型看到以前見過的東西時,會對輸出更有信心,
論文地址:https://arxiv.org/abs/2112.03570
為此,De Montjoye的團隊專門開發了壹種「版權陷阱」。
論文地址:https://arxiv.org/abs/2402.09363
為了設置陷阱,團隊會生成看似合理卻無意義的句子,並將其隱藏在作品中,比如白色背景上的白色文本或網頁上顯示為零寬度的字段。
如果模型對未使用的控制句的困惑度,比對隱藏在文本中的控制句的困惑度更高,這就可以作為陷阱曾被看到的統計證據。
版權爭議
然而,即使能證明LLM是在某篇論文上訓練的,又能怎麼辦呢?
這裡,就存在壹個由來已久的爭議。
在出版商看來,如果開發者在訓練中使用了受版權保護的文本,且沒有獲得許可,那鐵定就是侵權。
但另壹方卻可以這樣反駁:大模型並沒有抄襲啊,所以何來侵權之說?
的確,LLM並沒有復制任何東西,它只是從訓練數據中獲取信息,拆解這些內容,然後利用它們學習生成新的文本。
當然,這類訴訟已經有先例了,比如「紐約時報」對OpenAI那場石破天驚的起訴。
其中更加復雜的問題,是如何劃清商用和學術研究用途。
根據目前arXiv網站上的使用條款,如果是個人或研究用途,抓取、存儲、使用所有的電子預印本論文和網站元數據都是合規且被支持的。
然而,arXiv對商業方面的使用是嚴令禁止的。
那麼問題來了,如果某個商業公司使用了學術機構發布的開源數據集訓練自己的商業模型,且數據來源含有arXiv或類似學術出版機構,這怎麼算?
此外,出版商在用戶的訂閱條款中往往也沒有明確規定,能否將論文用作模型的訓練數據。
比如,壹個付費購買Wiley論文庫閱讀全文資格的用戶,是否被允許將這些文本拷貝下來喂給模型?
現在的問題是,有人想讓自己的作品納入LLM的訓練數據中,有人不想。
有人已經做出來壹個[haveibeentrained」的同名網站,用來檢測自己的內容是否被用於訓練AI模型
比如Mozilla基金會的Baack就表示,非常樂於看到自己的作品讓LLM變得更准確,「我並不介意有壹個以我的風格寫作的聊天機器人」。
但是,他只能代表自己,依然有其他很多藝術家和作家,會受到LLM的威脅。
如果提交論文後,這篇論文的出版商決定出售對版權作品的訪問權限,那個別的論文作者是根本沒有權力幹涉的。
整個圈子也是魚龍混雜,公開發表的文章既沒有既定的方法來分配來源,也無法確定文本是否已被使用。
包括de Montjoye在內的壹些研究者對此感到沮喪。
「我們需要LLM,但我們仍然希望有公平可言,但目前我們還沒有發明出理想的公平是什麼樣子。」
[物價飛漲的時候 這樣省錢購物很爽]
| 分享: |
| 注: | 在此頁閱讀全文 |
推薦:
驚曝Nature論文被天價賣出 商家賺上億作者0收入