驚曝Nature論文被天價賣出 商家賺上億作者0收入
Nature的壹篇文章透露:你發過的paper,很可能已經被拿去訓練模型了!有的出版商靠賣數據,已經狂賺2300萬美元。然而辛辛苦苦碼論文的作者們,卻拿不到壹分錢,這合理嗎?
全球數據告急,怎麼辦?
論文來湊!
最近,Nature的壹篇文章向我們揭露了這樣壹個事實:連科研論文,都被薅去訓AI了……
據悉,很多學術出版商,已經向科技公司授權訪問自家的論文,用來訓練AI模型。
壹篇論文從醞釀idea到成稿,包含了多少作者日日夜夜的心血,如今很可能在不知情的情況下,就成為訓AI的數據。
這合理嗎?
更可氣的是,自己的論文還被出版商拿來牟利了。
根據Nature報告,上個月英國的學術出版商Taylor & Francis已經和微軟簽署了壹項價值1000萬美元的協議,允許微軟獲取它的數據,來改進AI系統。
而6月的壹次投資者更新顯示,美國出版商Wiley允許某家公司使用其內容訓模型後,直接壹舉豪賺2300萬美元!
但這個錢,跟廣大論文的作者是半毛錢關系都沒有的。
而且,華盛頓大學AI研究員Lucy Lu Wang還表示,即使不在可開放獲取的存儲庫內,任何可在線閱讀的內容,都很可能已經被輸入LLM中。
更可怕的是,如果壹篇論文已經被用作模型的訓練數據,在模型訓練完成後,它是無法刪除的。
如果現在,你的論文還尚未被用於訓練AI,那也不用擔心——它應該很快就會了!
數據集如黃金,各大公司紛紛出價
我們都知道,LLM需要在海量數據上進行訓練的,而這些數據通常是從互聯網上抓取的。
正是從這些訓練數據中數拾億的token中,LLM推導出模式,從而生成文本、圖像、代碼。
而學術論文篇幅又長,信息密度又高,顯然就是能喂給LLM的最有價值的數據之壹。
而且,在大量科學信息上訓練LLM,也能讓它們在科學主題上的推理能力大大提高。
Wang已經共同創建了基於8110萬篇學術論文的數據集S2ORC。起初,S2ORC數據集是為了文本挖掘而開發的,但後來,它被用於訓練LLM。
2020年非營利組織Eleuther AI構建的Pile,是NLP研究中應用最廣泛的大型開源數據集之壹,總量達到800GB。其中就包含了大量學術來源的文本,arXiv論文比例為8.96%,此外還涵蓋了PubMed、FreeLaw、NIH等其他學術網站。
前段時間開源的1T token數據集MINT也挖掘到了arXiv這個寶藏,共提取到了87萬篇文檔、9B token。
從下面這張數據處理流程圖中,我們就能發現論文數據的質量有多高——幾乎不需要太多的過濾和去重,使用率極高。
而現在,為了應對版權爭議,各大模型公司也開始真金白銀地出價,購買高質量數據集了。
今年,「金融時報」已經把自己的內容以相當可觀的價格,賣給了OpenAI;Reddit也和谷歌達成了類似的協議。
而以後,這樣的交易也少不了。
證明論文曾被LLM使用,難度極高
有些AI開發者會開放自己的數據集,但很多開發AI模型的公司,會對大部分訓練數據保密。
Mozilla基金會的AI訓練數據分析員Stefan Baack表示,對於這些公司的訓練數據,誰都不知道有什麼。
而最受業內人士歡迎的數據來源,無疑就是開源存儲庫arXiv和學術數據庫PubMed的摘要了。
目前,arXiv已經托管了超過250萬篇論文的全文,PubMed包含的引用數量更是驚人,超過3700萬。
雖然PubMed等網站的壹些論文全文有付費牆,但論文摘要是免費瀏覽的,這部分可能早就被大科技公司抓取幹淨了。
所以,有沒有技術方法,能識別自己的論文是否被使用了呢?
[物價飛漲的時候 這樣省錢購物很爽]
好新聞沒人評論怎麼行,我來說幾句
全球數據告急,怎麼辦?
論文來湊!
最近,Nature的壹篇文章向我們揭露了這樣壹個事實:連科研論文,都被薅去訓AI了……
據悉,很多學術出版商,已經向科技公司授權訪問自家的論文,用來訓練AI模型。
壹篇論文從醞釀idea到成稿,包含了多少作者日日夜夜的心血,如今很可能在不知情的情況下,就成為訓AI的數據。
這合理嗎?
更可氣的是,自己的論文還被出版商拿來牟利了。
根據Nature報告,上個月英國的學術出版商Taylor & Francis已經和微軟簽署了壹項價值1000萬美元的協議,允許微軟獲取它的數據,來改進AI系統。
而6月的壹次投資者更新顯示,美國出版商Wiley允許某家公司使用其內容訓模型後,直接壹舉豪賺2300萬美元!
但這個錢,跟廣大論文的作者是半毛錢關系都沒有的。
而且,華盛頓大學AI研究員Lucy Lu Wang還表示,即使不在可開放獲取的存儲庫內,任何可在線閱讀的內容,都很可能已經被輸入LLM中。
更可怕的是,如果壹篇論文已經被用作模型的訓練數據,在模型訓練完成後,它是無法刪除的。
如果現在,你的論文還尚未被用於訓練AI,那也不用擔心——它應該很快就會了!
數據集如黃金,各大公司紛紛出價
我們都知道,LLM需要在海量數據上進行訓練的,而這些數據通常是從互聯網上抓取的。
正是從這些訓練數據中數拾億的token中,LLM推導出模式,從而生成文本、圖像、代碼。
而學術論文篇幅又長,信息密度又高,顯然就是能喂給LLM的最有價值的數據之壹。
而且,在大量科學信息上訓練LLM,也能讓它們在科學主題上的推理能力大大提高。
Wang已經共同創建了基於8110萬篇學術論文的數據集S2ORC。起初,S2ORC數據集是為了文本挖掘而開發的,但後來,它被用於訓練LLM。
2020年非營利組織Eleuther AI構建的Pile,是NLP研究中應用最廣泛的大型開源數據集之壹,總量達到800GB。其中就包含了大量學術來源的文本,arXiv論文比例為8.96%,此外還涵蓋了PubMed、FreeLaw、NIH等其他學術網站。
前段時間開源的1T token數據集MINT也挖掘到了arXiv這個寶藏,共提取到了87萬篇文檔、9B token。
從下面這張數據處理流程圖中,我們就能發現論文數據的質量有多高——幾乎不需要太多的過濾和去重,使用率極高。
而現在,為了應對版權爭議,各大模型公司也開始真金白銀地出價,購買高質量數據集了。
今年,「金融時報」已經把自己的內容以相當可觀的價格,賣給了OpenAI;Reddit也和谷歌達成了類似的協議。
而以後,這樣的交易也少不了。
證明論文曾被LLM使用,難度極高
有些AI開發者會開放自己的數據集,但很多開發AI模型的公司,會對大部分訓練數據保密。
Mozilla基金會的AI訓練數據分析員Stefan Baack表示,對於這些公司的訓練數據,誰都不知道有什麼。
而最受業內人士歡迎的數據來源,無疑就是開源存儲庫arXiv和學術數據庫PubMed的摘要了。
目前,arXiv已經托管了超過250萬篇論文的全文,PubMed包含的引用數量更是驚人,超過3700萬。
雖然PubMed等網站的壹些論文全文有付費牆,但論文摘要是免費瀏覽的,這部分可能早就被大科技公司抓取幹淨了。
所以,有沒有技術方法,能識別自己的論文是否被使用了呢?
[物價飛漲的時候 這樣省錢購物很爽]
| 分享: |
| 注: | 在此頁閱讀全文 |
推薦:
驚曝Nature論文被天價賣出 商家賺上億作者0收入