驚曝Nature論文被天價賣出 商家賺上億作者0收入
多模態數據不夠,arXiv來湊
事實上,龐大的arXiv論文庫中,可以利用的不止文本數據。
ACL 2024接收了壹篇來自北大和港大學者的論文,他們嘗試利用這些論文中的圖文構建高質量多模態數據集,取得了非常不錯的效果。
項目主頁:https://mm-arxiv.github.io/
前段時間,紐約大學謝賽寧教授和Yann LeCun等人發布的Cambrian模型也用到了這個數據集。
之所以要用arXiv論文中的圖片,主要還是由於科學領域訓練數據集的稀缺。
GPT-4V等視覺語言模型雖然在自然場景的圖像中有出色的表現,但在解釋抽象圖片方面,比如幾何形狀和科學圖表,依舊能力有限,也無法理解學術圖片中細微的語義差別。
這篇論文構建的多模態arXiv數據集總共用到了各個STEM領域的57.2萬篇論文,超過arXiv論文總數(2.5M)的伍分之壹,包含兩部分:問答數據集ArXivQA和圖片標注數據集ArXivCap。
依托arXiv大量且多樣的論文收錄,與之前的科學圖片數據集相比,ArXivCap的數據量是第贰名SciCap的3倍,ArXivQA也是唯壹涵蓋廣泛領域內真實論文的問答數據集。
通過使用這些領域特定數據進行訓練,VLM的的數學推理能力有了顯著增強,在多模態數學推理基准上實現了10.4%的准確率提升。
比如,在ArXivQA上訓練過的Qwen 7B模型能夠正確理解條形圖並回答相關問題(左圖),數學能力也有所提高(右圖)。不僅答案正確,給出的推理過程也更加完整充分。
數據集構建
數據集的構建流水線如下圖所示。由於arXiv是預印本平台,所以需要先通過發表記錄篩選出被期刊或會議接收的論文,以保證數據質量。
提取論文中的圖片-文字對並進行基於規則的清理後,組成ArXivCap;ArXivQA則由GPT-4V生成,但使用了精心設計過的prompt模板。
ArXivCap中的壹個單圖標注對:
2019年論文「Semigroup models for biochemical reaction networks」
ArXivCap數據集中的壹個多圖標注對:
2018年論文「Low-Power Wide-Area Networks for Sustainable IoT」
ArXivQA數據集示例:
2020年論文「Skyrmion ratchet propagation: Utilizing the skyrmion Hall effect in AC racetrack storage devices」
評估
根據在MathVista數據集上的結果,ArXivCap和ArXivQA共同提升了Qwen-VL-Chat的整體性能,超越了Bard的表現。
最佳結果以粗體顯示,次佳結果以下劃線標記
在為單張圖片生成圖注的任務中,提升效果更加顯著,經過ArXivCap訓練的Qwen 7B模型可以匹配甚至超過GPT-4V。
灰色結果由數據集中500個樣本的測試得到
論文提出了叁個新定義任務:多圖的圖注生成、上下文中的圖注生成以及標題生成。經過ArXivCap訓練的Qwen 8B的所有分數都超過了GPT-4V,且多數情況下是最佳結果。
最佳結果以粗體顯示
按照研究領域劃分,ArXivQA數據集上的訓練在天體物理、凝聚態物理、數學、計算機科學這些領域都能帶來相當顯著的提升,超過60%,准確率變化比例超過60%。
人工評估
前面所述的文本生成質量和准確率都是基於算法的自動評估,研究團隊還對單圖的圖注生成任務進行了人工評估,但只專注於計算機科學領域的論文。
與前面的基准測試結果相比,人工評估的結果並不理想,100個案例中只有16%被認為是「可接受的」,「上下文誤讀」的問題相對嚴重,也有壹定比例的「過度簡化」和「識別錯誤」。
參考資料
https://www.nature.com/articles/d41586-024-02599-9
[物價飛漲的時候 這樣省錢購物很爽]
還沒人說話啊,我想來說幾句
事實上,龐大的arXiv論文庫中,可以利用的不止文本數據。
ACL 2024接收了壹篇來自北大和港大學者的論文,他們嘗試利用這些論文中的圖文構建高質量多模態數據集,取得了非常不錯的效果。
項目主頁:https://mm-arxiv.github.io/
前段時間,紐約大學謝賽寧教授和Yann LeCun等人發布的Cambrian模型也用到了這個數據集。
之所以要用arXiv論文中的圖片,主要還是由於科學領域訓練數據集的稀缺。
GPT-4V等視覺語言模型雖然在自然場景的圖像中有出色的表現,但在解釋抽象圖片方面,比如幾何形狀和科學圖表,依舊能力有限,也無法理解學術圖片中細微的語義差別。
這篇論文構建的多模態arXiv數據集總共用到了各個STEM領域的57.2萬篇論文,超過arXiv論文總數(2.5M)的伍分之壹,包含兩部分:問答數據集ArXivQA和圖片標注數據集ArXivCap。
依托arXiv大量且多樣的論文收錄,與之前的科學圖片數據集相比,ArXivCap的數據量是第贰名SciCap的3倍,ArXivQA也是唯壹涵蓋廣泛領域內真實論文的問答數據集。
通過使用這些領域特定數據進行訓練,VLM的的數學推理能力有了顯著增強,在多模態數學推理基准上實現了10.4%的准確率提升。
比如,在ArXivQA上訓練過的Qwen 7B模型能夠正確理解條形圖並回答相關問題(左圖),數學能力也有所提高(右圖)。不僅答案正確,給出的推理過程也更加完整充分。
數據集構建
數據集的構建流水線如下圖所示。由於arXiv是預印本平台,所以需要先通過發表記錄篩選出被期刊或會議接收的論文,以保證數據質量。
提取論文中的圖片-文字對並進行基於規則的清理後,組成ArXivCap;ArXivQA則由GPT-4V生成,但使用了精心設計過的prompt模板。
ArXivCap中的壹個單圖標注對:
2019年論文「Semigroup models for biochemical reaction networks」
ArXivCap數據集中的壹個多圖標注對:
2018年論文「Low-Power Wide-Area Networks for Sustainable IoT」
ArXivQA數據集示例:
2020年論文「Skyrmion ratchet propagation: Utilizing the skyrmion Hall effect in AC racetrack storage devices」
評估
根據在MathVista數據集上的結果,ArXivCap和ArXivQA共同提升了Qwen-VL-Chat的整體性能,超越了Bard的表現。
最佳結果以粗體顯示,次佳結果以下劃線標記
在為單張圖片生成圖注的任務中,提升效果更加顯著,經過ArXivCap訓練的Qwen 7B模型可以匹配甚至超過GPT-4V。
灰色結果由數據集中500個樣本的測試得到
論文提出了叁個新定義任務:多圖的圖注生成、上下文中的圖注生成以及標題生成。經過ArXivCap訓練的Qwen 8B的所有分數都超過了GPT-4V,且多數情況下是最佳結果。
最佳結果以粗體顯示
按照研究領域劃分,ArXivQA數據集上的訓練在天體物理、凝聚態物理、數學、計算機科學這些領域都能帶來相當顯著的提升,超過60%,准確率變化比例超過60%。
人工評估
前面所述的文本生成質量和准確率都是基於算法的自動評估,研究團隊還對單圖的圖注生成任務進行了人工評估,但只專注於計算機科學領域的論文。
與前面的基准測試結果相比,人工評估的結果並不理想,100個案例中只有16%被認為是「可接受的」,「上下文誤讀」的問題相對嚴重,也有壹定比例的「過度簡化」和「識別錯誤」。
參考資料
https://www.nature.com/articles/d41586-024-02599-9
[物價飛漲的時候 這樣省錢購物很爽]
| 分享: |
| 注: | 在此頁閱讀全文 |
推薦:
驚曝Nature論文被天價賣出 商家賺上億作者0收入