驚曝Nature論文被天價賣出商家賺上億作者0收入

2024-08-15 | 來源: 新智元 | 有0人參與評論 | 字體: 放大縮小 | 收藏 | 打印

多模態數據不夠，arXiv來湊

事實上，龐大的arXiv論文庫中，可以利用的不止文本數據。

ACL 2024接收了壹篇來自北大和港大學者的論文，他們嘗試利用這些論文中的圖文構建高質量多模態數據集，取得了非常不錯的效果。

項目主頁：https://mm-arxiv.github.io/

前段時間，紐約大學謝賽寧教授和Yann LeCun等人發布的Cambrian模型也用到了這個數據集。

之所以要用arXiv論文中的圖片，主要還是由於科學領域訓練數據集的稀缺。

GPT-4V等視覺語言模型雖然在自然場景的圖像中有出色的表現，但在解釋抽象圖片方面，比如幾何形狀和科學圖表，依舊能力有限，也無法理解學術圖片中細微的語義差別。

這篇論文構建的多模態arXiv數據集總共用到了各個STEM領域的57.2萬篇論文，超過arXiv論文總數（2.5M）的伍分之壹，包含兩部分：問答數據集ArXivQA和圖片標注數據集ArXivCap。

依托arXiv大量且多樣的論文收錄，與之前的科學圖片數據集相比，ArXivCap的數據量是第贰名SciCap的3倍，ArXivQA也是唯壹涵蓋廣泛領域內真實論文的問答數據集。

通過使用這些領域特定數據進行訓練，VLM的的數學推理能力有了顯著增強，在多模態數學推理基准上實現了10.4%的准確率提升。

比如，在ArXivQA上訓練過的Qwen 7B模型能夠正確理解條形圖並回答相關問題（左圖），數學能力也有所提高（右圖）。不僅答案正確，給出的推理過程也更加完整充分。

數據集構建

數據集的構建流水線如下圖所示。由於arXiv是預印本平台，所以需要先通過發表記錄篩選出被期刊或會議接收的論文，以保證數據質量。

提取論文中的圖片-文字對並進行基於規則的清理後，組成ArXivCap；ArXivQA則由GPT-4V生成，但使用了精心設計過的prompt模板。

ArXivCap中的壹個單圖標注對：

2019年論文「Semigroup models for biochemical reaction networks」

ArXivCap數據集中的壹個多圖標注對：

2018年論文「Low-Power Wide-Area Networks for Sustainable IoT」

ArXivQA數據集示例：

2020年論文「Skyrmion ratchet propagation: Utilizing the skyrmion Hall effect in AC racetrack storage devices」

評估

根據在MathVista數據集上的結果，ArXivCap和ArXivQA共同提升了Qwen-VL-Chat的整體性能，超越了Bard的表現。

最佳結果以粗體顯示，次佳結果以下劃線標記

在為單張圖片生成圖注的任務中，提升效果更加顯著，經過ArXivCap訓練的Qwen 7B模型可以匹配甚至超過GPT-4V。

灰色結果由數據集中500個樣本的測試得到

論文提出了叁個新定義任務：多圖的圖注生成、上下文中的圖注生成以及標題生成。經過ArXivCap訓練的Qwen 8B的所有分數都超過了GPT-4V，且多數情況下是最佳結果。

最佳結果以粗體顯示

按照研究領域劃分，ArXivQA數據集上的訓練在天體物理、凝聚態物理、數學、計算機科學這些領域都能帶來相當顯著的提升，超過60%，准確率變化比例超過60%。

人工評估

前面所述的文本生成質量和准確率都是基於算法的自動評估，研究團隊還對單圖的圖注生成任務進行了人工評估，但只專注於計算機科學領域的論文。

與前面的基准測試結果相比，人工評估的結果並不理想，100個案例中只有16%被認為是「可接受的」，「上下文誤讀」的問題相對嚴重，也有壹定比例的「過度簡化」和「識別錯誤」。

參考資料

https://www.nature.com/articles/d41586-024-02599-9

[物價飛漲的時候這樣省錢購物很爽] 還沒人說話啊，我想來說幾句

分享:

上壹頁 1 23下壹頁

注：

新聞來源於其它媒體，內容不代表本站立場！

在此頁閱讀全文

意見

當前評論目前還沒有任何評論，歡迎您發表您的看法。

發表評論

專家專欄

工具

當前會員