驚曝Nature論文被天價賣出 商家賺上億作者0收入

多模態數據不夠,arXiv來湊


事實上,龐大的arXiv論文庫中,可以利用的不止文本數據。

ACL 2024接收了壹篇來自北大和港大學者的論文,他們嘗試利用這些論文中的圖文構建高質量多模態數據集,取得了非常不錯的效果。

項目主頁:https://mm-arxiv.github.io/

前段時間,紐約大學謝賽寧教授和Yann LeCun等人發布的Cambrian模型也用到了這個數據集。

之所以要用arXiv論文中的圖片,主要還是由於科學領域訓練數據集的稀缺。

GPT-4V等視覺語言模型雖然在自然場景的圖像中有出色的表現,但在解釋抽象圖片方面,比如幾何形狀和科學圖表,依舊能力有限,也無法理解學術圖片中細微的語義差別。

這篇論文構建的多模態arXiv數據集總共用到了各個STEM領域的57.2萬篇論文,超過arXiv論文總數(2.5M)的伍分之壹,包含兩部分:問答數據集ArXivQA和圖片標注數據集ArXivCap。

依托arXiv大量且多樣的論文收錄,與之前的科學圖片數據集相比,ArXivCap的數據量是第贰名SciCap的3倍,ArXivQA也是唯壹涵蓋廣泛領域內真實論文的問答數據集。

通過使用這些領域特定數據進行訓練,VLM的的數學推理能力有了顯著增強,在多模態數學推理基准上實現了10.4%的准確率提升。

比如,在ArXivQA上訓練過的Qwen 7B模型能夠正確理解條形圖並回答相關問題(左圖),數學能力也有所提高(右圖)。不僅答案正確,給出的推理過程也更加完整充分。

數據集構建

數據集的構建流水線如下圖所示。由於arXiv是預印本平台,所以需要先通過發表記錄篩選出被期刊或會議接收的論文,以保證數據質量。

提取論文中的圖片-文字對並進行基於規則的清理後,組成ArXivCap;ArXivQA則由GPT-4V生成,但使用了精心設計過的prompt模板。

ArXivCap中的壹個單圖標注對:

2019年論文「Semigroup models for biochemical reaction networks」

ArXivCap數據集中的壹個多圖標注對:

2018年論文「Low-Power Wide-Area Networks for Sustainable IoT」

ArXivQA數據集示例:

2020年論文「Skyrmion ratchet propagation: Utilizing the skyrmion Hall effect in AC racetrack storage devices」

評估

根據在MathVista數據集上的結果,ArXivCap和ArXivQA共同提升了Qwen-VL-Chat的整體性能,超越了Bard的表現。


最佳結果以粗體顯示,次佳結果以下劃線標記

在為單張圖片生成圖注的任務中,提升效果更加顯著,經過ArXivCap訓練的Qwen 7B模型可以匹配甚至超過GPT-4V。

灰色結果由數據集中500個樣本的測試得到

論文提出了叁個新定義任務:多圖的圖注生成、上下文中的圖注生成以及標題生成。經過ArXivCap訓練的Qwen 8B的所有分數都超過了GPT-4V,且多數情況下是最佳結果。

最佳結果以粗體顯示

按照研究領域劃分,ArXivQA數據集上的訓練在天體物理、凝聚態物理、數學、計算機科學這些領域都能帶來相當顯著的提升,超過60%,准確率變化比例超過60%。

人工評估

前面所述的文本生成質量和准確率都是基於算法的自動評估,研究團隊還對單圖的圖注生成任務進行了人工評估,但只專注於計算機科學領域的論文。

與前面的基准測試結果相比,人工評估的結果並不理想,100個案例中只有16%被認為是「可接受的」,「上下文誤讀」的問題相對嚴重,也有壹定比例的「過度簡化」和「識別錯誤」。

參考資料

https://www.nature.com/articles/d41586-024-02599-9

[物價飛漲的時候 這樣省錢購物很爽]
還沒人說話啊,我想來說幾句
上壹頁123下壹頁
注:
  • 新聞來源於其它媒體,內容不代表本站立場!
  • 在此頁閱讀全文
     推薦:

    意見

    當前評論目前還沒有任何評論,歡迎您發表您的看法。
    發表評論
    您的評論 *: 
    安全校驗碼 *:  請在此處輸入圖片中的數字
    The Captcha image  (請在此處輸入圖片中的數字)



    Copyright © 溫哥華網, all rights are reserved.

    溫哥華網為北美中文網傳媒集團旗下網站