幾小時生成壹篇頂刊論文?AI論文流水線真要來了
在傳統的學術評價體系中,壹篇能夠發表在頂級期刊上的實證論文,代表著研究者長達數年的高強度投入。從打磨原始構思、清洗海量噪聲數據,到構建復雜的計量模型,最後還有和審稿人之間漫長的反復拉扯。
然而,2026年2月,蘇黎世大學經濟學教授 David Yanagizawa-Drott 發布了壹個視頻,在視頻裡他花了不到6個小時,壹下午的時間就用AI寫出了壹篇“頂刊論文”。
Yanagizawa-Drott 曾長期擔任《經濟學季刊》(QJE)的副主編,目前仍是《政治經濟學雜志》(JPE)的編委。這次他利用 Claude Code,在不到 6 小時的交互過程中,生成了壹篇結構完整、長達 53 頁的宏觀經濟學論文。
在他公開的記錄中,AI 的介入已不再局限於文字潤色,而是幾乎完全自動化。從最初的構思,到自主編寫代碼進行模擬運算,再到最終完成 LaTeX 排版,整個流程都由AI完成。而且這完全不是編造或者模擬,而是利用真實數據,具體來說是2000 年 1 月至 2024 年 6 月美國50個州的面板數據做出的研究。
這篇論文只是APE Project(自主政策評估項目)的成果展示之壹[1]。由Yanagizawa-Drott參與發起的這壹項目,已經自動生產了數百篇論文。該項目的野心是建立壹套全自動的研究流水線,讓 AI 獨立完成從選題、數據抓取到因果推斷的全過程。為了挑戰傳統范式,APE 項目甚至設計了壹場競賽,將 AI 的初稿與《美國經濟評論》(AER)等頂刊即將發表的人類作品進行自動化評分對比。
這次頗具沖擊力的展示,很快在經濟學界激起了好奇與跟進。《知識分子》為此聯系了叁位學者,中國農業大學經濟管理學院教授朱晨、中央財經大學財經研究院數字財經研究中心執行主任陳波,以及壹位長期關注中國宏觀經濟政策和微觀基礎領域的研究者。他們都在最近進行了使用AI智能體生成論文,並分享了各自的操作過程與經驗。
為了探尋這套自動化邏輯的邊界,叁位學者分別搭建了各自的科研智能體系統。盡管都完成了從數據處理到論文初稿生成的流程,但在如何引導 AI,以及 AI 將如何影響科研的問題上,他們的看法並不壹致。
01
AI生成論文,到底什麼水平?
Yanagizawa-Drott 用 AI 生成的論文往往非常工整,初看之下,很難將其與人類資深學者的作品壹眼區分開來。也正是這種“看起來像那麼回事”的特征,在傳播過程中不斷被放大。在自媒體和社交平台的多次傳播中,APE 項目已經演變成了“AI幾小時就能生成頂刊論文”的學術神話。
這種形似是否等同於真實的學術高度?AI完成的論文到底是什麼水平?
朱晨認為,Yanagizawa-Drott的APE項目產出的論文,在論文結構和寫作規范上已經相當成熟,“從形式上來說是過關的”,能夠生成壹篇符合經濟學論文基本要求的文本。
但她通過對自身實踐的總結指出,如果直接將其等同於頂刊水平,依然過於誇張。更接近現實的定位,是達到研究生論文的標准,甚至壹些影響因子在3到4分左右的開放獲取期刊,也可以嘗試去投稿。
關注中國宏觀經濟政策和微觀基礎領域的那位研究者,評價標准是最嚴格的,並且對“幾小時生成頂刊論文”的說法表示非常反感。
這位學者也關注了APE項目,甚至瀏覽了幾乎全部200篇論文的內容。但在他看來,在已經公開的兩百多篇論文中,只有極少數選題具備繼續推進的價值。這些流水線作品的含金量極低,在那 200 多篇論文裡,只有壹篇關於勞動經濟學的選題思路非常好,其余大多“只是剛入門的研究生水平”。
甚至,他認為這些 AI 產出的邏輯和深度,還不如他手下那些相對成熟的高年級本科生或研究生。若以審稿人的標准衡量,這些文章很難通過基本篩選,“如果送到我手裡,我會直接拒掉”。病灶不在寫作,而在分析實在太過於淺顯,方法部分更是殘缺不全。
壹篇成熟的經濟學頂刊實證論文,對方法的要求壹定是非常嚴格的。例如使用雙重差分(DID)方法的論文,不僅要完成基准回歸,還需要進行平行趨勢檢驗(parallel trends)、平行趨勢的敏感性檢驗(sensitivity analysis),以及異質性處理效應(heterogeneous treatment effects)的分析。
這些步驟,尤其是後兩者,已經成為近年來使用DID方法研究中的常規要求。但在目前公開的AI生成論文中,這些關鍵步驟往往缺失,或者只是形式性地出現,無法支撐有效的因果推斷。
[加西網正招聘多名全職sales 待遇優]
這條新聞還沒有人評論喔,等著您的高見呢
然而,2026年2月,蘇黎世大學經濟學教授 David Yanagizawa-Drott 發布了壹個視頻,在視頻裡他花了不到6個小時,壹下午的時間就用AI寫出了壹篇“頂刊論文”。
Yanagizawa-Drott 曾長期擔任《經濟學季刊》(QJE)的副主編,目前仍是《政治經濟學雜志》(JPE)的編委。這次他利用 Claude Code,在不到 6 小時的交互過程中,生成了壹篇結構完整、長達 53 頁的宏觀經濟學論文。
在他公開的記錄中,AI 的介入已不再局限於文字潤色,而是幾乎完全自動化。從最初的構思,到自主編寫代碼進行模擬運算,再到最終完成 LaTeX 排版,整個流程都由AI完成。而且這完全不是編造或者模擬,而是利用真實數據,具體來說是2000 年 1 月至 2024 年 6 月美國50個州的面板數據做出的研究。
這篇論文只是APE Project(自主政策評估項目)的成果展示之壹[1]。由Yanagizawa-Drott參與發起的這壹項目,已經自動生產了數百篇論文。該項目的野心是建立壹套全自動的研究流水線,讓 AI 獨立完成從選題、數據抓取到因果推斷的全過程。為了挑戰傳統范式,APE 項目甚至設計了壹場競賽,將 AI 的初稿與《美國經濟評論》(AER)等頂刊即將發表的人類作品進行自動化評分對比。
這次頗具沖擊力的展示,很快在經濟學界激起了好奇與跟進。《知識分子》為此聯系了叁位學者,中國農業大學經濟管理學院教授朱晨、中央財經大學財經研究院數字財經研究中心執行主任陳波,以及壹位長期關注中國宏觀經濟政策和微觀基礎領域的研究者。他們都在最近進行了使用AI智能體生成論文,並分享了各自的操作過程與經驗。
為了探尋這套自動化邏輯的邊界,叁位學者分別搭建了各自的科研智能體系統。盡管都完成了從數據處理到論文初稿生成的流程,但在如何引導 AI,以及 AI 將如何影響科研的問題上,他們的看法並不壹致。
01
AI生成論文,到底什麼水平?
Yanagizawa-Drott 用 AI 生成的論文往往非常工整,初看之下,很難將其與人類資深學者的作品壹眼區分開來。也正是這種“看起來像那麼回事”的特征,在傳播過程中不斷被放大。在自媒體和社交平台的多次傳播中,APE 項目已經演變成了“AI幾小時就能生成頂刊論文”的學術神話。
這種形似是否等同於真實的學術高度?AI完成的論文到底是什麼水平?
朱晨認為,Yanagizawa-Drott的APE項目產出的論文,在論文結構和寫作規范上已經相當成熟,“從形式上來說是過關的”,能夠生成壹篇符合經濟學論文基本要求的文本。
但她通過對自身實踐的總結指出,如果直接將其等同於頂刊水平,依然過於誇張。更接近現實的定位,是達到研究生論文的標准,甚至壹些影響因子在3到4分左右的開放獲取期刊,也可以嘗試去投稿。
關注中國宏觀經濟政策和微觀基礎領域的那位研究者,評價標准是最嚴格的,並且對“幾小時生成頂刊論文”的說法表示非常反感。
這位學者也關注了APE項目,甚至瀏覽了幾乎全部200篇論文的內容。但在他看來,在已經公開的兩百多篇論文中,只有極少數選題具備繼續推進的價值。這些流水線作品的含金量極低,在那 200 多篇論文裡,只有壹篇關於勞動經濟學的選題思路非常好,其余大多“只是剛入門的研究生水平”。
甚至,他認為這些 AI 產出的邏輯和深度,還不如他手下那些相對成熟的高年級本科生或研究生。若以審稿人的標准衡量,這些文章很難通過基本篩選,“如果送到我手裡,我會直接拒掉”。病灶不在寫作,而在分析實在太過於淺顯,方法部分更是殘缺不全。
壹篇成熟的經濟學頂刊實證論文,對方法的要求壹定是非常嚴格的。例如使用雙重差分(DID)方法的論文,不僅要完成基准回歸,還需要進行平行趨勢檢驗(parallel trends)、平行趨勢的敏感性檢驗(sensitivity analysis),以及異質性處理效應(heterogeneous treatment effects)的分析。
這些步驟,尤其是後兩者,已經成為近年來使用DID方法研究中的常規要求。但在目前公開的AI生成論文中,這些關鍵步驟往往缺失,或者只是形式性地出現,無法支撐有效的因果推斷。
[加西網正招聘多名全職sales 待遇優]
| 分享: |
| 注: | 在此頁閱讀全文 |
| 延伸閱讀 |
推薦:



