[哈佛] 哈佛重磅發現:AI診斷真實病例准確率超醫生
哈佛研究登上Science:在76名真實急診患者的雙盲對決中,OpenAI o1診斷准確率67%碾壓人類醫生的50%,治療方案得分89%對34%更是斷崖式領先——但AI還看不見患者的臉色和痛苦,真正的變革不是「AI贏了」,而是急診室正在走向「醫生×患者×AI」叁方共治的新范式。剛剛,壹顆重磅炸彈砸進了全球醫療圈。哈佛大學醫學院聯合貝斯以色列女執事醫療中心(Beth Israel Deaconess Medical Center),把壹項令人坐立不安的研究結果發在了《Science》上。

在急診室的真實分診場景中,OpenAI的o1推理模型診斷准確率達到67%,而兩位經驗豐富的內科主治醫生,壹個55%,壹個50%。
AI贏了。
不是在做題,不是在考試,而是在真刀真槍的急診室裡。

更扎心的數據還在後面——在制定治療管理方案的測試中,o1拿了89%,而人類醫生使用傳統資源輔助後,中位數只有34%。

差距不是壹星半點,是兩倍多。
這不是壹個AI公司的自賣自誇,這是哈佛醫學院牽頭、頂級學術期刊背書、雙盲評審確認的結果。
研究論文的通訊作者、哈佛醫學院AI實驗室負責人Arjun Manrai說了壹句意味深長的話:「我們用幾乎所有基准測試了這個AI模型,它超越了此前所有模型和醫生基線。」

壹個時代的裂縫,就這麼被撕開了。
76個真實患者,零預處理,雙盲對決
這項研究最硬核的地方在於:它不是拿精心整理的教科書病例去考AI,而是直接把急診室裡最原始、最混亂的電子病歷扔給了機器。
研究團隊從貝斯以色列急診科隨機選取了76名真實患者,在叁個關鍵診斷節點進行對比——急診分診(患者剛進門)、急診醫生首次接診、以及收治入院或進ICU。
每個節點,兩位內科主治醫生和OpenAI的o1、4o模型同時給出鑒別診斷,每方最多列5個可能診斷。
關鍵細節是:研究人員對數據零預處理。
論文明確寫道,AI模型接收到的信息和醫生看到的電子病歷完全壹致——那些凌亂的、缺失的、充滿噪聲的真實臨床數據。

然後,由另外兩名主治醫生進行「盲評」——他們不知道哪個診斷來自人類、哪個來自AI。
盲評結果顯示,評審醫生幾乎完全無法分辨診斷來源:壹位醫生猜對AI/人類的准確率僅15.2%(83.6%的時候選了「分不清」),另壹位更誇張,只有3.1%(94.4%「分不清」)。
換句話說,AI寫的診斷,連資深醫生都看不出是機器生成的。
在這樣的嚴苛條件下,o1模型在急診分診階段——信息最少、時間最緊、決策最關鍵的環節——給出了67.1%的准確率(包含精確診斷或非常接近的診斷)。
兩位人類醫生分別是55.3%和50.0%。

隨著信息逐漸增多,所有人的表現都在提升:到入院階段,o1准確率升至81.6%,醫生分別為78.9%和69.7%。
但差距始終存在,而且在信息最匱乏的初始階段差距最大。
這恰恰是最可怕的發現——急診最要命的就是「前幾分鍾」,患者剛被推進來,信息碎片化,生死攸關,醫生需要在極度不確定中做出判斷。
而恰恰在這個環節,AI表現最突出。
急診醫生不幹了:拿內科醫生跟AI比,能說明什麼?
論文發布後,壹位名叫Kristen Panthagani的急診科醫生在社交媒體上直接開懟:這是壹個「被過度炒作的有趣研究」。
她的核心質疑是:研究中和AI對比的是內科主治醫生,不是急診科醫生。
「如果我們要拿AI和醫生的臨床能力做比較,至少應該拿同壹個專科的醫生來比。我不會驚訝於壹個大語言模型能在神經外科的專科考試中打敗皮膚科醫生,但這並不能說明什麼。」

她還指出了急診醫學的本質邏輯:「作為壹名第壹次看到患者的急診醫生,我的首要目標不是猜出最終診斷。我的首要目標是判斷你是否有壹種可能會殺死你的疾病。」
這個反駁有力量嗎?
有。但也需要注意,研究論文本身已經承認了這壹局限性,而且論文的核心論點從來不是「AI可以替代急診醫生」,而是「AI在有限信息下的推理能力已經達到值得臨床試驗的水平」。
急診醫生在現場做的遠不止「猜病名」——他們要看患者的面色、聽呼吸的聲音、感受疼痛的程度、判斷生命體征的微妙變化。
這些細微的非語言信號,有時候比任何檢驗指標都重要。
壹個經驗豐富的急診醫生走進病房,掃壹眼患者,可能就已經做出了80%的判斷——這種能力叫「臨床直覺」(clinical gestalt),它來自數以萬計的真實接診經驗,目前沒有任何AI能夠復制。
Manrai自己也承認,團隊正在研究AI處理影像和其他非文本信號的能力,「看到了快速進步的結果」,但距離臨床部署還有很長的路。
辛頓的「預言」教訓:放射科醫生沒下崗,反而更忙了
說到AI取代醫生這個話題,不得不提壹個經典的「打臉」案例。
2016年,AI教父、諾貝爾獎得主Geoffrey Hinton說了壹句震動醫學界的話:人們現在就應該停止培訓放射科醫生了。深度學習在伍年內就會比放射科醫生做得更好,這完全是顯而易見的。

這句話當時嚇退了不少准備選擇放射科的醫學生。整個2010年代後期,媒體上鋪天蓋地都是「放射科即將消亡」的文章。
拾年過去了。
梅奧診所的放射科醫生團隊從2016年至今增長了55%,達到400人。美國放射學會預測,未來30年放射科醫生供給還將增長26%。
全球最大的放射科醫生短缺正在發生——不是因為AI搶走了工作,而是因為AI讓影像檢查變得更便捷,反而催生了更多需求。
Hinton本人後來也承認自己「說得太寬泛了」。
他修正了預測:未來的醫學影像解讀將由「AI和放射科醫生的組合」來完成,AI會讓放射科醫生「效率大大提高,同時提升准確率」。
這個故事裡有壹個深刻的經濟學原理——傑文斯悖論:當壹項技術讓某種資源的使用更高效時,這種資源的總需求反而可能大幅增加。
影像診斷變便宜、變快了,於是醫生開了更多檢查,放射科醫生反而更忙了。
哈佛這項新研究的作者們顯然吸取了辛頓的教訓。
論文通訊作者Manrai在新聞發布會上明確說:「我們的發現並不意味著AI取代醫生,盡管有些賣AI醫療產品的公司可能會這麼說。」
共同通訊作者、貝斯以色列AI項目負責人Adam Rodman則更直白:「目前AI診斷沒有任何正式的問責框架。患者想要的是人來引導他們度過生死攸關的決策,引導他們面對艱難的治療選擇。」
不是「AI贏了」而是醫療決策權在重組
據美國醫學會(AMA)2026年調查,超過80%的美國醫生已經在職業中使用AI——是2023年的兩倍。
17%的醫生使用AI進行「輔助診斷」。
2025年的壹項Elsevier研究發現,20%的臨床醫生已經在向大語言模型尋求「第贰意見」。
哈佛這項研究證明,AI在信息最匱乏、決策最緊迫的急診場景中,推理能力已經超過了人類醫生。
叁個數據疊加在壹起,指向壹個清晰的趨勢:醫療決策的權力結構正在發生根本性的重組。
過去的急診室模式是:患者進來→醫生判斷→做出決策。
未來的模式可能變成:患者進來→AI快速掃描電子病歷給出初步判斷→醫生結合臨床觀察和AI建議做出決策→患者參與討論治療方案。
研究作者Rodman預測,未來會出現叁種分化:壹部分任務人類持續做得更好,壹部分任務AI持續做得更好,還有壹部分任務需要人機協作增強。
這就是研究者所說的「醫生-患者-AI」叁方協作模式。
聽起來很像自動駕駛。
L2級別——AI輔助人類決策;L3級別——AI主導、人類監督;L4級別——特定場景全自動。
目前AI在醫療領域大概處在L2到L3之間的階段:它已經能在「文字世界」裡給出超越人類的判斷,但在真實的、多模態的臨床場景中,它還需要人類的眼睛、耳朵和直覺來補位。
AI誤診了,誰負責?
在所有討論中,有壹個房間裡的大象無人敢正面觸碰:AI出錯了,誰來承擔責任?
Rodman在接受《衛報》采訪時坦言:目前AI診斷沒有任何正式的問責框架。
如果壹名醫生誤診了,有成熟的醫療糾紛處理體系——患者可以投訴、可以訴訟、醫生面臨執照風險。
但如果AI給出了錯誤建議,醫生采納了,患者受到了傷害——是算醫生的責任?AI公司的責任?醫院的責任?還是叁方共擔?
更復雜的場景是:如果AI給出了正確建議,但醫生否決了AI的判斷、堅持自己的錯誤診斷,導致患者延誤治療——此時醫生要不要為「忽視A建議」承擔額外責任?
還有壹個更隱蔽的風險:過度依賴。
當醫生習慣了AI給出的高准確率判斷,他們的獨立思考能力會不會退化?就像GPS讓很多人喪失了自主導航能力壹樣,AI輔助診斷是否會讓醫生的臨床推理「肌肉」逐漸萎縮?
這些問題,目前沒有任何國家有清晰的答案。
參考資料:
https://www.science.org/doi/10.1126/science.adz4433
https://www.harvardmagazine.com/ai/ai-outperforms-doctors-diagnosis-harvard-study
[物價飛漲的時候 這樣省錢購物很爽]
還沒人說話啊,我想來說幾句

在急診室的真實分診場景中,OpenAI的o1推理模型診斷准確率達到67%,而兩位經驗豐富的內科主治醫生,壹個55%,壹個50%。
AI贏了。
不是在做題,不是在考試,而是在真刀真槍的急診室裡。

更扎心的數據還在後面——在制定治療管理方案的測試中,o1拿了89%,而人類醫生使用傳統資源輔助後,中位數只有34%。

差距不是壹星半點,是兩倍多。
這不是壹個AI公司的自賣自誇,這是哈佛醫學院牽頭、頂級學術期刊背書、雙盲評審確認的結果。
研究論文的通訊作者、哈佛醫學院AI實驗室負責人Arjun Manrai說了壹句意味深長的話:「我們用幾乎所有基准測試了這個AI模型,它超越了此前所有模型和醫生基線。」

壹個時代的裂縫,就這麼被撕開了。
76個真實患者,零預處理,雙盲對決
這項研究最硬核的地方在於:它不是拿精心整理的教科書病例去考AI,而是直接把急診室裡最原始、最混亂的電子病歷扔給了機器。
研究團隊從貝斯以色列急診科隨機選取了76名真實患者,在叁個關鍵診斷節點進行對比——急診分診(患者剛進門)、急診醫生首次接診、以及收治入院或進ICU。
每個節點,兩位內科主治醫生和OpenAI的o1、4o模型同時給出鑒別診斷,每方最多列5個可能診斷。
關鍵細節是:研究人員對數據零預處理。
論文明確寫道,AI模型接收到的信息和醫生看到的電子病歷完全壹致——那些凌亂的、缺失的、充滿噪聲的真實臨床數據。
然後,由另外兩名主治醫生進行「盲評」——他們不知道哪個診斷來自人類、哪個來自AI。
盲評結果顯示,評審醫生幾乎完全無法分辨診斷來源:壹位醫生猜對AI/人類的准確率僅15.2%(83.6%的時候選了「分不清」),另壹位更誇張,只有3.1%(94.4%「分不清」)。
換句話說,AI寫的診斷,連資深醫生都看不出是機器生成的。
在這樣的嚴苛條件下,o1模型在急診分診階段——信息最少、時間最緊、決策最關鍵的環節——給出了67.1%的准確率(包含精確診斷或非常接近的診斷)。
兩位人類醫生分別是55.3%和50.0%。
隨著信息逐漸增多,所有人的表現都在提升:到入院階段,o1准確率升至81.6%,醫生分別為78.9%和69.7%。
但差距始終存在,而且在信息最匱乏的初始階段差距最大。
這恰恰是最可怕的發現——急診最要命的就是「前幾分鍾」,患者剛被推進來,信息碎片化,生死攸關,醫生需要在極度不確定中做出判斷。
而恰恰在這個環節,AI表現最突出。
急診醫生不幹了:拿內科醫生跟AI比,能說明什麼?
論文發布後,壹位名叫Kristen Panthagani的急診科醫生在社交媒體上直接開懟:這是壹個「被過度炒作的有趣研究」。
她的核心質疑是:研究中和AI對比的是內科主治醫生,不是急診科醫生。
「如果我們要拿AI和醫生的臨床能力做比較,至少應該拿同壹個專科的醫生來比。我不會驚訝於壹個大語言模型能在神經外科的專科考試中打敗皮膚科醫生,但這並不能說明什麼。」
她還指出了急診醫學的本質邏輯:「作為壹名第壹次看到患者的急診醫生,我的首要目標不是猜出最終診斷。我的首要目標是判斷你是否有壹種可能會殺死你的疾病。」
這個反駁有力量嗎?
有。但也需要注意,研究論文本身已經承認了這壹局限性,而且論文的核心論點從來不是「AI可以替代急診醫生」,而是「AI在有限信息下的推理能力已經達到值得臨床試驗的水平」。
急診醫生在現場做的遠不止「猜病名」——他們要看患者的面色、聽呼吸的聲音、感受疼痛的程度、判斷生命體征的微妙變化。
這些細微的非語言信號,有時候比任何檢驗指標都重要。
壹個經驗豐富的急診醫生走進病房,掃壹眼患者,可能就已經做出了80%的判斷——這種能力叫「臨床直覺」(clinical gestalt),它來自數以萬計的真實接診經驗,目前沒有任何AI能夠復制。
Manrai自己也承認,團隊正在研究AI處理影像和其他非文本信號的能力,「看到了快速進步的結果」,但距離臨床部署還有很長的路。
辛頓的「預言」教訓:放射科醫生沒下崗,反而更忙了
說到AI取代醫生這個話題,不得不提壹個經典的「打臉」案例。
2016年,AI教父、諾貝爾獎得主Geoffrey Hinton說了壹句震動醫學界的話:人們現在就應該停止培訓放射科醫生了。深度學習在伍年內就會比放射科醫生做得更好,這完全是顯而易見的。
這句話當時嚇退了不少准備選擇放射科的醫學生。整個2010年代後期,媒體上鋪天蓋地都是「放射科即將消亡」的文章。
拾年過去了。
梅奧診所的放射科醫生團隊從2016年至今增長了55%,達到400人。美國放射學會預測,未來30年放射科醫生供給還將增長26%。
全球最大的放射科醫生短缺正在發生——不是因為AI搶走了工作,而是因為AI讓影像檢查變得更便捷,反而催生了更多需求。
Hinton本人後來也承認自己「說得太寬泛了」。
他修正了預測:未來的醫學影像解讀將由「AI和放射科醫生的組合」來完成,AI會讓放射科醫生「效率大大提高,同時提升准確率」。
這個故事裡有壹個深刻的經濟學原理——傑文斯悖論:當壹項技術讓某種資源的使用更高效時,這種資源的總需求反而可能大幅增加。
影像診斷變便宜、變快了,於是醫生開了更多檢查,放射科醫生反而更忙了。
哈佛這項新研究的作者們顯然吸取了辛頓的教訓。
論文通訊作者Manrai在新聞發布會上明確說:「我們的發現並不意味著AI取代醫生,盡管有些賣AI醫療產品的公司可能會這麼說。」
共同通訊作者、貝斯以色列AI項目負責人Adam Rodman則更直白:「目前AI診斷沒有任何正式的問責框架。患者想要的是人來引導他們度過生死攸關的決策,引導他們面對艱難的治療選擇。」
不是「AI贏了」而是醫療決策權在重組
據美國醫學會(AMA)2026年調查,超過80%的美國醫生已經在職業中使用AI——是2023年的兩倍。
17%的醫生使用AI進行「輔助診斷」。
2025年的壹項Elsevier研究發現,20%的臨床醫生已經在向大語言模型尋求「第贰意見」。
哈佛這項研究證明,AI在信息最匱乏、決策最緊迫的急診場景中,推理能力已經超過了人類醫生。
叁個數據疊加在壹起,指向壹個清晰的趨勢:醫療決策的權力結構正在發生根本性的重組。
過去的急診室模式是:患者進來→醫生判斷→做出決策。
未來的模式可能變成:患者進來→AI快速掃描電子病歷給出初步判斷→醫生結合臨床觀察和AI建議做出決策→患者參與討論治療方案。
研究作者Rodman預測,未來會出現叁種分化:壹部分任務人類持續做得更好,壹部分任務AI持續做得更好,還有壹部分任務需要人機協作增強。
這就是研究者所說的「醫生-患者-AI」叁方協作模式。
聽起來很像自動駕駛。
L2級別——AI輔助人類決策;L3級別——AI主導、人類監督;L4級別——特定場景全自動。
目前AI在醫療領域大概處在L2到L3之間的階段:它已經能在「文字世界」裡給出超越人類的判斷,但在真實的、多模態的臨床場景中,它還需要人類的眼睛、耳朵和直覺來補位。
AI誤診了,誰負責?
在所有討論中,有壹個房間裡的大象無人敢正面觸碰:AI出錯了,誰來承擔責任?
Rodman在接受《衛報》采訪時坦言:目前AI診斷沒有任何正式的問責框架。
如果壹名醫生誤診了,有成熟的醫療糾紛處理體系——患者可以投訴、可以訴訟、醫生面臨執照風險。
但如果AI給出了錯誤建議,醫生采納了,患者受到了傷害——是算醫生的責任?AI公司的責任?醫院的責任?還是叁方共擔?
更復雜的場景是:如果AI給出了正確建議,但醫生否決了AI的判斷、堅持自己的錯誤診斷,導致患者延誤治療——此時醫生要不要為「忽視A建議」承擔額外責任?
還有壹個更隱蔽的風險:過度依賴。
當醫生習慣了AI給出的高准確率判斷,他們的獨立思考能力會不會退化?就像GPS讓很多人喪失了自主導航能力壹樣,AI輔助診斷是否會讓醫生的臨床推理「肌肉」逐漸萎縮?
這些問題,目前沒有任何國家有清晰的答案。
參考資料:
https://www.science.org/doi/10.1126/science.adz4433
https://www.harvardmagazine.com/ai/ai-outperforms-doctors-diagnosis-harvard-study
[物價飛漲的時候 這樣省錢購物很爽]
| 分享: |
| 注: |
| 延伸閱讀 | 更多... |
推薦:



