[哈佛] 哈佛重磅发现:AI诊断真实病例准确率超医生
一个时代的裂缝,就这么被撕开了。
76个真实患者,零预处理,双盲对决
这项研究最硬核的地方在于:它不是拿精心整理的教科书病例去考AI,而是直接把急诊室里最原始、最混乱的电子病历扔给了机器。
研究团队从贝斯以色列急诊科随机选取了76名真实患者,在三个关键诊断节点进行对比——急诊分诊(患者刚进门)、急诊医生首次接诊、以及收治入院或进ICU。
每个节点,两位内科主治医生和OpenAI的o1、4o模型同时给出鉴别诊断,每方最多列5个可能诊断。
关键细节是:研究人员对数据零预处理。
论文明确写道,AI模型接收到的信息和医生看到的电子病历完全一致——那些凌乱的、缺失的、充满噪声的真实临床数据。

然后,由另外两名主治医生进行「盲评」——他们不知道哪个诊断来自人类、哪个来自AI。
盲评结果显示,评审医生几乎完全无法分辨诊断来源:一位医生猜对AI/人类的准确率仅15.2%(83.6%的时候选了「分不清」),另一位更夸张,只有3.1%(94.4%「分不清」)。
换句话说,AI写的诊断,连资深医生都看不出是机器生成的。
在这样的严苛条件下,o1模型在急诊分诊阶段——信息最少、时间最紧、决策最关键的环节——给出了67.1%的准确率(包含精确诊断或非常接近的诊断)。
两位人类医生分别是55.3%和50.0%。

随着信息逐渐增多,所有人的表现都在提升:到入院阶段,o1准确率升至81.6%,医生分别为78.9%和69.7%。
但差距始终存在,而且在信息最匮乏的初始阶段差距最大。
这恰恰是最可怕的发现——急诊最要命的就是「前几分钟」,患者刚被推进来,信息碎片化,生死攸关,医生需要在极度不确定中做出判断。
而恰恰在这个环节,AI表现最突出。
急诊医生不干了:拿内科医生跟AI比,能说明什么?
论文发布后,一位名叫Kristen Panthagani的急诊科医生在社交媒体上直接开怼:这是一个「被过度炒作的有趣研究」。
她的核心质疑是:研究中和AI对比的是内科主治医生,不是急诊科医生。
「如果我们要拿AI和医生的临床能力做比较,至少应该拿同一个专科的医生来比。我不会惊讶于一个大语言模型能在神经外科的专科考试中打败皮肤科医生,但这并不能说明什么。」
[物价飞涨的时候 这样省钱购物很爽]
无评论不新闻,发表一下您的意见吧
76个真实患者,零预处理,双盲对决
这项研究最硬核的地方在于:它不是拿精心整理的教科书病例去考AI,而是直接把急诊室里最原始、最混乱的电子病历扔给了机器。
研究团队从贝斯以色列急诊科随机选取了76名真实患者,在三个关键诊断节点进行对比——急诊分诊(患者刚进门)、急诊医生首次接诊、以及收治入院或进ICU。
每个节点,两位内科主治医生和OpenAI的o1、4o模型同时给出鉴别诊断,每方最多列5个可能诊断。
关键细节是:研究人员对数据零预处理。
论文明确写道,AI模型接收到的信息和医生看到的电子病历完全一致——那些凌乱的、缺失的、充满噪声的真实临床数据。
然后,由另外两名主治医生进行「盲评」——他们不知道哪个诊断来自人类、哪个来自AI。
盲评结果显示,评审医生几乎完全无法分辨诊断来源:一位医生猜对AI/人类的准确率仅15.2%(83.6%的时候选了「分不清」),另一位更夸张,只有3.1%(94.4%「分不清」)。
换句话说,AI写的诊断,连资深医生都看不出是机器生成的。
在这样的严苛条件下,o1模型在急诊分诊阶段——信息最少、时间最紧、决策最关键的环节——给出了67.1%的准确率(包含精确诊断或非常接近的诊断)。
两位人类医生分别是55.3%和50.0%。
随着信息逐渐增多,所有人的表现都在提升:到入院阶段,o1准确率升至81.6%,医生分别为78.9%和69.7%。
但差距始终存在,而且在信息最匮乏的初始阶段差距最大。
这恰恰是最可怕的发现——急诊最要命的就是「前几分钟」,患者刚被推进来,信息碎片化,生死攸关,医生需要在极度不确定中做出判断。
而恰恰在这个环节,AI表现最突出。
急诊医生不干了:拿内科医生跟AI比,能说明什么?
论文发布后,一位名叫Kristen Panthagani的急诊科医生在社交媒体上直接开怼:这是一个「被过度炒作的有趣研究」。
她的核心质疑是:研究中和AI对比的是内科主治医生,不是急诊科医生。
「如果我们要拿AI和医生的临床能力做比较,至少应该拿同一个专科的医生来比。我不会惊讶于一个大语言模型能在神经外科的专科考试中打败皮肤科医生,但这并不能说明什么。」
[物价飞涨的时候 这样省钱购物很爽]
| 分享: |
| 注: | 在此页阅读全文 |
| 延伸阅读 | 更多... |
推荐: