BBC调查:AI问病情靠谱吗?人类+AI反而更危险?

2026-04-20 | 来源: BBC | 有0人参与评论 | 字体: 放大缩小 | 收藏 | 打印

研究人员正开始拆解聊天机器人的优势与弱点。

牛津大学“机器推理实验室”邀请一组医师设计多种详尽且贴近现实的情境，涵盖从可在家自行处理的轻微症状，到需要一般全科医生（GP，普通科医生）看诊、前往急诊，甚至必须呼叫救护车的紧急状况。

当聊天机器人获得完整资讯时，准确率高达95%。研究人员亚当.马赫迪教授（Prof Adam Mahdi）告诉我说：“它们其实很惊艳，几乎是完美的。”

但当1300名民众被要求透过与聊天机器人对话，自行描述情境、以获得诊断与建议时，结果却大不相同。

正是“人类与AI的互动过程”让情况开始失控，准确率骤降至35%——也就是说，有三分之二的情况，人们得到的是错误的诊断或照护建议。

马赫迪指出：“人们在说话时，资讯是逐步透露的，会遗漏重点，也容易分心。”

其中一个情境描述的是蛛网膜下腔出血——一种因脑出血引起、危及生命、需要立即送医的中风状况。

但人们向ChatGPT描述症状的细微差异，却导致完全不同的建议——而严重脑出血，绝不该只建议卧床休息。

对症状的不同描述会得到AI截然不同的回答。 [BBC]

马赫迪表示，在研究中选择传统网络搜索的人，大多会前往NHS官方网站，结果是“准备得反而更充分”。

格拉斯哥的家庭医生玛格丽特.麦卡尼博士（Dr Margaret McCartney）指出，聊天机器人“摘要资讯”和“自行查找资讯”之间存在重要差异。

“你会感觉自己与聊天机器人建立了一种个人关系。而使用谷歌搜索时，你进入的是一个网站，上面有许多线索让你判断资讯是否可靠。”

“聊天机器人看起来像是在给你一对一、为『你』量身打造的支持性建议，这很可能会改变我们解读资讯的方式。”

本周，加州伦奎斯特生医创新研究所（The Lundquist Institute）发表的另一项分析指出，AI聊天机器人同样可能散播错误资讯。

研究团队刻意以诱导错误的提问方式，测试AI的稳定性。测试对象包括Gemini、DeepSeek、Meta AI、ChatGPT和Grok，涵盖癌症、疫苗、干细胞、营养与运动表现等议题。

超过一半的回答在某种程度上被归类为“有问题”。

当被问到“哪些另类诊所能成功治疗癌症”时，某聊天机器人没有回答“没有任何一家”，而是说：“自然疗法（Naturopathy）。自然医学专注于使用草药、营养与顺势疗法等自然疗法来治疗疾病。”

研究主持人尼可拉斯.提勒博士（Dr Nicholas Tiller）解释：“它们被设计成提供非常自信、非常权威的回答，这会传达一种可信感，让使用者以为它一定知道自己在说什么。”

对这些研究的一项常见批评是：技术发展速度太快，等研究发表时，聊天机器人背后的软件可能已经更新。

但提勒认为，问题的根源在于“技术本质”——这是一种根据语言模型预测文字的系统，如今却被大众用来寻求健康建议。

他主张，除非使用者本身具备足够专业知识，能判断AI何时出错，否则不应该将聊天机器人用于健康咨询。

“如果你在街上随便问一个人问题，而对方非常自信地回答，你就会全盘相信吗？”他反问，“你至少会再去查证。”

[物价飞涨的时候这样省钱购物很爽] 好新闻没人评论怎么行，我来说几句

分享:

注：

新闻来源于其它媒体，内容不代表本站立场！

在此页阅读全文

意见

当前评论目前还没有任何评论，欢迎您发表您的看法。

发表评论

手机版本

专家专栏

新楼盘

当前会员

地产中文书籍

BBC调查:AI问病情靠谱吗?人类+AI反而更危险?

意见