“AI医生”并不可靠，研究称五大头部AI平台半数医学建议有误导性

IT 之家 4 月 15 日消息，北京时间今天（4 月 15 日）早间，据彭 · 博社报道，最新研究指出，AI 聊天机器人在约一半情况下会提供存在问题的医疗建议。

来自美国、加拿大和英国的研究团队对五款主流平台 ChatGPT、Gemini、Meta AI、Grok 和 DeepSeek 进行了测试。他们围绕五类健康主题提出 10 个问题。本周发表在《BMJ Open》的结果显示，在全部回复中，约 50% 存在问题，其中近 20% 被评估为严重问题。

研究发现，这些模型在封闭式问题以及疫苗、癌症等领域表现相对较好，但在开放式提问以及干细胞、营养等话题上表现明显下滑。

研究人员指出，回答通常语气非常确定，但缺乏可靠依据，没有任何一个模型能够提供完整且准确的参考来源。同时，仅有两次拒绝回答的情况，且均来自 Meta AI。

这一结果进一步引发外界对生成式 AI 使用方式的担忧。这类系统既没有医疗资质，也缺乏进行临床判断的能力，却正被越来越多用户用于健康咨询。

OpenAI 表示，每周有超过 2 亿用户向 ChatGPT 咨询健康相关问题，并在 1 月推出面向普通用户和医疗专业人士的健康工具。Anthropic 也在同月宣布，将为 Claude 引入医疗服务能力。

研究作者警告，在缺乏公众教育和监管的情况下，大规模部署 AI 聊天机器人可能加剧错误信息传播。

IT 之家从报道中获悉，研究人员写道，这些结果凸显出明显的行为局限，也表明有必要重新评估 AI 聊天机器人在公共医疗沟通中的使用方式，因为系统可能生成 "听起来权威但实际上并不可靠" 的回答。

宙世代

一起剪

相关标签