哈佛医学院研究：主流AI大模型初步诊断错误率高达80%

大模型之家讯 4月15日，美国哈佛医学院研究团队评估了包括ChatGPT、DeepSeek、Gemini和Claude在内的20余种先进AI大型语言模型（LLM）在医疗诊断中的表现。研究发现，仅基于患者初步症状和体征进行“鉴别诊断”时，这些模型的错误率高达80%；而在患者提供进一步检测结果后，其“最终诊断”的失败率可降至约40%。研究人员指出，AI诊断的准确性高度依赖完整、详细的患者健康信息，在缺乏充分数据的情况下，其结果并不可靠。团队强调，当前人工智能尚未达到可脱离医疗专业人员独立作出诊断决策的水平。

哈佛医学院研究：主流AI大模型初步诊断错误率高达80%

发表回复