尽管人工智能在医疗领域取得了令人瞩目的进展,但一项新的研究表明,通用型AI如ChatGPT在复杂医疗诊断方面仍存在显著缺陷。
加拿大安大略省西部大学的医学教育家Amrit Kirpalani领导的研究团队发现,ChatGPT在诊断150个来自Medscape的复杂医疗案例中,有76个出现错误,错误率超过50%。
这项研究采用了Medscape的问题库,这些案例比美国医师执照考试(USMLE)更接近真实医疗情况,包含多种并发症和诊断难题。研究团队通过巧妙的提示设计,绕过了OpenAI对ChatGPT用于医疗建议的禁令。
Kirpalani指出,ChatGPT的表现不佳主要归因于两个因素:首先,与专门的医疗AI相比,ChatGPT缺乏深厚的医学领域专业知识;其次,ChatGPT在处理医学"灰色地带"时表现欠佳,无法像人类医生那样灵活解读轻微异常的检查结果。
更令人担忧的是,即使在给出错误诊断时,ChatGPT也能提供看似合理且有说服力的解释。这种特性可能会误导非专业人士,增加错误信息传播的风险。
尽管如此,AI在医疗领域仍有其价值。研究合著者Edward Tran表示,ChatGPT已成为医学院教育中的重要工具,帮助学生整理笔记、澄清诊断算法和备考。然而,Kirpalani强烈建议公众不要使用ChatGPT寻求医疗建议,而应继续咨询专业医疗保健提供者。
Kirpalani认为,构建可靠的AI医生需要大量临床数据训练和严格监督。在短期内,AI更可能被用来增强人类医生的工作,而非完全取代他们。随着技术的不断进步,AI在医疗领域的应用仍将是一个值得关注的话题。