最新研究表明,尽管先进的AI模型在专业医学考试中表现出色,但在实际的医患对话中进行疾病诊断的能力仍显不足。1月2日,《自然-医学》杂志发表了这项由哈佛大学团队主导的研究成果。Pranav Rajpurkar指出,虽然大型语言模型在静态测试中的表现令人瞩目,但在动态对话场景下,特别是在开放式诊断推理方面,其准确性显著下降。
为了更好地评估AI在临床环境中的表现,研究人员开发了一种名为CRAFT-MD的新基准测试方法。该方法通过模拟真实的医患对话,测试AI模型的病史采集及诊断能力。这些模拟对话基于2000个真实医疗案例,涵盖了广泛的医学领域。Shreya Johri强调,这种方法不仅能够评估AI的诊断准确性,还能检验其在不确定性和模糊信息面前的应对能力。
AI模型在不同情境下的表现差异
实验结果显示,四种领先的大型语言模型——GPT-3.5、GPT-4、Llama-2-7b 和 Mistral-v2-7b,在处理结构化病例摘要时,诊断准确率相对较高;但在需要与“患者AI”互动并收集病史的情况下,性能大幅下滑。例如,GPT-4在面对多项选择题时的诊断准确率为82%,而在完全自由对话环境中,这一数字骤降至26%。此外,即使是表现最佳的GPT-4,也只有71%的时间成功完成了病史采集。
模拟对话评估的重要性
Eric Topol认为,这种基于模拟对话的评估方式对于理解AI在临床推理方面的潜力至关重要。它不仅揭示了现有技术的局限性,也为未来改进提供了方向。Rajpurkar补充道,尽管某些AI模型可能在未来某天能够通过此类基准测试,但这并不意味着它们可以在所有实际医疗场景中替代人类医生。现实世界的医疗工作远比模拟复杂,涉及多方面的协调与判断。
结论与展望
综上所述,当前的AI技术虽然在特定任务上展现了强大的能力,但在全面支持临床决策方面仍有很长的路要走。AI可以作为辅助工具,帮助医生提高工作效率,但无法完全取代医生的经验和直觉。未来的研究将继续探索如何进一步提升AI在医疗领域的应用价值,确保其成为可靠且有效的医疗伙伴。