OpenAI的o1-preview模型在医学推理领域的突破与挑战
哈佛大学、斯坦福大学和微软等机构的联合研究显示,OpenAI的o1-preview模型在医学推理任务中表现卓越,甚至达到超人类水平。该模型在鉴别诊断生成、诊断临床推理和管理推理方面均取得显著成果,准确率高达近80%。
研究评估了o1-preview模型在五个方面的能力:鉴别诊断生成、诊断推理、分诊鉴别诊断、概率推理和管理推理。结果表明,与医生和现有的大语言模型相比,o1-preview在鉴别诊断、诊断临床推理和管理推理的质量上都有显著提高。在基于《新英格兰医学杂志》临床病理会议病例的鉴别诊断任务中,o1-preview的准确率达到78.3%,远高于GPT-4的72.9%。此外,o1-preview在88.6%的病例中得出了准确或非常接近准确的诊断结果,并在87.5%的病例中选择了恰当的检查项目。在NEJM Healer的20个临床病例测试中,o1-preview的表现也明显优于GPT-4、主治医师和住院医师,在80例病例中获得78例完美的R-IDEA评分(10分制)。在灰质管理案例中,o1-preview得分明显高于GPT-4及其使用者和使用传统资源的医生;在标志性诊断案例中,其性能与GPT-4相当,但优于使用GPT-4或传统资源的医生。
然而,该研究也存在一些局限性。首先,o1-preview存在“啰嗦”倾向,这可能影响了其在实验中的得分。其次,研究主要关注模型性能,而忽略了人机交互的重要性。未来需要进一步研究人机交互对临床决策辅助工具开发的影响。第三,研究只考察了临床推理的五个方面,而实际临床护理可能涉及更多任务。第四,研究案例集中在内科,缺乏普遍性,且未考虑诊断类型、患者个体差异和就医地点等因素。
尽管如此,这项研究表明,像o1-preview这样的大语言模型在辅助医生进行诊断决策方面具有巨大潜力。研究人员呼吁在真实的临床环境中测试这些技术,并为临床医生与人工智能的合作创新做好准备。
目前,AI技术已在一些医院应用于分诊导诊、预先问诊和病历生成等场景。清华大学电子工程系长聘教授吴及指出,AI在医疗领域的应用难度较大,但会逐步渗透到一些典型场景中。医疗AI的兴起可能有助于解决“看病难、看病贵”等问题,并提升医疗服务质量。市场研究机构Global Market Insights预测,医疗保健领域的AI市场规模将从2023年的187亿美元增长到2032年的3171亿美元,复合年增长率高达37.1%。 然而,我们必须谨慎乐观,因为AI在医学领域的应用仍处于早期阶段,需要更多研究来确保其安全性和有效性,并解决其固有的局限性,例如数据偏差和缺乏可解释性等问题。未来的研究应该关注如何更好地整合AI技术与临床实践,从而最大限度地发挥其潜力,并为患者提供更安全、更高效的医疗服务。
还没有评论,来说两句吧...