简要总结
人工智能聊天机器人正努力成为医疗行业的下一个热点,它们在标准化测试中表现优异,并提供关于你的健康问题的建议。但《自然医学》发表的一项新研究显示,它们距离实现这一目标还很遥远,甚至可能存在危险。
这项由牛津大学多个团队领导的研究发现,大型语言模型(LLMs)在医学理解方面技术上非常先进,但在帮助用户解决个人医疗问题时表现不足,研究人员指出。
“尽管宣传声势浩大,人工智能还远未准备好担任医生的角色,”研究的首席医疗专家丽贝卡·佩恩博士在一份宣布研究结果的新闻稿中表示。她补充说:“患者需要意识到,向大型语言模型咨询症状可能存在危险,可能导致错误诊断,且无法识别何时需要紧急帮助。”
研究中,1300名参与者使用了来自OpenAI、Meta和Cohere的AI模型,识别健康状况。他们设计了一系列由医生制定的场景,要求AI系统告诉他们下一步应采取什么措施来应对医疗问题。
研究发现,其结果与传统的自我诊断方法(如在线搜索或个人判断)并无差异。
他们还发现,用户对所需信息存在理解偏差,不清楚大型语言模型需要哪些信息才能提供准确建议。用户得到的建议既有优点也有缺陷,难以判断下一步该怎么做。
Decrypt 已联系OpenAI、Meta和Cohere寻求评论,若他们回应,将会更新本文。
“作为一名医生,做出正确诊断远不止记忆事实那么简单。医学既是科学也是艺术。倾听、探查、澄清、确认理解、引导对话都至关重要,”佩恩在接受 Decrypt 采访时表示。
“医生会主动引导患者提供相关症状,因为患者往往不知道哪些细节重要,”她解释说,研究显示,LLMs“尚未可靠地管理与非专业人士的动态互动。”
团队得出结论,人工智能目前并不适合提供医疗建议,如果要在医疗领域正确使用,还需要新的评估体系。然而,这并不意味着它们在现阶段没有用处。
佩恩表示,虽然“LLMs在医疗中绝对有一定作用”,但应是“秘书,而非医生”。这项技术在“总结和重新整理已有信息”方面具有优势,LLMs已被用于诊室中“转录会诊内容,并将信息整理成给专家的信件、患者信息表或医疗记录”。
团队总结认为,虽然他们并不反对在医疗中使用AI,但希望这项研究能引导其朝正确方向发展。