昨天说今天更新AI医生的核心
鉴于患者和医生之间存在巨大的信息鸿沟,判断 MedGPT 可靠性的标准和结果,都来自经验丰富的医生专家。
其实施过程是,邀请 120 位真实患者使用 "AI 医生 " 问诊,过程中实习医生辅助将信息同步传达给 10 位四川大学华西医院的真人医生(职级主治及以上),双方在互不影响的情况下分别给出独立判断。
评估结果时,将上述过程切分为问询、诊断、给出治疗建议、开具辅助检查方案、分析检查结果、提供可信解释等 6 个环节,由来自北京阜外医院、中日友好医院、北大人民医院等三甲医院的 7 位主任专家,针对每个环节分别给 AI 和真人按照准确性、专业性等统一标准进行打分。
最终,真人医生的综合得分为 7.5,而 AI 医生得分为 7.2,二者一致性为 96%。评测疾病涵盖消化科、心内科、老年呼吸科、骨科、泌尿外科、肾内科等多个领域。
鉴于患者和医生之间存在巨大的信息鸿沟,判断 MedGPT 可靠性的标准和结果,都来自经验丰富的医生专家。
其实施过程是,邀请 120 位真实患者使用 "AI 医生 " 问诊,过程中实习医生辅助将信息同步传达给 10 位四川大学华西医院的真人医生(职级主治及以上),双方在互不影响的情况下分别给出独立判断。
评估结果时,将上述过程切分为问询、诊断、给出治疗建议、开具辅助检查方案、分析检查结果、提供可信解释等 6 个环节,由来自北京阜外医院、中日友好医院、北大人民医院等三甲医院的 7 位主任专家,针对每个环节分别给 AI 和真人按照准确性、专业性等统一标准进行打分。
最终,真人医生的综合得分为 7.5,而 AI 医生得分为 7.2,二者一致性为 96%。评测疾病涵盖消化科、心内科、老年呼吸科、骨科、泌尿外科、肾内科等多个领域。