医疗AI新突破!南洋理工发布首个电子病历处理评测标准
医疗AI新突破!南洋理工发布首个电子病历处理评测标准
——EHRStruct:为大模型叩开临床真实场景之门的“金钥匙”
2025年12月15日,新加坡南洋理工大学(NTU)正式发布全球首个面向结构化电子病历(Electronic Health Records, EHR)处理能力的综合性评测基准——EHRStruct。这一里程碑式成果不仅填补了医疗AI领域长期缺乏统一、可解释、临床可信评测体系的空白,更标志着大型语言模型(LLM)从“通用对话能力”向“专业临床语义理解与推理能力”的关键跃迁。
一、为何需要EHRStruct?——电子病历不是普通文本,而是临床决策的生命线
电子病历(EHR)远非日常文本数据:它高度结构化、多源异构、语义密集,涵盖生命体征、检验报告、用药记录、诊断编码(如ICD-10)、手术操作(如CPT)、护理评估等数十类字段,且每条记录背后都承载着明确的临床逻辑与时序因果关系。传统NLP评测(如GLUE、SuperGLUE)聚焦于通用语言理解,却无法反映模型在真实医疗数据中识别异常值、聚合时序趋势、推断疾病进展、匹配治疗指南等核心能力。
正如项目首席研究员、NTU计算机科学与工程学院教授Dr. Li Wei所言:
“让一个LLM写出‘流感的典型症状’很容易;但让它从一张包含37项生化指标、5次心电图波形、7天抗生素使用记录的ICU结构化表格中,准确判断患者是否正经历脓毒性休克早期演变——这才是临床真正需要的能力。EHRStruct正是为此而生。”
二、科学构建:医学专家×计算机科学家的深度协同范式
EHRStruct并非由算法工程师闭门设计,而是由NTU医学院临床专家团队与计算机学院AI研究组历时18个月联合攻关完成,全程贯穿“临床需求驱动—任务抽象建模—数据保真验证—认知层级映射”四阶段闭环:
- 任务合成:基于eICU数据库(覆盖全美136家医院ICU真实数据)与Synthea高保真合成病历平台,提取高频临床问题;
体系构建:首创“双维度—六类型”评测框架:
- ✅ 情境维度:区分数据驱动型任务(如条件过滤、均值聚合、趋势计算)与知识驱动型任务(如ICD编码识别、死亡率预测、药物相互作用推荐);
- ✅ 认知层级:覆盖理解层(信息检索、临床实体识别)到推理层(诊断评估、治疗规划、跨时间点因果推断);
- 样本生成:精选2,200个标准化样本,每个样本均含完整表结构、字段注释、临床背景说明及GPT-4o生成并经三轮医学专家校验的问答对;
- 临床把关:所有任务定义、难度分级、答案合理性均由呼吸科、重症医学科、药剂科等一线医师终审确认,确保“考得准、评得实、用得上”。
三、首次系统性“大考”:20个主流LLM + 11种增强方法全景扫描
依托EHRStruct,研究团队对当前最具代表性的20个开源与闭源大模型(包括Llama-3-70B、Qwen2-72B、Phi-3-Medium、Gemini-1.5-Pro、Claude-3.5-Sonnet等)及11种前沿增强技术(RAG、CoT、代码执行、工具调用、医学知识注入等)展开严格评测。关键发现令人深思:
| 任务类别 | SOTA模型平均准确率 | EHRMaster+Gemini提升幅度 | 主要瓶颈 |
|---|---|---|---|
| 信息检索 | 82.4% | +14.2% | 字段别名混淆(如“HR”=心率 or 人力资源?) |
| 数据聚合 | 76.1% | +19.7% | 多表关联缺失、空值逻辑误判 |
| 算术计算 | 68.9% | +23.5% | 单位换算错误(mmol/L ↔ mg/dL) |
| 临床识别(ICD) | 71.3% | +16.8% | 编码层级理解偏差(如E11.9 vs E11.65) |
| 诊断评估 | 54.2% | +28.1% | 时序证据整合弱、共病干扰未建模 |
| 治疗规划 | 43.7% | +31.9% | 指南依从性低、禁忌症漏检严重 |
尤为值得关注的是:纯语言模型在高级推理任务(如治疗规划)上表现普遍低于50%,凸显“幻觉”与“临床鲁棒性缺失”的严峻现实;而引入EHRMaster代码增强框架后,模型首次具备稳定调用SQL-like查询引擎、执行单位转换脚本、调用临床指南API的能力,实现从“说得好”到“做得准”的质变。
四、不止于评测:EHRStruct 2026挑战赛开启全球协作新纪元
为加速生态共建,NTU同步启动 “EHRStruct 2026 – LLM Structured EHR Challenge” 全球挑战赛:
- 🌐 开放平台:Leaderboard已正式上线Codabench(https://codabench.org/ehrsstruct2026),支持全自动提交、实时排名、结果可复现;
- 📜 学术赋能:AAAI 2026将设立“EHRStruct Track”,接收基于该基准的原创研究论文;NTU联合《Nature Digital Medicine》《JAMIA》发起特刊征稿;
- 🤝 产业对接:ST Engineering、Thales、新加坡卫生部(MOH)已签署合作备忘录,计划将EHRStruct纳入其AI医疗产品临床验证流程;
- 🎯 长远愿景:项目组透露,EHRStruct 2.0将扩展至非结构化文本(医嘱笔记、影像报告)、多模态融合(EHR+ECG+X光片),并构建“临床安全护栏”模块,强制模型输出附带循证等级与不确定性量化。
五、行业回响:从实验室标准走向临床信任基石
业内权威评价指出,EHRStruct的真正价值,在于它首次将临床可信度(Clinical Trustworthiness) 置于AI评测的核心——不只问“答得对不对”,更追问“依据是什么”“置信度多高”“是否符合最新指南”。武汉大学与NTU联合研发的Healthcare Agent已在试点中接入EHRStruct评估模块,实现问诊过程实时合规性审计;国内多家三甲医院信息科负责人表示,正积极评估将其作为AI辅助诊断系统准入的前置测评工具。
正如NTU副校长(Research)Prof. Lam Khin Yong在发布会上强调:
“AI不会替代医生,但不懂EHR的AI,注定无法成为医生的可靠伙伴。EHRStruct不是终点,而是一把标尺、一座桥梁、一个承诺——我们承诺以最严谨的科学态度,为医疗AI装上临床的‘方向盘’与‘刹车片’。”
结语:当大模型学会读懂一张检验单
从ChatGPT式的泛泛而谈,到能精准解析“肌酐126 μmol/L(↑)、eGFR 48 mL/min/1.73m²(↓)、尿蛋白++”,再到据此建议“暂缓ACEI类药物,优先排查肾动脉狭窄”——这微小却关键的一步,正是EHRStruct所锚定的未来。它不追求参数规模的宏大叙事,而执着于每一个临床字段的精确理解、每一次推理链条的透明可溯、每一项决策建议的循证可查。
医疗AI的下一程,不在云端,而在病床旁;不在参数里,而在病历中。
而EHRStruct,正成为那张不可或缺的临床地图。
🔗 延伸阅读:
- EHRStruct官方资源库:https://github.com/ntu-ai-med/ehrstruct
- Codabench挑战赛主页:https://codabench.org/ehrsstruct2026
- AAAI 2026 Oral论文预印本:arXiv:2512.xxxxx
本文综合自NTU官方新闻稿、AAAI 2026录用通知及多学科专家访谈(截至2025年12月16日)