中文电子病历命名实体和实体关系标注体系及语料库构建

  • A+
所属分类:医信大学

中文电子病历命名实体和实体关系标注体系及语料库构建——哈工大, 关毅老师团队

[最近让学生在学习医疗数据实体构建和自然语言处理,找到国内做的比较好的团队,感谢微信请教,把学习内容放这里参考。]

【摘要】 电子病历是由医务人员撰写的面向患者个体描述医疗活动的记录,蕴含了大量的医疗知识和患者的健康信息.电子病历命名实体识别和实体关系抽取等信息抽取研究对于临床决策支持、循证医学实践和个性化医疗服务等具有重要意义,而电子病历命名实体和实体关系标注语料库的构建是首当其冲的.本文在调研了国内外电子病历命名实体和实体关系标注语料库构建的基础上,结合中文电子病历特点,提出适合中文电子病历的命名实体和实体关系的标注体系,在医生的指导和参与下,制定了命名实体和实体关系的详细标注规范,构建了标注体系完整、规模较大且一致性较高的标注语料库.语料库包含病历文本992份,命名实体标注一致性达到0.922,实体关系一致性达到0.895.我们的工作为中文电子病历信息抽取后续研究打下了坚实的基础. 

健康是人们最宝贵的财富, 随着经济的发展, 人们对自己的健康和社会所能提供的医疗服务越来越关注.
目前有限的医疗资源和医疗服务水平不能满足人们日益增长的需求, 不利于医患关系的改善. 为缓解这种矛
盾, 我国于 2009 年颁布的“关于深化医药卫生体制改革的意见”就已明确提出要建立实用共享的医药卫生信息系统, 对医疗的每一个环节的信息技术应用都提出了更高的要求, 重点建立医院电子病历管理系统和居民健康档案, 旨在实现统一高效、互联互通的医疗服务信息平台. 患者的电子病历贯穿医疗活动的始终, 是医疗信息系统的核心数据.
电子病历(Electronic Medical Record, EMR)是指医务人员在医疗活动过程中, 使用医疗机构信息系统生成的文字、符号、图表、图形、数据、影像等数字化信息, 并能实现存储、管理、传输和重现的医疗记录 [1] , 是由医务人员撰写的面向患者个体描述医疗活动的记录. 为了规范电子病历系统的实施, 2010 年卫生部出台了《电子病历基本规范(试行)》和《电子病历系统功能规范(试行)》等规范.在国家一系列政策的推动下, 电子病历系统在各级医院广泛实施. 我国医疗机构数量庞大, 患者的就医需求也与日俱增, 门诊病历和住院病历急剧增长. 仅以哈尔滨医科大学附属第二医院病案室给出的近 10 年住院病历统计数据为例(如图 1 所示), 就可了解电子病历数据量的庞大. 电子病历由医务专业人员撰写, 不仅仅是具有法律效力的医疗活动证据, 而且包含大量的专业医疗知识. 通过分析电子病历能挖掘出这些与患者密切相关的医疗知识, 这种认识早已获得共识 [2] . 比如, 某患者电子病历中, “头 CT 检查显示腔隙性脑梗死”. 在这句话中, “头 CT”是检查手段, “腔隙性脑梗死”是疾病, 这二者在电子病历信息抽取研究中被称为命名实体或概念, 这两个实体间的关系是“头CT”证实了“腔隙性脑梗死”的发生, 或者说“腔隙性脑梗死”可以通过“头 CT”这种检查手段得到确认. 从电子病历里自动挖掘这些知识就是要自动识别电子病历文本中与患者健康密切相关的各类命名实体以及实体间的关系 [3] . 近年来,在电子病历文本上应用自然语言处理、信息抽取等技术服务于临床决策支持的研究倍受关注 [4] . 这个过程分为两个不同的阶段: 自然语言处理研究主要关注病历文本的预处理,包括句子边界识别、词性标注、句法分析等; 信息抽取以自然语言处理研究为基础, 主要关注病历文本中各类表达医疗知识的命名实体或医疗概念的识别和关系抽取 [5] .图 1 哈尔滨医科大学附属第二医院病案室住院病历统计数据海量的电子病历数据堪称医疗领域的大数据, 是座知识的宝库, 蕴含了大量的医疗知识和患者的健康信息. 电子病历数据不应只是封存在病案室里, 应得到有效利用. 如何利用电子病历数据支持生物医学研究和临床研究是医学信息学(Medical Informatics)和转化医学(Translational Medicine)的重要研究内容 [6] . 医学信息学可简单定义为系统地处理有关药品和临床治疗的信息、数据和知识的新兴学科 [7] , 其两个重要分支, 临床信息学(Clinical Informatics)、用户健康信息学(Consumer Health Informatics), 都与电子病历信息抽取密切相关.

临床信息学主要研究利用信息技术实现临床决策支持(Clinical Decision Support), 改善临床治疗效果 [8] , 电子病历是其重要的基础数据. 临床信息学的应用领域主要是基于信息技术的循证医学(Evidence-based
Medicine) [9] 和电子病历系统的智能支持. 病历电子化使得大规模病历的自动分析成为可能, 由于电子病历记录了患者的疾病和症状、治疗过程和治疗效果, 这些信息是重要的临床证据, 自动抽取这些信息能更加高效精确地收集证据辅助决策, 促进循证医学这种数据驱动的医疗方法 [10, 11] . 电子病历已经成为和生物医学文献同等重要的循证医学实践的源数据. 尽管电子病历系统提升了医生的工作效率, 但仍然成为医生工作的负担,尤其表现在书写病程记录上, 这也影响到了电子病历数据的质量 [12–14] . 基于计算机辅助的病历智能生成系统是电子病历输入的新趋势 [15, 16] . 为了促进和规范电子病历系统智能支持的实施, 美国和欧洲推出了电子病历系统分级实施模型, 中国也于 2010 年推出电子病历系统功能应用水平分级评价方法及标准 [17] . 卓越的临床智能支持是电子病历系统分级的主要依据, 而临床智能支持的研究与实现必须立足于已有电子病历数据和生物医学文献的信息抽取和知识挖掘. 随着医学信息学的发展和医疗信息化的普及, 患者历次就诊的电子病历可聚集起来生成终身个人健康记录(Personal Health Record) [18] , 一个典型案例可参见文献[19]. 通过分析个人健康记录, 可以抽取患者个性化的健康知识, 进而为患者个人需求、偏好建立模型并整合到医疗信息系统中, 实现个性化医疗服务 [20] , 这是用户健康信息学研究的主要内容之一 [21, 22] . 另外, 基础医学研究和临床治疗之间的转化医学研究 [23] , 也离不开对电子病历的分析处理. 这方面的代表性工作主要体现在 I2B2(Informatics forIntegrating Biology and the Bedside) [24] 历年组织的与电子病历信息抽取相关的评测. I2B2从 2006年开始组织了一系列面向病历信息抽取的评测, 并发布了共享语料集 [25–31] , 这些评测任务和数据集使得临床研究者能够在现成的数据集上展开研究. 以命名实体识别和实体关系抽取为主要研究内容的电子病历信息抽取研究引起了广大研究者的重视, 该研究在英文病历上已经全面展开, 而在中文病历上的研究却刚刚起步.
电子病历主要有两类, 即门诊病历和住院病历. 门诊病历通常较短, 包含信息较少, 也缺乏对患者治疗情况的跟踪, 因而电子病历信息抽取研究大多关注于住院病历, 并且只限于文本数据的挖掘. 如不明确说明,本文所指的电子病历均指住院病历. 电子病历并不是完全结构化的数据, 还包括一些自由文本(半结构或无结
构)数据, 如病程记录和出院小结等. 这种文本信息方便表达概念以及事件等, 是临床治疗过程的主要记录形
式. 结构化的数据处理起来相对容易, 因而这些自由文本是电子病历命名实体识别和实体关系抽取的主要研
究对象. 当前大多数命名实体识别和实体关系抽取方法是基于统计机器学习方法, 并且在开放领域已经趋于
成熟. 电子病历文本具有半结构化特点和鲜明的子语言 [32] 特点, 文献[33]和[34]分别对英文病历和中文病历的文本特点进行了总结. 由于病历文本的特殊性以及统计机器学习方法的固有局限性, 开放领域的研究成果很难应用于病历文本之上. 因而, 展开电子病历命名实体识别和实体关系抽取研究首当其冲的就是构建标注语料库. 如 Roberts [35] 所指出的, 构建标注语料库有三个方面的主要原因: 1)标注体系清晰地界定了抽取任务的目标; 2) 标注语料用于评价抽取系统的性能; 3) 标注语料用于开发抽取系统(比如训练机器学习模型). 因此, 构建高质量的标注语料库对电子病历命名实体识别和实体关系抽取至关重要, 然而中文电子病历信息抽取研究领域还没有一个标注完整、规模较大、开放共享的命名实体和实体关系标注语料库.
在当前大数据研究浪潮下, 电子病历信息抽取和文本挖掘越来越吸引人们的目光. 这些研究将为临床决
策支持、循证医学实践和疾病监控等提供支持, 从而提高医疗服务质量. 电子病历命名实体和实体关系标注
语料库的构建将为这些研究打下坚实的基础. 本文对国内外已有的电子病历命名实体和实体关系标注语料库构建工作进行了细致的调研, 并指出其不足之处; 在此基础上提出适合中文电子病历的命名实体和实体关系的标注体系, 并制定了详细的标注规范; 在住院医生的指导下, 选取电子病历中的出院小结和首次病程记录作为标注对象构建了迄今为止规模最大的命名实体和实体关系标注语料库; 基于当前已完成的工作, 规划了今后的工作计划, 并展望了未来的研究方向. 文章最后对本文工作进行了总结.

PDF下载 : 中文电子病历命名实体和实体关系标注体系及语料库构建_哈工大

 

  • HealthIT.CN小程序
  • 产学研医创新平台
  • weinxin
  • 健康数据
  • HealthIT公众号
  • weinxin
admin

发表评论

:?: :razz: :sad: :evil: :!: :smile: :oops: :grin: :eek: :shock: :???: :cool: :lol: :mad: :twisted: :roll: :wink: :idea: :arrow: :neutral: :cry: :mrgreen: