In recent years, natural language processing (NLP) has received a great deal of attention in clinic area, and has been an important component of this area. Our government is pushing ahead with hospital informatization based on electronic medical record (EMR). The development of clinical NLP will help to construct and upgrade hospital information systems. In this project, we will study the key issues of temporal serialization for entities in clinical text. It aims to map all clinical entities of a person into a universal timeline, and to generate a sequence of clinical entities in time to support other medical information systems. Compared with temporal relationship extraction in clinical text, temporal serialization for clinical entities mines temporal information that is embedded in clinical text at a deeper level. The project includes the following three aspects: 1) clinical entity extraction in clinical text; 2) temporal expression extraction in clinical text; 2) temporal serialization for entities in clinical text. The study will focus on Chinese and English clinic text. The research results are of great theoretical and practical significance. On the one hand, they further complement and perfect the theory about temporal serialization for entities in clinical text; on the other hand, they fill up the blank of temporal serialization for entities in Chinese clinical text.
近年来,自然语言处理技术在临床医学领域受到了广泛关注,成为这一领域的一个重要分支。我国正在推进以电子病历为核心的医院信息化建设工作,临床医学NLP技术的发展将有利于医院信息化的建设和升级。课题将研究临床医疗文本中实体时序化的关键问题,目的在于把一个病人的所有临床医疗实体准确定位到统一的时间轴上,形成按时间顺序排列的医疗实体序列,为其他医疗信息处理系统提供支持。与临床医疗实体时间关系抽取相比,临床医疗实体时序化从更深层次挖掘蕴含在临床医疗文本中的时间信息,包括以下三个方面的内容:1)临床医疗实体抽取;2)临床医疗文本中的时间表达式抽取;3)临床医疗实体时序化。课题将分别对中文和英文临床医疗文本进行研究。研究成果具有重要的理论价值和实际意义。一方面进一步补充和完善临床医疗实体时序化理论体系;另一方面填补了面向中文临床医疗文本的临床医疗实体时序化技术空白。
近些年,随着医疗信息化进程的不断推进,临床医疗信息处理技术逐渐成为一个新的研究热点。本课题对临床医疗文本中实体时序化问题进行了深入研究,目的在于把一个病人的所有临床医疗实体准确定位到统一的时间轴上,形成按时间顺序排列的医疗实体序列,为其他医疗信息处理系统提供支持。课题的主要研究内容包括:1)临床医疗文本中的隐私信息识别。依据美国HIPAA法案的规定,所有临床医疗文本数据必须进行匿名化之后才能用于科研和商业。因此课题提出了一种基于集成学习的隐私信息识别方法,并在2014 i2b2和2016 N-GRID国际公开数据集上分别取得了95.11%和91.43%的性能,达到了国际较高的水平。2)连续及非连续临床医疗实体识别。课题采用BIOHD1234和Multi-label两种方法对连续和非连续医疗实体进行统一的表示,然后进一步提出了基于深度神经网络的实体识别方法,该方法在人工构建的数据集上取得83.32%的性能,明显优于其他传统方法。3)时间表达式抽取及其归一化。课题针对临床医疗文本中的时间信息,提出了一种基于规则的抽取方法。该方法在人工构建的数据集上的取得了93.40%的性能,对于时间表达式的归一化则达到了92.58%的准确率,能够很好地满足后续任务对于时间信息的抽取需求,也为课题的顺利进行打下了基础。3)临床医疗实体时间标引方法研究。课题提出了一种基于循环卷积神经网络的医疗实体时间关系分类方法。该方法结合循环神经网络和卷积神经网络对医疗实体和时间表达式的向量表示进行学习,然后再进一步结合大量人工特征共同实现对医疗实体时间关系的预测。在人工标注数据集上取得了71.10%的准确率。然后通过标引时间的顺序进一步实现了临床医疗实体的时序化。综述所述,课题不仅构建了大规模的中文医疗实体时序化语料库,还针对相关任务提出了相应的解决方法且取得了良好的性能,为临床医疗信息处理技术的研究具有推动作用。
{{i.achievement_title}}
数据更新时间:2023-05-31
基于国产化替代环境下高校计算机教学的研究
基于综合治理和水文模型的广西县域石漠化小流域区划研究
非牛顿流体剪切稀化特性的分子动力学模拟
中国出口经济收益及出口外资渗透率分析--基于国民收入视角
新产品脱销等待时间对顾客抱怨行为的影响:基于有调节的双中介模型
面向专利文本中实体关系抽取的远程监督方法研究
面向临床决策辅助的电子病历文本结构化方法与知识挖掘研究
基于云计算的医疗大数据临床决策问题研究
面向文本挖掘的特征选择关键问题研究