面向临床医疗文本的实体时序化问题研究

基本信息

批准号：61402128

项目类别：青年科学基金项目

资助金额：26.00

负责人：汤步洲

学科分类：

依托单位：哈尔滨工业大学

批准年份：2014

结题年份：2017

起止时间：2015-01-01 - 2017-12-31

项目状态：已结题

项目参与者：陈毅,刘增健,房佳,郑文,文博,袁博

关键词：

时序化时间关系抽取临床医学自然语言处理临床医疗实体抽取

结项摘要

In recent years, natural language processing (NLP) has received a great deal of attention in clinic area, and has been an important component of this area. Our government is pushing ahead with hospital informatization based on electronic medical record (EMR). The development of clinical NLP will help to construct and upgrade hospital information systems. In this project, we will study the key issues of temporal serialization for entities in clinical text. It aims to map all clinical entities of a person into a universal timeline, and to generate a sequence of clinical entities in time to support other medical information systems. Compared with temporal relationship extraction in clinical text, temporal serialization for clinical entities mines temporal information that is embedded in clinical text at a deeper level. The project includes the following three aspects: 1) clinical entity extraction in clinical text; 2) temporal expression extraction in clinical text; 2) temporal serialization for entities in clinical text. The study will focus on Chinese and English clinic text. The research results are of great theoretical and practical significance. On the one hand, they further complement and perfect the theory about temporal serialization for entities in clinical text; on the other hand, they fill up the blank of temporal serialization for entities in Chinese clinical text.

近年来，自然语言处理技术在临床医学领域受到了广泛关注，成为这一领域的一个重要分支。我国正在推进以电子病历为核心的医院信息化建设工作，临床医学NLP技术的发展将有利于医院信息化的建设和升级。课题将研究临床医疗文本中实体时序化的关键问题，目的在于把一个病人的所有临床医疗实体准确定位到统一的时间轴上，形成按时间顺序排列的医疗实体序列，为其他医疗信息处理系统提供支持。与临床医疗实体时间关系抽取相比，临床医疗实体时序化从更深层次挖掘蕴含在临床医疗文本中的时间信息，包括以下三个方面的内容：1）临床医疗实体抽取；2）临床医疗文本中的时间表达式抽取；3）临床医疗实体时序化。课题将分别对中文和英文临床医疗文本进行研究。研究成果具有重要的理论价值和实际意义。一方面进一步补充和完善临床医疗实体时序化理论体系；另一方面填补了面向中文临床医疗文本的临床医疗实体时序化技术空白。

项目摘要

近些年，随着医疗信息化进程的不断推进，临床医疗信息处理技术逐渐成为一个新的研究热点。本课题对临床医疗文本中实体时序化问题进行了深入研究，目的在于把一个病人的所有临床医疗实体准确定位到统一的时间轴上，形成按时间顺序排列的医疗实体序列，为其他医疗信息处理系统提供支持。课题的主要研究内容包括：1）临床医疗文本中的隐私信息识别。依据美国HIPAA法案的规定，所有临床医疗文本数据必须进行匿名化之后才能用于科研和商业。因此课题提出了一种基于集成学习的隐私信息识别方法，并在2014 i2b2和2016 N-GRID国际公开数据集上分别取得了95.11%和91.43%的性能，达到了国际较高的水平。2）连续及非连续临床医疗实体识别。课题采用BIOHD1234和Multi-label两种方法对连续和非连续医疗实体进行统一的表示，然后进一步提出了基于深度神经网络的实体识别方法，该方法在人工构建的数据集上取得83.32%的性能，明显优于其他传统方法。3）时间表达式抽取及其归一化。课题针对临床医疗文本中的时间信息，提出了一种基于规则的抽取方法。该方法在人工构建的数据集上的取得了93.40%的性能，对于时间表达式的归一化则达到了92.58%的准确率，能够很好地满足后续任务对于时间信息的抽取需求，也为课题的顺利进行打下了基础。3）临床医疗实体时间标引方法研究。课题提出了一种基于循环卷积神经网络的医疗实体时间关系分类方法。该方法结合循环神经网络和卷积神经网络对医疗实体和时间表达式的向量表示进行学习，然后再进一步结合大量人工特征共同实现对医疗实体时间关系的预测。在人工标注数据集上取得了71.10%的准确率。然后通过标引时间的顺序进一步实现了临床医疗实体的时序化。综述所述，课题不仅构建了大规模的中文医疗实体时序化语料库，还针对相关任务提出了相应的解决方法且取得了良好的性能，为临床医疗信息处理技术的研究具有推动作用。

项目成果

DOI：{{i.doi}}

发表时间：{{i.publish_year}}

暂无此项成果

数据更新时间：2023-05-31

其他相关文献

DOI：

发表时间：

DOI：10.14050/j.cnki.1672-9250.2017.02.014

发表时间：2017

DOI：10.7498/aps.70.20202116

发表时间：2021

DOI：10.12011/setp2020-2080

发表时间：2022

DOI：

发表时间：2023

汤步洲的其他基金

批准号：61876052

批准年份：2018

资助金额：62.00

项目类别：面上项目

相似国自然基金

面向专利文本中实体关系抽取的远程监督方法研究

批准号：71704169

批准年份：2017

负责人：陈亮

学科分类：G0414

资助金额：19.00

项目类别：青年科学基金项目

面向临床决策辅助的电子病历文本结构化方法与知识挖掘研究

批准号：61702033

批准年份：2017

负责人：尚小溥

学科分类：F0214

资助金额：25.00

项目类别：青年科学基金项目

基于云计算的医疗大数据临床决策问题研究

批准号：61601330

批准年份：2016

负责人：方超

学科分类：F0113

资助金额：19.00

项目类别：青年科学基金项目

面向文本挖掘的特征选择关键问题研究

批准号：61163034

批准年份：2011

负责人：裴志利

学科分类：F0605

资助金额：49.00

项目类别：地区科学基金项目

面向临床医疗文本的实体时序化问题研究

{{i.achievement_title}}

暂无此项成果

其他相关文献

基于国产化替代环境下高校计算机教学的研究

基于综合治理和水文模型的广西县域石漠化小流域区划研究

非牛顿流体剪切稀化特性的分子动力学模拟

中国出口经济收益及出口外资渗透率分析--基于国民收入视角

新产品脱销等待时间对顾客抱怨行为的影响:基于有调节的双中介模型

汤步洲的其他基金

基于电子病历分析的慢病趋势预测方法研究

相似国自然基金