关联信息提取的目的是从文本中自动提取概念及概念间语义关系。医疗文本中蕴含大量关联的临床信息,自动提取这些信息服务于各类临床信息系统是当前医疗信息化亟需的基础技术。由于自然语言的灵活性以及领域知识表达不足等原因,目前单纯依赖语法知识或者机器学习的方法都存在很大局限性,特别是在中文医学文本处理领域中这样的研究尚属空白。本研究的目的是寻求一种能够有效结合基于语法方法的高准确性和基于机器学习方法高灵活性的方法,探索性地提出一种子语言(Sublanguage)语法浅解析和模式识别机器学习方法相结合的混合算法。本项目将深入研究该混合算法过程中所涉及的关键方法和技术,针对中文医学语言文本处理这样一个相对薄弱的研究领域建立关联信息提取的有效方法,对两类临床文本(病历家族史的结构化信息提取、出院小结中时间关联信息提取)进行测试和评估来验证方法的有效性。
传统的面向病历文本的医疗信息存储、交换和获取模式,使得大量临床信息目前不能获得更高层次的利用。本研究以自动提取医学临床文本中的关联信息为目的,希望通过一系列的基础研究和关键技术探索,使得中文临床文档的利用可以更好的服务于临床信息化实践。按照项目申请书拟定的研究计划本项目开展了以下几方面的研究:.1..医学语言处理基础设施建设.医学术语知识词典是开展医学语言处理的基础,本项目之前面向中文的综合性医学术语知识库未见报道。本项目中参考国外研究经验,首先建立了一个临床术语语义本体,该本体包含65个顶层语义概念和900多个具有层次结构的子语义概念。然后,基于该语义本体对采集的大规模医学术语资源进行标注,形成了一个具有6万多条目的中英文双语医学术语知识词典。经测试该知识库对于临床词汇的覆盖达到了87.4%。.2..医学概念实体提取研究.医学概念实体的自动提取是开展医学语言处理研究的基础。本项目首先开展了基于术语词典的概念实体提取研究,实现了对于概念实体以及否定语义的自动提取算法,概念的误检率仅1.66%,否定检出的阳性预测率为100%、阴性预测率达98.99%;针对术语词典无法覆盖的部分,探索了基于条件随机场的医学问题自动识别算法,完全匹配率达到88.37%;针对时间信息这类变体信息,本项目提出了基于正则表达式的时间信息自动提取算法,识别正确率达到95%。.3..概念实体关系提取研究.概念实体之间的关系是语言处理的难点。本项目探索了三个典型临床关系提取:(1)通过挖掘建立相应的家族史子语言语法,实现家族史部分家庭成员与疾病问题的关系提取(正确率97.22%);(2)通过建立的时间标记和语义标记,利用条件随机场训练来实现对于临床问题时间属性的提取(正确率86.94%)。(3)利用医学子语言理论和连语法解析算法,完全心电图诊断报告的自动结构化信息提取(完全正确率73.08%)。.本项目依照项目申请书计划完成了这个三年时间的探索研究,其间培养了三名硕士研究生,并完成了一个博士后工作站报告。发表期刊和会议论文9篇,形成一个大规模中英文双语医学术语知识库和若干软件模块。作为一个基础研究,其应用价值将在后续的几年中逐步显现,目前该项目的成果正被运用于国家863项目和若干产业产品开发中。
{{i.achievement_title}}
数据更新时间:2023-05-31
玉米叶向值的全基因组关联分析
环境类邻避设施对北京市住宅价格影响研究--以大型垃圾处理设施为例
基于SSVEP 直接脑控机器人方向和速度研究
基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例
基于分形维数和支持向量机的串联电弧故障诊断方法
中文语言文本理解
社交媒体中文本情感语义计算理论和方法
面向中文文本的事件时空语义解析方法研究
基于特征联想的中文短文本分类方法研究