基于多样化特征表达的生物文献自动分类研究

基本信息
批准号:60903093
项目类别:青年科学基金项目
资助金额:17.00
负责人:兰曼
学科分类:
依托单位:华东师范大学
批准年份:2009
结题年份:2012
起止时间:2010-01-01 - 2012-12-31
项目状态: 已结题
项目参与者:贺樑,金健,屠晓,徐金文,瞿仰,陈原,姚心宇
关键词:
命名实体识别蛋白质交互信息文本表达生物文本自动分类
结项摘要

生物文献的自动分类方法是生物信息学的重要研究内容,也是文本分析与挖掘领域的研究课题,既有理论研究意义,又有实际应用价值。本项目从多样化生物文本特征表达的角度研究提高生物文本自动分类的准确性。研究包含三个方面的内容:一是提高自由文本中生物命名实体识别的准确率。二是从自由文本中挖掘蛋白质间交互(PPI)的关系模式,采用的方法包括:依据是否有蛋白质和表征关系的关键字或者隐性的交互信息,在单句内发现PPI信息;针对蛋白质交互信息的描述不在同一个单句中的问题,在相邻近的多句内发现PPI信息;利用搜索引擎和公共生物信息数据库等外部网络资源,挖掘蛋白质命名实体交互的表面模式,并利用bootstrap提升表面模式。三是集成多种不同类型的特征,包括生物命名实体、实体关系模式、词包法、触发词等,利用它们之间信息的互补性,更准确地表达文本的真实内容,从特征向量和分类器两个层面的集成提高生物文本自动分类的准确性。

项目摘要

生物文献的自动分类方法是生物信息学的重要研究内容,也是文本分析与挖掘领域的研究课题,既有理论研究意义,又有实际应用价值。传统文本分类方法多采用词包法在文档层面进行文本表达,这种表达方式摒弃了特征之间的语义关系。本项目着重从多样化生物文本特征表达的角度研究提高生物文本自动分类的准确性的新理论和新方法。本项目在多个不同的层面上(句子内、句子间、摘要文本和全文文本)进行多样化文本特征(语义关系、命名实体关系、实体概念互指消岐和语篇关系)的识别分类研究。.本项目深入研究从多层面抽取多种语义关系的方法。首先,在句子内层面进行名词性短语之间的语义关系识别分类和实体交互关系识别这两部分的研究。名词性短语之间语义关系识别可以挖掘实体之间的因果关系,部分与整体关系,来源与实体关系等;实体间交互关系识别则着重在生物实体之间是否有交互关系信息。其次,在句子间层面进行语篇关系识别研究,发现子句之间的因果关系,转折关系等。然后,在摘要文本和全文文本层面,应用多种文本表达特征进行生物文本信息分类研究,集成多种不同类型的特征,包括生物命名实体、实体关系模式、词包法、触发词等,利用它们之间信息的互补性,更准确地表达文本的真实内容,从特征向量和分类器两个层面的集成提高生物文本自动分类的准确性。此外,为了提高实体的覆盖率和准确率,在文档层面进行实体的共指消解研究。作为基础研究性课题,本项目的研究内容具有前瞻性和可持续性;应用在生物领域的同时,我们积极扩宽思路,紧跟国际最新的研究热点,在相关的医疗临床和医药学领域也同时进行初步探索性研究,为项目的后续可持续发展奠定了良好的理论研究基础。

项目成果
{{index+1}}

{{i.achievement_title}}

{{i.achievement_title}}

DOI:{{i.doi}}
发表时间:{{i.publish_year}}

暂无此项成果

数据更新时间:2023-05-31

其他相关文献

1

EBPR工艺运行效果的主要影响因素及研究现状

EBPR工艺运行效果的主要影响因素及研究现状

DOI:10.16796/j.cnki.1000-3770.2022.03.003
发表时间:2022
2

外泌体在胃癌转移中作用机制的研究进展

外泌体在胃癌转移中作用机制的研究进展

DOI:10.12354/j.issn.1000-8179.2021.20201763
发表时间:2021
3

珠江口生物中多氯萘、六氯丁二烯和五氯苯酚的含量水平和分布特征

珠江口生物中多氯萘、六氯丁二烯和五氯苯酚的含量水平和分布特征

DOI:10.7524 /j.issn.0254-6108.2017122903
发表时间:2018
4

多能耦合三相不平衡主动配电网与输电网交互随机模糊潮流方法

多能耦合三相不平衡主动配电网与输电网交互随机模糊潮流方法

DOI:10.13334/j.0258-8013.pcsee.190276
发表时间:2020
5

基于LS-SVM香梨可溶性糖的近红外光谱快速检测

基于LS-SVM香梨可溶性糖的近红外光谱快速检测

DOI:
发表时间:

兰曼的其他基金

相似国自然基金

1

中文文献自动分类技术研究

批准号:69673011
批准年份:1996
负责人:刘开瑛
学科分类:F0211
资助金额:10.00
项目类别:面上项目
2

面向生物学文献的本体自动提取算法研究

批准号:60572084
批准年份:2005
负责人:朱小燕
学科分类:F0113
资助金额:25.00
项目类别:面上项目
3

大数据环境下基于生物医学本体的文献无监督分类方法研究

批准号:61702324
批准年份:2017
负责人:李美晶
学科分类:F0213
资助金额:23.00
项目类别:青年科学基金项目
4

基于学术文献引文的自动摘要关键技术研究

批准号:61303125
批准年份:2013
负责人:蔡晓妍
学科分类:F0211
资助金额:27.00
项目类别:青年科学基金项目