Automatic extraction of semantic relations in text is an important research content of the text mining and machine learning.This project aims to establish a new semi-supervised adaptive learning framework for multi-granularity relationship extraction, and applies to protein-protein interaction relation extraction in biomedical literature. The project's main research topics include: (1) To propose a theoretical framework of improved heuristic fast semi-supervised support vector machines,which adds new content for the efficient and large-scale semi-supervised learning; (2)To build a new multi-granularity adaptive classification model, which integrates active learning and semi-supervised learning and proposes a new adaptive learning theory framework; (3) To establish a multi-granularity multi-classifier to do relation extraction task. Moreover, this classifier can be applied to other application areas with a large number of unlabeled samples and high dimensional feature vectors; (4) To apply the proposed theoretical model in the protein-protein interaction relation extraction of text mining study. Make use of the integration of semi-supervised learning and active learning, extracting the rich, multi-granularity features based on natural language structure and biological domain information, a new machine learning framwork is proposed in the project to solve biological text ming problem, which has a high theoretical and practical value.
自动提取文本中的语义关系是文本挖掘和机器学习的重要研究内容。本项目旨在构建多粒度关系抽取的半监督自适应学习方法,可在拥有少量已标注样本和大量未标注样本的前提下,自动提取不同层次的多类别复杂相互关系,并将此学习方法应用于生物文本中的蛋白质相互关系抽取中。项目的主要研究内容包括:(1)构建一个改进的启发式快速半监督支持向量机学习方法,为高效、可规模化的多类分类半监督学习增加新的研究内容;(2)提出自适应分类模型,利用主动学习对半监督学习的优化,进一步提高半监督学习的性能和效率;(3)深入研究提取复杂文本中描述关系的全局和局部特征,融合多粒度的先验知识,提出统一的多粒度学习框架。同时,这个框架也可以应用于其他有大量未标注样本和多粒度信息抽取的领域。(4)将理论模型应用于蛋白质相互关系抽取的文本挖掘研究中,建立多粒度、多类别关系的自动提取系统,是解决生物学问题的新方法,具有很高理论和实用价值。
自动提取文本中的语义关系是文本挖掘的重要研究内容。通过本项目的研究,构建了一个多粒度关系抽取的半监督自适应学习框架,可在拥有少量已标注文本和大量未标注文本的前提下,自动提取多粒度层次中的多类别复杂语义关系,并将此学习框架应用于生物文本中的蛋白质相互关系抽取。本项目的主要研究内容包括:(1)提出了一个改进的启发式快速半监督支持向量机学习方法,为高效、多类别分类的半监督学习增加了新的研究内容;(2)提出了自适应分类算法,利用主动学习对半监督学习的优化,进一步提高半监督学习的性能和效率;(3)基于提取复杂文本中描述语义关系的全局和局部特征,融合多粒度先验知识,提出了统一的多粒度学习框架;(4)将理论模型应用于生物文本挖掘研究中,建立多粒度、多类别蛋白质相互关系的自动提取系统,为解决生物医学问题提供新的方法;(5)最后,针对现实中复杂的分类模型在大数据量的情况下,分类性能和效率都会变差的问题,提出一些的可规模化的解决算法。
{{i.achievement_title}}
数据更新时间:2023-05-31
主控因素对异型头弹丸半侵彻金属靶深度的影响特性研究
基于LASSO-SVMR模型城市生活需水量的预测
基于SSVEP 直接脑控机器人方向和速度研究
自然灾难地居民风险知觉与旅游支持度的关系研究——以汶川大地震重灾区北川和都江堰为例
基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例
基于多粒度的半监督学习方法
基于自适应图与维数约简的半监督学习研究
数据流半监督分类中的半监督迁移学习研究
半监督鉴别特征抽取及人脸识别应用研究