文本多粒度关系抽取半监督自适应学习的研究

基本信息
批准号:61202135
项目类别:青年科学基金项目
资助金额:24.00
负责人:陈一飞
学科分类:
依托单位:南京审计大学
批准年份:2012
结题年份:2015
起止时间:2013-01-01 - 2015-12-31
项目状态: 已结题
项目参与者:王红霞,陈圣磊,孙玉星,韩志耕,冯春贵,王畅,张洁
关键词:
半监督学习关系抽取主动学习文本挖掘支持向量机
结项摘要

Automatic extraction of semantic relations in text is an important research content of the text mining and machine learning.This project aims to establish a new semi-supervised adaptive learning framework for multi-granularity relationship extraction, and applies to protein-protein interaction relation extraction in biomedical literature. The project's main research topics include: (1) To propose a theoretical framework of improved heuristic fast semi-supervised support vector machines,which adds new content for the efficient and large-scale semi-supervised learning; (2)To build a new multi-granularity adaptive classification model, which integrates active learning and semi-supervised learning and proposes a new adaptive learning theory framework; (3) To establish a multi-granularity multi-classifier to do relation extraction task. Moreover, this classifier can be applied to other application areas with a large number of unlabeled samples and high dimensional feature vectors; (4) To apply the proposed theoretical model in the protein-protein interaction relation extraction of text mining study. Make use of the integration of semi-supervised learning and active learning, extracting the rich, multi-granularity features based on natural language structure and biological domain information, a new machine learning framwork is proposed in the project to solve biological text ming problem, which has a high theoretical and practical value.

自动提取文本中的语义关系是文本挖掘和机器学习的重要研究内容。本项目旨在构建多粒度关系抽取的半监督自适应学习方法,可在拥有少量已标注样本和大量未标注样本的前提下,自动提取不同层次的多类别复杂相互关系,并将此学习方法应用于生物文本中的蛋白质相互关系抽取中。项目的主要研究内容包括:(1)构建一个改进的启发式快速半监督支持向量机学习方法,为高效、可规模化的多类分类半监督学习增加新的研究内容;(2)提出自适应分类模型,利用主动学习对半监督学习的优化,进一步提高半监督学习的性能和效率;(3)深入研究提取复杂文本中描述关系的全局和局部特征,融合多粒度的先验知识,提出统一的多粒度学习框架。同时,这个框架也可以应用于其他有大量未标注样本和多粒度信息抽取的领域。(4)将理论模型应用于蛋白质相互关系抽取的文本挖掘研究中,建立多粒度、多类别关系的自动提取系统,是解决生物学问题的新方法,具有很高理论和实用价值。

项目摘要

自动提取文本中的语义关系是文本挖掘的重要研究内容。通过本项目的研究,构建了一个多粒度关系抽取的半监督自适应学习框架,可在拥有少量已标注文本和大量未标注文本的前提下,自动提取多粒度层次中的多类别复杂语义关系,并将此学习框架应用于生物文本中的蛋白质相互关系抽取。本项目的主要研究内容包括:(1)提出了一个改进的启发式快速半监督支持向量机学习方法,为高效、多类别分类的半监督学习增加了新的研究内容;(2)提出了自适应分类算法,利用主动学习对半监督学习的优化,进一步提高半监督学习的性能和效率;(3)基于提取复杂文本中描述语义关系的全局和局部特征,融合多粒度先验知识,提出了统一的多粒度学习框架;(4)将理论模型应用于生物文本挖掘研究中,建立多粒度、多类别蛋白质相互关系的自动提取系统,为解决生物医学问题提供新的方法;(5)最后,针对现实中复杂的分类模型在大数据量的情况下,分类性能和效率都会变差的问题,提出一些的可规模化的解决算法。

项目成果
{{index+1}}

{{i.achievement_title}}

{{i.achievement_title}}

DOI:{{i.doi}}
发表时间:{{i.publish_year}}

暂无此项成果

数据更新时间:2023-05-31

其他相关文献

1

主控因素对异型头弹丸半侵彻金属靶深度的影响特性研究

主控因素对异型头弹丸半侵彻金属靶深度的影响特性研究

DOI:10.13465/j.cnki.jvs.2020.09.026
发表时间:2020
2

基于LASSO-SVMR模型城市生活需水量的预测

基于LASSO-SVMR模型城市生活需水量的预测

DOI:10.19679/j.cnki.cjjsjj.2019.0538
发表时间:2019
3

基于SSVEP 直接脑控机器人方向和速度研究

基于SSVEP 直接脑控机器人方向和速度研究

DOI:10.16383/j.aas.2016.c150880
发表时间:2016
4

自然灾难地居民风险知觉与旅游支持度的关系研究——以汶川大地震重灾区北川和都江堰为例

自然灾难地居民风险知觉与旅游支持度的关系研究——以汶川大地震重灾区北川和都江堰为例

DOI:10.12054/lydk.bisu.148
发表时间:2020
5

基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例

基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例

DOI:
发表时间:2022

陈一飞的其他基金

批准号:81401216
批准年份:2014
资助金额:23.00
项目类别:青年科学基金项目

相似国自然基金

1

基于多粒度的半监督学习方法

批准号:61876103
批准年份:2018
负责人:梁吉业
学科分类:F0601
资助金额:62.00
项目类别:面上项目
2

基于自适应图与维数约简的半监督学习研究

批准号:61602221
批准年份:2016
负责人:易玉根
学科分类:F0210
资助金额:20.00
项目类别:青年科学基金项目
3

数据流半监督分类中的半监督迁移学习研究

批准号:61866007
批准年份:2018
负责人:文益民
学科分类:F0603
资助金额:38.00
项目类别:地区科学基金项目
4

半监督鉴别特征抽取及人脸识别应用研究

批准号:60875004
批准年份:2008
负责人:陈才扣
学科分类:F0304
资助金额:28.00
项目类别:面上项目