面向文本分类的迁移学习和半监督学习方法研究

基本信息
批准号:61175053
项目类别:面上项目
资助金额:57.00
负责人:唐焕玲
学科分类:
依托单位:山东工商学院
批准年份:2011
结题年份:2015
起止时间:2012-01-01 - 2015-12-31
项目状态: 已结题
项目参与者:鲁明羽,邱勇,于立萍,刘智,余远,杜萍,刘娜,肖智博,李国江
关键词:
未标注样本半监督学习图模型迁移学习文本分类
结项摘要

针对文本分类技术面临的标注瓶颈、数据同分布假设不成立等突出问题,本项目拟进一步深化和拓展面向文本分类的迁移学习和半监督学习方法研究工作,主要包括:研究基于近邻分类一致性的实例迁移新方法,提出TranCo-training分类模型;融合迁移学习与半监督学习方法,从基分类器的正确性与差异性的角度,进行基于实例的知识迁移,增强分类模型的泛化能力和学习能力;在基于投票分歧维护样本权重的新策略与基于置信度的实例迁移基础上,提出新的TranSemiBoost分类模型;通过比较已有分类器在测试样本附近的分类边界与测试数据聚类决策边界一致性,提出基于图模型的关联知识迁移学习方法;以交叉领域的共享特征词所隐含的主题类别为纽带,建立联合概率分布模型,提出基于特征的迁移学习方法。该项研究对于促进机器学习与文本分类技术的发展有重要意义,所获得的研究成果对于机器学习和数据挖掘的其它研究也有较大的参考价值和借鉴作用。

项目摘要

文本分类技术是机器学习、数据挖掘、网络挖掘、自然语言处理等领域的研究热点,但是面临着标注训练样本匮乏、数据同分布假设不成立等突出问题。本项目重点面向文本分类的半监督学习、迁移学习和集成学习等方法研究方面进行了深入研究,提出了多种新颖方法,主要包括研究决策树、贝叶斯、粒子群分类等算法的改进方法;研究半监督学习方法,提出基于TEF_WA技术的TV-SC和TV-DC新方法、利用互信息、CHI统计量构建特征独立模型和特征子集划分方法、提出了基于特征独立模型的SC-PMID新的分类算法;研究集成学习方法,提出了基于投票熵维护样本权重的新策略,提出了新的BoostVE分类模型,提升朴素贝叶斯分类器的泛化能力;深入研究迁移学习方法,提出了基于近邻一致性度量实例迁移能力的计算新方法、提出了TranCo-training分类新模型、融合Boosting技术提出了基于预测一致性的领域适应模型;融合半监督学习和集成学习方法,从增加基分类器之间的差异性角度,提出了一种基于置信度重取样的SemiBoost-CR分类新模型。未标注样本的聚类结果、主题的正确提取和摘要,对迁移学习与半监督学习算法有很大影响,本项目对聚类学习和文本摘要进行了深入研究,提出了若干种新方法,主要包括基于形态学的单词-文档谱聚类方法、基于模糊-调和均值的单词-文档谱聚类方法;自适应主题融合的多文档自动摘要算法,以及主题敏感的多文档自动摘要算法。本项目研究的算法不仅可以应用于文本分类,还可拓展到图像分类领域,因此在图像特征提取、图像分割等方面开展了研究,提出了若干新方法。本项目研制实现了一个中英文文本分类系统,集成了所提出的各种分类算法,具有很好的实用价值。本项目的研究对于促进机器学习与文本分类技术的发展有重要意义,所获得的研究成果对于机器学习和数据挖掘的其它研究也有较大的参考价值和借鉴作用。

项目成果
{{index+1}}

{{i.achievement_title}}

{{i.achievement_title}}

DOI:{{i.doi}}
发表时间:{{i.publish_year}}

暂无此项成果

数据更新时间:2023-05-31

其他相关文献

1

粗颗粒土的静止土压力系数非线性分析与计算方法

粗颗粒土的静止土压力系数非线性分析与计算方法

DOI:10.16285/j.rsm.2019.1280
发表时间:2019
2

主控因素对异型头弹丸半侵彻金属靶深度的影响特性研究

主控因素对异型头弹丸半侵彻金属靶深度的影响特性研究

DOI:10.13465/j.cnki.jvs.2020.09.026
发表时间:2020
3

中国参与全球价值链的环境效应分析

中国参与全球价值链的环境效应分析

DOI:10.12062/cpre.20181019
发表时间:2019
4

基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例

基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例

DOI:
发表时间:2022
5

基于细粒度词表示的命名实体识别研究

基于细粒度词表示的命名实体识别研究

DOI:10.3969/j.issn.1003-0077.2018.11.009
发表时间:2018

唐焕玲的其他基金

相似国自然基金

1

基于弱监督和迁移学习的深度文本理解模型学习方法

批准号:61876144
批准年份:2018
负责人:管子玉
学科分类:F0606
资助金额:62.00
项目类别:面上项目
2

基于半监督学习和集成学习的文本分类方法研究

批准号:61073133
批准年份:2010
负责人:鲁明羽
学科分类:F0607
资助金额:32.00
项目类别:面上项目
3

数据流半监督分类中的半监督迁移学习研究

批准号:61866007
批准年份:2018
负责人:文益民
学科分类:F0603
资助金额:38.00
项目类别:地区科学基金项目
4

半配对的图像和文本异构迁移学习方法研究

批准号:61702358
批准年份:2017
负责人:杨柳
学科分类:F0605
资助金额:26.00
项目类别:青年科学基金项目