基于多粒度的半监督学习方法

基本信息
批准号:61876103
项目类别:面上项目
资助金额:62.00
负责人:梁吉业
学科分类:
依托单位:山西大学
批准年份:2018
结题年份:2022
起止时间:2019-01-01 - 2022-12-31
项目状态: 已结题
项目参与者:王锋,赵兴旺,王智强,王杰,张凯涵,刘晓琳,崔军彪,郭婷
关键词:
半监督学习多粒度描述粒计算多粒度融合
结项摘要

With the increase of data scale, it will become extremely difficult to obtain the labels of all samples, and the data will present obvious characteristic of the weak label. In this case, traditional semi-supervised learning methods will face many challenges. Although some beneficial efforts have been made to deal with the challenges, there still exists prominent problems in the semi-supervised learning when encountering the large scale and less labeled data, such as the inadequate supervision information and the unsafe use of unlabeled samples. Based on these considerations, the proposal intends to explore semi-supervised learning methods based on granular computing theory in the large-scale data with less label. Specifically, the research contents contain four aspects: (1) The multi-level and multi-view granularity space construction for large-scale and less labeled data; (2) Researching on the transferring methods of labels and constraints based on data granularity so as to extend the supervision information; (3) Researching on the semi-supervised learning models by fusing the multi-level and the multi-view granularity spaces; (4) Researching on the application of sentiment analysis in large-scale and less labeled microblog data so as to verify the multi-granularity based semi-supervised learning methods of the proposal. The proposal will have great potential to provide valuable foundational research results and promote the development of technology in large-scale data mining; it will have important significance for the field of intelligent information processing in both theory and application.

随着数据规模的不断增大,获得数据中全部样本的标记变得更为困难,数据将呈现出更为明显的弱标记性,这使得传统半监督学习方法遇到诸多挑战。尽管针对这些挑战研究者已经开展了一些有益的探索,但目前针对大规模少标记数据的半监督学习仍存在着监督信息不充分、无标记样本使用不安全等问题。为此,本项目拟基于多粒度计算理论与方法,探索面向大规模少标记数据的半监督学习方法,具体研究内容包括:(1)构建面向大规模少标记数据的多层次、多视角粒空间;(2)提出基于数据粒的样本标记和约束传递方法,实现监督信息的扩充;(3)融合多层次、多视角的粒度空间信息,设计安全的半监督学习模型;(4)面向大规模少标记的微博文本数据,开展基于多粒度的半监督情感分析应用研究。项目有望为半监督学习提供一些有价值的基础性研究成果,促进大规模数据挖掘技术的发展,对智能信息处理领域的相关研究具有重要的理论意义和应用价值。

项目摘要

如何解决数据规模大、标记样本极少的问题,是半监督学习无法回避的难题,这给传统机器学习模型和算法带来了诸多挑战。项目组基于多粒度计算理论与方法,围绕大规模少标记数据环境下半监督学习面临的核心挑战,重点在基于聚类的数据粒化、多粒度半监督学习方面开展了理论与方法研究,并在情感分析、科技信息服务等领域进行了应用研究。主要研究成果包括:(1)在基于聚类的数据粒化方面,项目组构建了基于加权信息熵的聚类集成算法;设计了面向非线性可分数据与多视图数据的聚类算法;提出了基于分层抽样和图压缩的大规模数据高效聚类算法;(2)在多粒度半监督学习方面,项目组结合多粒度计算方法,设计了面向多源监督信息数据和多模态数据的半监督学习算法;提出了基于混合阶图卷积神经网络、构图与标签推理联合学习的鲁棒半监督学习算法;(3)在应用研究方面,项目组在基于聚类的数据粒化与多粒度半监督学习研究成果的基础上,研制了半监督文本情感分析平台与高效的科技信息推荐平台。项目研究成果为半监督机器学习问题提供了一种新的有效解决途径,为大数据分析提供了新的理论依据和技术支持。

项目成果
{{index+1}}

{{i.achievement_title}}

{{i.achievement_title}}

DOI:{{i.doi}}
发表时间:{{i.publish_year}}

暂无此项成果

数据更新时间:2023-05-31

其他相关文献

1

主控因素对异型头弹丸半侵彻金属靶深度的影响特性研究

主控因素对异型头弹丸半侵彻金属靶深度的影响特性研究

DOI:10.13465/j.cnki.jvs.2020.09.026
发表时间:2020
2

基于多模态信息特征融合的犯罪预测算法研究

基于多模态信息特征融合的犯罪预测算法研究

DOI:
发表时间:2018
3

基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例

基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例

DOI:
发表时间:2022
4

惯性约束聚变内爆中基于多块结构网格的高效辐射扩散并行算法

惯性约束聚变内爆中基于多块结构网格的高效辐射扩散并行算法

DOI:10.19596/j.cnki.1001-246x.8419
发表时间:2022
5

基于协同表示的图嵌入鉴别分析在人脸识别中的应用

基于协同表示的图嵌入鉴别分析在人脸识别中的应用

DOI:10.3724/sp.j.1089.2022.19009
发表时间:2022

梁吉业的其他基金

批准号:60773133
批准年份:2007
资助金额:28.00
项目类别:面上项目
批准号:61432011
批准年份:2014
资助金额:350.00
项目类别:重点项目
批准号:70971080
批准年份:2009
资助金额:26.00
项目类别:面上项目
批准号:70471003
批准年份:2004
资助金额:12.00
项目类别:面上项目
批准号:60275019
批准年份:2002
资助金额:22.00
项目类别:面上项目
批准号:U1435212
批准年份:2014
资助金额:150.00
项目类别:联合基金项目
批准号:71031006
批准年份:2010
资助金额:150.00
项目类别:重点项目

相似国自然基金

1

有监督和半监督多视图特征学习方法与应用研究

批准号:61702280
批准年份:2017
负责人:吴飞
学科分类:F0605
资助金额:25.00
项目类别:青年科学基金项目
2

一般多视图核机的监督和半监督学习方法的研究

批准号:61906101
批准年份:2019
负责人:谢锡炯
学科分类:F0603
资助金额:20.00
项目类别:青年科学基金项目
3

基于自编码机的半监督特征表示学习方法研究

批准号:61906060
批准年份:2019
负责人:朱毅
学科分类:F0605
资助金额:22.00
项目类别:青年科学基金项目
4

文本多粒度关系抽取半监督自适应学习的研究

批准号:61202135
批准年份:2012
负责人:陈一飞
学科分类:F06
资助金额:24.00
项目类别:青年科学基金项目