With the increase of data scale, it will become extremely difficult to obtain the labels of all samples, and the data will present obvious characteristic of the weak label. In this case, traditional semi-supervised learning methods will face many challenges. Although some beneficial efforts have been made to deal with the challenges, there still exists prominent problems in the semi-supervised learning when encountering the large scale and less labeled data, such as the inadequate supervision information and the unsafe use of unlabeled samples. Based on these considerations, the proposal intends to explore semi-supervised learning methods based on granular computing theory in the large-scale data with less label. Specifically, the research contents contain four aspects: (1) The multi-level and multi-view granularity space construction for large-scale and less labeled data; (2) Researching on the transferring methods of labels and constraints based on data granularity so as to extend the supervision information; (3) Researching on the semi-supervised learning models by fusing the multi-level and the multi-view granularity spaces; (4) Researching on the application of sentiment analysis in large-scale and less labeled microblog data so as to verify the multi-granularity based semi-supervised learning methods of the proposal. The proposal will have great potential to provide valuable foundational research results and promote the development of technology in large-scale data mining; it will have important significance for the field of intelligent information processing in both theory and application.
随着数据规模的不断增大,获得数据中全部样本的标记变得更为困难,数据将呈现出更为明显的弱标记性,这使得传统半监督学习方法遇到诸多挑战。尽管针对这些挑战研究者已经开展了一些有益的探索,但目前针对大规模少标记数据的半监督学习仍存在着监督信息不充分、无标记样本使用不安全等问题。为此,本项目拟基于多粒度计算理论与方法,探索面向大规模少标记数据的半监督学习方法,具体研究内容包括:(1)构建面向大规模少标记数据的多层次、多视角粒空间;(2)提出基于数据粒的样本标记和约束传递方法,实现监督信息的扩充;(3)融合多层次、多视角的粒度空间信息,设计安全的半监督学习模型;(4)面向大规模少标记的微博文本数据,开展基于多粒度的半监督情感分析应用研究。项目有望为半监督学习提供一些有价值的基础性研究成果,促进大规模数据挖掘技术的发展,对智能信息处理领域的相关研究具有重要的理论意义和应用价值。
如何解决数据规模大、标记样本极少的问题,是半监督学习无法回避的难题,这给传统机器学习模型和算法带来了诸多挑战。项目组基于多粒度计算理论与方法,围绕大规模少标记数据环境下半监督学习面临的核心挑战,重点在基于聚类的数据粒化、多粒度半监督学习方面开展了理论与方法研究,并在情感分析、科技信息服务等领域进行了应用研究。主要研究成果包括:(1)在基于聚类的数据粒化方面,项目组构建了基于加权信息熵的聚类集成算法;设计了面向非线性可分数据与多视图数据的聚类算法;提出了基于分层抽样和图压缩的大规模数据高效聚类算法;(2)在多粒度半监督学习方面,项目组结合多粒度计算方法,设计了面向多源监督信息数据和多模态数据的半监督学习算法;提出了基于混合阶图卷积神经网络、构图与标签推理联合学习的鲁棒半监督学习算法;(3)在应用研究方面,项目组在基于聚类的数据粒化与多粒度半监督学习研究成果的基础上,研制了半监督文本情感分析平台与高效的科技信息推荐平台。项目研究成果为半监督机器学习问题提供了一种新的有效解决途径,为大数据分析提供了新的理论依据和技术支持。
{{i.achievement_title}}
数据更新时间:2023-05-31
主控因素对异型头弹丸半侵彻金属靶深度的影响特性研究
基于多模态信息特征融合的犯罪预测算法研究
基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例
惯性约束聚变内爆中基于多块结构网格的高效辐射扩散并行算法
基于协同表示的图嵌入鉴别分析在人脸识别中的应用
有监督和半监督多视图特征学习方法与应用研究
一般多视图核机的监督和半监督学习方法的研究
基于自编码机的半监督特征表示学习方法研究
文本多粒度关系抽取半监督自适应学习的研究