Classification large-scale high-dimensional multiple instance data is commonly seen in modern information engineerings, such as smart medicine, bioinformatics and so on. Traditional classification methods have their limitations in dealing with such kind of data, such as ineffective similarity measure, unreasonable learning assumption etc. Using latent semantic information to classify high-dimensional multiple instance data can promote the research on classification model. In this project, we will conduct the following research programs: to investigate semantic extraction and representation from a large scale of instances, as well as reconstruction of bags in multiple instance learning; to investigate multi-class latent semantic classification model in high-dimensional spaces, from which dissimilarity measure, mathematical optimization model and search strategy are upgraded into the latent semantic level; to investigate semi-supervised techniques for prediction of unlabeled instances. The advantage of using a latent semantic multiple instance classification model is that it can reconstruct multiple instance bags by taking into consideration both the inter and intra bag difference. Moreover, it can establish a feature space defined by latent semantic features extracted from high-dimensional data, thus instances are comparable at the semantic level. We strive to achieve the goal of this project, that is to propose a useful and pervasive classification model for high-dimensional multiple instance data, and a search strategy for semantic features. Moreover, the success of this project will greatly improve the classification performance on such kind of data, and our proposed models and methods will show practical values to real applications.
大规模高维多示例数据分类是智能医疗、生物信息学等现代信息工程亟待解决的一个共性问题。本项目从数据潜在语义角度研究高维多示例数据分类的新模型和新方法,以解决传统方法存在的距离测度无效、学习假设不合理等问题,是分类模型研究的语义升华。主要研究内容有:研究大规模示例集的语义提取和表示,以及多示例包有效重构技术;在高维空间中,研究多类潜在语义分类模型,并将距离测度、数学模型和优化策略升华到潜在语义空间中进行;在此基础上,进一步研究预测包中未标记示例类别的半监督策略。采用潜在语义分类模型的优点是它可以同时考虑包之间的整体差异和包的内部差异来重构多示例包,并且在高维空间中提取数据潜在语义特征,使得数据之间既有可比性,又能够比较语义差异。该项目的成功实施,将在语义层面上构建面向高维多示例数据实用且具有普适性的分类模型和搜索算法,对此类数据分类性能的改善将产生积极影响,对分类算法的进一步应用有着重要意义。
大规模高维多示例数据分类是智能医疗、生物信息学和跨模态数据分析等现代信息工程亟待解决的一个共性问题。本课题从数据潜在语义角度研究高维多示例数据分类的新模型和新方法,以解决传统方法存在的距离测度无效、学习假设不合理等问题,是分类模型研究的语义升华。本课题三年来主要开展了以下研究内容:首先,提出了基于多示例学习的心肌梗塞检测算法,实现了多示例包有效重构技术,该方法大大提高了传统机器学习方法利用心电图检测检测心肌梗塞病人的准确率。其次,在多示例学习的基础上提出了结合聚类和潜在狄利克雷分配模型的方法来表示ECG中具有相类似语义内容的心跳数据聚类信息。该方法为多个类别心跳提取一组公共的潜在语义特征,同时在此空间中所构建的分类模型即具备语义结构又具备病人自适应性质。第三,本课题提出了基于模型参数信息量的模型参数最优划分方法,从而去除信息量不丰富的参数群,该方法能有效从全局信息中分析高维参数的重要性,从而减小参数的搜索空间。最后,本课题提出了基于情感符号的跨模态情感倾向性学习方法,该方法通过利用数据中与目标相关的无标注信息进行学习,从大量无标注数据中学习与目标空间相近的语义信息空间,并提取鲁棒的语义空间信息表示,最终利用少量标注达到与一定数据规模的有标注数据类似的分类效果。本课题的成功实施,不仅仅在语义层面上构建面向高维多示例数据具有普适性的分类模型和搜索算法,并大大改善对此类数据分类性能,同时将核心算法应用在心肌梗塞病人诊断和用户倾向性分析等方面并取得了良好的效果。
{{i.achievement_title}}
数据更新时间:2023-05-31
论大数据环境对情报学发展的影响
粗颗粒土的静止土压力系数非线性分析与计算方法
基于 Kronecker 压缩感知的宽带 MIMO 雷达高分辨三维成像
小跨高比钢板- 混凝土组合连梁抗剪承载力计算方法研究
中国参与全球价值链的环境效应分析
面向多示例数据的分类和多序列回归算法研究
面向大规模数据的多示例学习
面向多源高维数据流的在线特征选择与分类方法研究
面向多示例数据标注的隐变量支持向量机研究