There exist a lot of large scale classification problems with class noises in the fields of web page categorization, text categorization, content based video retrieval, offline hand-written character recognition and biological information processing. It is an important issue how to design some effective algorithms to deal with these problems in the fields of data mining and machine learning, and has attracted more and more interests from the researchers around the world in the fields of computer, automation, telecomunication and mathematics. In this proposal, under the theoretical framework of support vector machines, we will do our research work on the following four points to deal with large scale tensor classification problems with class noises: (1) Bulid the support tensor machine models for binary classification problems; (2) Bulid the robust support tensor machine models for medium-sized and small-sized binary classification problems; (3) Design the reduced one-against-all support tensor machine algorithm for multi-class classification; (4) Design the CF-tree clustering and local learning based support tensor machine algorithms for large scale classification problems with class noises, and analyze the error bound of local learning. What is of significance in this proposal will be not only building some support tensor machine models and designing more applicable algorithms to deal with large scale classification problems with class noises, but also making the research contents of data mining and machine learning richer and promoting research and development of machine learning and mathematical theory.
带类噪声的大规模分类问题广泛存在于网页分类、文本分类、基于内容的视频检索、脱机手写体字符识别和生物信息处理等领域,是当前数据挖掘和机器学习领域中的重要研究课题,已引起了国内外计算机、自动化、电信和数学领域研究人员的广泛关注。在本项目中,为了解决带类噪声的大规模张量分类问题,在支持向量机的理论框架下,我们拟开展四个方面的研究工作:(1)针对二分类问题,建立支持张量机模型;(2)针对带类噪声的中小规模二分类问题,建立鲁棒支持张量机模型;(3)针对多分类问题,设计缩减的一对多支持张量机算法;(4)针对带类噪声的大规模分类问题,设计基于CF树聚类和局部学习的支持张量机算法,并分析局部学习的误差界。通过本课题的研究,不仅可以建立相关的支持张量机模型,设计适用性更好的算法,解决实际的带类噪声大规模分类问题,而且可以丰富数据挖掘和机器学习的研究内容,同时还可以推动机器学习和数学理论的发展。
带类噪声的大规模分类问题广泛存在于网页分类、文本分类、图像分类、基于内容的视频检索、人脸识别和脱机手写体字符识别等领域,是当前机器学习、数据挖掘和模式识别领域中的重要研究课题,已引起了国内外计算机、自动化、电信和数学领域研究人员的广泛关注。基于数据的多源、异构和相互关联特性,张量分析技术引起了机器学习、数据挖掘和模式识别领域研究人员的极大兴趣。在本项目中,针对支持向量机,课题组对与分解算法、最小二乘支持向量机、多分类、模糊支持向量机、在线学习和大规模分类相关的优秀成果进行了归纳和整理,从数学上对相关算法的原理进行了详细分析,在科学出版社出版了学术专著《支持向量机的算法设计与分析》。该专著纳入到了信息与计算科学丛书中,得到了国家出版基金的资助。为了解决带类噪声的大规模张量分类问题,在支持向量机的理论框架下,我们主要研究了有监督张量学习、半监督张量学习、带类噪声的张量学习、大规模张量分类、张量的核函数构造、张量的特征选择、张量完全和多分类,提出了基于CP分解的线性支持高阶张量机模型、基于张量低秩近似的半监督张量分类模型、鲁棒支持张量机模型、在线支持张量机、基于树分解的大规模半监督学习算法、结构保持的张量核函数、基于遗传算法的张量特征选择算法、基于张量分解的缺失数据补全算法和缩减的一对多分类算法,在IEEE Transactions on Image Processing、Neurocomputing、Applied Mathematics and Computation、Soft Computing、ICDM、SDM、PAKDD、 ECML/PKDD、Lecture Notes on Computer Science、Journal of the Operations Research Society of China、《模式识别与人工智能》、《计算机科学与探索》等国内外的主流杂志和国际学术会议上发表了19篇学术论文,其中SCI和EI收录14篇,被国内外同行引用12篇,共120余次。对于课题组所建立的支持张量机模型,当输入模式为向量时,它们均可以退化到支持向量机模型,因此具有更好的适用性。我们的研究成果获得了2013年广东省自然科学二等奖和2015年广东省科技进步一等奖。课题组的研究不仅丰富了数据挖掘和机器学习的研究内容,同时还为数学提出了一些新的问题。
{{i.achievement_title}}
数据更新时间:2023-05-31
基于LASSO-SVMR模型城市生活需水量的预测
基于SSVEP 直接脑控机器人方向和速度研究
自然灾难地居民风险知觉与旅游支持度的关系研究——以汶川大地震重灾区北川和都江堰为例
基于分形维数和支持向量机的串联电弧故障诊断方法
多源数据驱动CNN-GRU模型的公交客流量分类预测
大规模张量特征值问题的优化算法研究
两类带先验信息的张量分解问题的研究
类噪声环境下特征选择算法研究
面向多视角多标签数据的支持张量机分类算法研究