基于矩阵低秩近似的大规模文本聚类集成方法研究

基本信息
批准号:61105057
项目类别:青年科学基金项目
资助金额:22.00
负责人:徐森
学科分类:
依托单位:盐城工学院
批准年份:2011
结题年份:2014
起止时间:2012-01-01 - 2014-12-31
项目状态: 已结题
项目参与者:陈荣,李先锋,徐静,曹妍,王榕,曹瑞
关键词:
聚类集成共识函数设计数据挖掘成员生成聚类分析
结项摘要

聚类分析是数据挖掘、机器学习等方向的重要研究内容之一,已被广泛用于数据压缩、信息检索、图像分割和文本聚类等领域。作为传统聚类算法的重要扩展,聚类集成技术具备诸多优点,已成为机器学习领域的研究热点之一,其中的关键问题在于如何将聚类成员组合为更加优越的结果。现有的聚类集成技术尚不能同时满足速度快、效果好的要求。本课题重点研究文本聚类集成中的共识函数设计问题,首先从子空间相似度的角度形式化描述该问题,并从矩阵Frobenius范数低秩近似的角度进行求解,从而设计出高效率、高质量的大规模文本聚类集成模型。主要研究内容包括:(1)文本聚类成员产生方法研究;(2)共识函数设计问题形式化描述方法研究;(3)基于矩阵Frobenius范数低秩近似的共识函数设计方法研究。本课题的研究成果可用于文本摘要、语义分析和信息检索等多个应用领域。因而,本课题的开展具有重要的理论意义和实际应用价值,具有广阔的应用前景。

项目摘要

聚类分析是数据挖掘、机器学习等方向的重要研究内容之一,已被广泛用于数据压缩、信息检索、图像分割和文本聚类等领域。作为传统聚类算法的重要扩展,聚类集成技术具备诸多优点,已成为机器学习领域的研究热点之一,其中的关键问题在于如何将聚类成员组合为更加优越的结果。现有的聚类集成技术尚不能同时满足速度快、效果好的要求。本课题重点研究文本聚类集成中的共识函数设计问题,取得的创新性研究成果包括:(1)首先将聚类集成问题归结为直观的最佳子空间的求解问题;随后根据线性代数理论将该问题描述为带约束条件的优化问题,通过放松离散约束条件进一步约简为矩阵低秩近似问题;最后通过求解超图的加权邻接矩阵的奇异值分解问题获得最佳子空间的一组标准正交基。据此,设计了一个基于矩阵低秩近似的算法,该算法根据每个对象在低维空间下的坐标使用K均值算法进行聚类,从而得到最终的结果。(2)设计了基于谱聚类的聚类集成算法。该算法首先利用谱聚类算法的内在特性构造多样性的聚类成员,然后采用连接三元组算法计算相似度矩阵,扩充了数据点之间的相似性信息,最后对相似度矩阵使用谱聚类算法得到最终的集成结果。为使算法能扩展到大规模应用,利用NystrÖm采样算法只计算随机采样数据点之间以及随机采样数据点与剩余数据点之间的相似度矩阵,从而有效降低了算法的计算复杂度。该算法既利用了谱聚类算法的优越性能,同时又避免了精确选择尺度参数的问题。(3)设计了一种聚类集成算法,它结合了K均值算法与基于拉普拉斯矩阵的谱聚类算法,充分利用了聚类成员提供的属性信息与关系信息。为了有效降低该算法的计算复杂度,通过代数变换方法有效避免了大规模矩阵的特征值分解问题。在多组基准数据集上的实验结果表明:较之于传统的聚类集成算法,本项目设计的算法获得了更好的聚类结果,且效率较高。本项目研究成果包括:发表及录用期刊论文18篇、会议论文4篇,其中SCI收录4篇、EI收录15篇;申请国家发明专利5项;获批国家软件著作权5项。

项目成果
{{index+1}}

{{i.achievement_title}}

{{i.achievement_title}}

DOI:{{i.doi}}
发表时间:{{i.publish_year}}

暂无此项成果

数据更新时间:2023-05-31

其他相关文献

1

论大数据环境对情报学发展的影响

论大数据环境对情报学发展的影响

DOI:
发表时间:2017
2

硬件木马:关键问题研究进展及新动向

硬件木马:关键问题研究进展及新动向

DOI:
发表时间:2018
3

拥堵路网交通流均衡分配模型

拥堵路网交通流均衡分配模型

DOI:10.11918/j.issn.0367-6234.201804030
发表时间:2019
4

F_q上一类周期为2p~2的四元广义分圆序列的线性复杂度

F_q上一类周期为2p~2的四元广义分圆序列的线性复杂度

DOI:10.11999/JEIT210095
发表时间:2021
5

滚动直线导轨副静刚度试验装置设计

滚动直线导轨副静刚度试验装置设计

DOI:
发表时间:2017

徐森的其他基金

相似国自然基金

1

基于矩阵低秩近似的大规模核/度量学习研究

批准号:61179040
批准年份:2011
负责人:周水生
学科分类:F0113
资助金额:52.00
项目类别:面上项目
2

基于秩一近似的大规模矩阵优化算法及其应用

批准号:61402182
批准年份:2014
负责人:袁淦钊
学科分类:F0605
资助金额:24.00
项目类别:青年科学基金项目
3

基于谱聚类的文本聚类集成方法研究

批准号:60975042
批准年份:2009
负责人:卢志茂
学科分类:F0603
资助金额:32.00
项目类别:面上项目
4

基于低秩张量近似的图像估计

批准号:61602091
批准年份:2016
负责人:刘翼鹏
学科分类:F0210
资助金额:21.00
项目类别:青年科学基金项目