用聚类的方法分析处理海量的文本信息是数据挖掘、知识管理及信息抽取等领域中的重要问题。同时越来越多的应用要求聚类算法能结合已知的背景知识得到更符合用户需求的聚类结果。利用领域专家提供的先知信息来改善无监督聚类算法的性能已成为最近机器学习领域的一个研究方向。然而现有的半监督学习算法不能有效地利用领域专家提供的类模式层次上的先知信息(主题知识),也不能适用于海量文本信息的处理。我们研究的目的就是更有效地创建领域专家主题知识的模型,并设计出可利用该模型并应用到海量文本上的高性能半监督聚类算法。我们的研究重点放在划分式及凝聚式聚类方法,通过设计新的目标函数来来描述领域专家的知识与需求,并设计由主题知识引导下的特征选择技术来进一步改善算法的性能。研究成果可以运用到知识管理、信息抽取以及生物信息等领域。
{{i.achievement_title}}
数据更新时间:2023-05-31
EBPR工艺运行效果的主要影响因素及研究现状
基于铁路客流分配的旅客列车开行方案调整方法
现代优化理论与应用
基于直观图的三支概念获取及属性特征分析
城市生活垃圾热值的特征变量选择方法及预测建模
基于信息融合的生物医学文本高性能聚类研究
基于谱聚类的文本聚类集成方法研究
基于图论模型的文本重叠聚类研究
基于语义的中文文本聚类研究