对非结构化数据的充分开发和利用已成为当前智能信息处理领域中研究的热点之一。粒度计算以其独特的优势在此领域中发挥了重要的作用。但在以海量性、高维性、不完备性、不一致性等特性为主要特征的非结构化数据环境下现有粒度计算方法暴露了其对复杂问题求解能力的不足,极大限制了其进一步的发展和应用。本项目将对基于信息系统的知识空间进行拓扑粒化建模,抽取知识空间的本质数学模型- - 拓扑空间,基于此空间的相关数学性质并依据人的认知机理,建立基于认知机理的拓扑化粒度计算模型;然后在该模型框架下,研究不一致不完备信息系统中知识约简的定义及其关联;最后基于拓扑化粒度计算模型提出非结构化数据环境下高效知识约简和知识获取的新方法,给出面向不确定性知识获取的分析理论,并实现一个知识获取原型系统。.最终目标是为非结构化数据环境下的高效知识约简和知识获取提供一套有效的理论和方法,为非结构化数据的充分开发和利用提供方法和技术支撑。
对非结构化数据的充分开发和利用已成为当前智能信息处理领域中的研究热点之一。粒度计算以其独特的优势在此领域中发挥了重要的作用。但在以海量性、高维性、不完备性、不一致性等特性为主要特征的非结构化数据环境下现有粒度计算方法暴露了其对复杂问题求解能力的不足。本项目深入研究非结构化数据的建模方法及其表示模型,然后通过探讨相容关系下的粒化方法,拓展现有的粒度计算理论,重点研究面向不完备、不一致数据的有关知识约简和知识获取的理论、方法和技术,实现对非结构化数据的深层次理解,为非结构化数据的充分开发和利用提供方法和技术支撑。. 本项目主要贡献在于,(1)深入研究了非结构化数据的若干重要表示模型,为非结构化数据的有效处理奠定基础。(2)通过拓扑粒化方法,研究基于决策系统的知识空间的结构特征,建立有关代数系统,导出了一系列重要性质,从理论上剖析了基于决策系统进行知识获取的机理,为知识获取方法的设计提供理论指导。(3)建立了不完备、不一致决策系统的约简概念体系并分析其性质,找到了不同约简概念之间的关系,进而对这些约简概念进行分类并按照不同类别分别给出了相应的约简计算方法和分析理论。这一成果比较彻底、系统地解决了不完备、不一致决策系统的约简问题,为以不完备、不一致决策系统为特征模型的“低质”数据的开发和利用提供了方法支撑。(4)针对数值型决策系统,提出自适应粒化方法,进而提出基于相容粒度空间模型的自适应图像语义分类方法。这种方法对任何能建模为数值型决策系统的分类问题都适用。(5)针对离散型决策系统,提出一种相容粒框架计算模型,它在理论上较好解决了不完备不一致决策系统的规则获取问题。(6)基于向量空间模型,从多角度、多侧面研究文本分类及相关问题,提出语义和信息增益相结合的TFIDF 改进算法、基于语义相似的改进KNN算法、基于快速估计的相关向量机优化算法,提出面向核空间的嵌套模板蚁群聚类算法并用于改进SVM分类器的训练。这些成果为网络文本分类和预测问题提供面向多种应用的有效解决方案。(7)基于网络表示模型,从话题表示、词共现语义关联、相容块技术等多种角度和侧面出发,通过网络分解原理,提出一系列新的、用于话题检测的网络文本聚类方法,实现对非结构化数据的深层次理解。(8)集成提出的方法,开发了一套知识获取原型系统,既是对提出理论、算法的检验,也是后续研究和已有成果拓展的实验平台。
{{i.achievement_title}}
数据更新时间:2023-05-31
涡度相关技术及其在陆地生态系统通量研究中的应用
论大数据环境对情报学发展的影响
环境类邻避设施对北京市住宅价格影响研究--以大型垃圾处理设施为例
伴有轻度认知障碍的帕金森病~(18)F-FDG PET的统计参数图分析
低轨卫星通信信道分配策略
大数据环境下基于量子计算的非结构化数据关键问题的研究
多粒度标记数据的知识表示和知识获取研究
面向非结构化文本的领域知识获取方法的研究
面向领域用户知识发现的数据结构化建模与多粒度融合