Distance metrics play a key role for distance-related learning algorithms, and many distance-related learning algorithms depend on a good distance metric to be successful.Compared with distance metrics for numerical attributes, distance metrics for nominal attributes are not relatively wellunderstood. In this project, we work on probability-based distance metrics for nominal attributes. Main research contents include: 1) We take from the attribute independence assumption in the na?ve Bayes model and discuss the influnce of attribute independence assumption to the performance of distance metrics; 2) We investigate the attribute dependence relationships in Bayesian networks and decision tree models, and express the attribute dependence relationships in distance metrics to propose new distance metrics which will show good performance on those datas which have strong dependence relationships between attributes. 3) We study the class probability estimation ability of Bayesian networks and decision tree models, even propose new class probability estimation models, and apply them to calculate the class membership probability on the probabillity-based distance metrics, consequently improve the performance of relevant distance metrics. In this project, we firstly apply Bayesian networks and decision tree models to the study on distance metrics, and give a new way to study distance metrics for nominal attributes, at the same time, promote the application of probability-based distance metrics . It is a work which has important theory and application value.
距离度量是基于距离的机器学习算法的核心所在,很多距离相关的算法都依靠一个好的距离函数获得成功。而名词性属性距离度量相比数值属性距离度量更加复杂。本项目针对基于概率的名词性属性距离度量问题展开研究。研究内容包括:1)以朴素贝叶斯模型的属性独立假设为出发点,理论分析属性独立假设对距离函数的影响;2)借助贝叶斯网络和决策树模型来表达属性之间的依赖关系,并把表达的属性依赖关系引入距离函数中,构造新的距离函数,使之在具有强依赖关系的数据上表现出更好的性能;3)研究贝叶斯网络和决策树模型的类概率估测能力,甚至提出新的类概率估测模型,并利用其来计算基于概率的距离函数中的类成员概率,提高相关距离函数的性能。项目首次利用贝叶斯网络和决策树模型来研究距离度量问题,不仅可以为基于概率的名词性属性距离度量新方法研究提供示例,还可以推动基于概率的距离函数的应用,具有非常重要的理论意义和应用价值。
本项目在执行期间对基于概率的名词性属性距离度量问题进行了系统深入研究,利用名词性属性距离度量与贝叶斯网络的紧密联系,结合一系列改进朴素贝叶斯网络的研究思路改进距离度量学习。提出利用属性选择,属性加权,实例加权,局部学习等各种技术对距离度量进行学习和改进,并在研究过程中对贝叶斯网络相关方面的研究也进行了深入研究。取得的重要进展和学术成果如下:.1. 利用属性选择和属性加权改进距离度量的性能。项目组针对值差度量VDM ,用属性选择方法CFS和SBC-CLL对VDM进行了改进;利用属性变量和类变量之间的相互信息定义了属性的权值,得到了属性加权的值差度量AWVDM。这些成果已经发表在国际期刊JCP和国际会议ICTAI'13上。.2. 通过引入属性依赖关系改进距离度量的性能。借鉴朴素贝叶斯结构扩展的思路,项目组提出一个扩展的基于记忆的推理转换,在这个转换的基础上,提出了一个扩展的值差度量AVDM。该成果已经发表在国际期刊PRL上。.3. 改进基于概率的距离度量中的类概率估测性能。应用SFM和MRM,需要估测类成员概率。项目组研究了扩展的贝叶斯分类器的类概率估测性能,并应用它们去估测SFM和MRM中的类成员概率,提高了SFM和MRM的性能。该成果已发表在国际期刊JETAI上。.4. 利用局部建模技术改进距离度量。项目组结合朴素贝叶斯的局部学习思想和决策树学习,针对VDM提出了一个局部学习的方法,称为局域的值差度量LVDM,该成果发表在国际期刊PRL上。.5. 利用实例加权技术改进距离度量的性能。项目组将朴素贝叶斯的判别实例加权的思想用于距离度量VDM上,提出了实例加权的值差度量IWVDM,该成果发表在国际期刊FCS上。.6. 利用频差构造新的距离度量。在基于概率的距离函数中,条件概率的估测影响了距离计算的速度。而且在实际应用中,当分母为零,或者非常小时,会影响条件概率估测的精确性。项目组针对这些问题,提出了一个新的距离函数:频差度量FDM。该成果发表在国际期刊IJPRAI上。.7. 对贝叶斯网络进行相关研究。针对代价敏感问题,提出了代价敏感的贝叶斯网络分类器;针对类概率估测,提出了超父亲树扩展的朴素贝叶斯方法CLL-SP;针对文本分类,提出了一种结构扩展的多项式朴素贝叶斯模型SEMNB。相关成果发表在PRL,ESWA和Information Science上。
{{i.achievement_title}}
数据更新时间:2023-05-31
基于FTA-BN模型的页岩气井口装置失效概率分析
一种加权距离连续K中心选址问题求解方法
零样本学习综述
基于关系对齐的汉语虚词抽象语义表示与分析
基于相似日理论和CSO-WGPR的短期光伏发电功率预测
基于概率度量空间的词表示及词语相关性度量研究
基于监督的非线性距离度量学习算法研究
基于在线距离度量学习的自适应视觉跟踪方法
基于概率粗糙集模型的属性约简方法研究