数据信息蕴涵了许多规律性知识,基于数据的建模方法以其独有的"数据为自身说话"的特点已成为描述社会各领域变化的重要途径之一。然而,目前数据建模方法大多依赖于精确的数值数据,对于包含数值、分类等多种类型异构的数据建模问题往往按分类变量组合建立多个模型,造成训练数据分布不均匀、不连续和模型组合爆炸问题。本项目研究基于特征区域划分的混杂异构数据建模问题,从构建适应不同类型数据的变输入层模糊推理系统结构着手,分别采用分类数据编码器+激励转换矩阵方式实现分类数据激励强度的计算;采用特征提取函数+数据混杂度评价方式实现混杂数据区域自适应划分,完成数值数据对应模糊化后隶属度值与分类数据共同确定模糊规则的激励强度,实现数值与分类数据合理有效的集成。本项目旨在解决工业生产过程中普遍存在的混杂异构数据建模问题,为混杂异构数据建模提供系统的、有效的解决方法,为工业过程建模与优化控制问题研究提供理论基础和解决途径。
随着数据产生成本的急速下降,人类社会产生的数据不仅以指数级别增长,而且数据的结构变得日趋复杂,在实际应用中数据信息往往不会以单一的数值型数据出现,有可能是包含数值/分类等多种类型的异构数据,这些异构数据中的非数值数据不同于传统数值型数据,它们可以是离散的、多值、无序的并且其中可能存在关联关系。以往普遍采用的分类数据编码与子模型组合的方式建立模型,易出现输入空间不连续和组合爆炸等问题,使得数据分析和数据建模的应用遇到了极大挑战。本项目构建了适应不同类型数据的变输入层模糊神经网络模型,分别采用非欧氏距离度量+特征提取函数实现混杂数据区域自适应划分,采用广义回归方程+激励强度转换矩阵实现分类数据激励强度的计算,完成数值数据对应模糊化后隶属度值与分类数据共同确定模糊规则的激励强度,建立数值与分类数据混合的数据模型。本项目的主要研究工作包括:(1)在分析混杂数据分布特征的基础上,提出一种基于数据分散度的度量方法。利用数据集的分布特征和维数信息,建立数据分散度的衡量指标,对混杂数据集的分散程度进行定量分析;(2)提出一种基于非欧氏距离的区域划分方法,采用一种非欧氏距离函数作为相似度度量,降低噪声和孤立点数据对划分结果敏感程度,增强算法的鲁棒性。同时采用基于改进划分系数的有效性函数获得最佳聚类数;(3)提出一种基于特征聚类数据划分的多神经网络建模方法。通过构造特征函数实现样本数据的聚类划分,将样本数据集划分成多组训练数据,并采用径向基神经网络建立子模型,然后以总均方差最小为目标,实现多神经网络模型的自适应加权,获得整个模型的输出,提高模型精度和鲁棒性;(4)提出一种变输入层模糊神经网络模型。通过模糊规则的激励强度,将数值变量和分类变量结合起来,实现数值与分类异构数据的集成。其模型中数值数据经过隶属度函数计算模糊规则激励强度,而分类数据则经过广义回归模型和激励强度转换矩阵计算模糊规则激励强度,最后将数值数据与分类数据所对应模糊规则的激励强度合并形成总的模型输出,从而实现数值数据与分类数据共同影响模型输出。
{{i.achievement_title}}
数据更新时间:2023-05-31
基于分形L系统的水稻根系建模方法研究
论大数据环境对情报学发展的影响
农超对接模式中利益分配问题研究
特斯拉涡轮机运行性能研究综述
拥堵路网交通流均衡分配模型
基于隐特征抽取的异构数据分类方法研究
动态系统故障机理的混杂特征及其建模方法
基于多个异构社交网络数据分析的用户建模及其应用
高维数据建模与分析的若干问题