Current infectious disease surveillance in China needs urgent improvement. The contradiction between various complex hazard factors and the availability of data has become a huge obstacle for efficient analyses of data to improve the prevention and control of infectious diseases. In order to grasp the epidemic pattern of infectious disease in an efficient and reliable way, it is necessary to extract more abundant and accurate information from limited and even insufficient surveillance data than traditional methods. Therefore, from the perspective of statistical modelling, this research will transfer the above contradiction into the latent-variable problem in time series analysis, and make step-by-step discussions centered on how to avoid latent-variable problem in data-collecting stage, as well as how to identify and analyze it in modelling stage. During the whole process, this study will apply the knowledge discovery technique based on linked data to improve the timeliness and completeness of data collection, and the causality network graph to identify latent-variable problem. In addition, according to the characteristic of infectious disease surveillance data, this research will study and propose a new latent-variable nonlinear vector auto-regressive model for the first time, and study the nonlinear structure, parameter identification and algorithm convergence. Finally, the research will summarize the whole modelling process into a systematic way to improve its practical value in the work of infectious disease surveillance.
目前我国传染病监测体系亟待完善,传染病传播流行危险因素的多样复杂化与监测局限性及数据可获得性之间的矛盾,成为有效分析利用监测数据来指导防控工作的巨大障碍。为了可靠掌握传染病传播流行规律,有必要研究如何从有限甚至不完整的监测数据中挖掘出比常规监测方法更丰富和更准确的信息。因此,本项目拟从统计建模的角度出发,将该矛盾转化为时间序列分析的潜变量问题,并围绕如何在数据收集中避免潜变量、如何在建模过程中识别和分析潜变量问题展开递进式研究。拟采用基于关联数据的知识发现技术提高数据收集的及时性和完整性;运用因果关系网状图识别潜变量问题;针对传染病监测数据特征,首次研究并提出潜变量非线性向量自回归模型,并对模型的非线性结构、参数可识别性和算法收敛性等问题进行方法学研究。在此基础上,本项目拟将整个建模过程归纳凝练为体系化和流程化的分析方案,以提高模型在传染病监测工作中的实用价值。
准确和高效的传染病监测是实现精准防控的重要基础。本项目在综合利用网络直报的传染病数据以及大量相关影响因素数据(包括气象因素和社会经济因素等)的基础上,根据多元时间序列模型的理论框架,针对潜变量问题和数据非线性结构提出了潜变量非线性向量自回归模型,对探索传染病的危险因素和识别及处理时间序列建模过程中的潜变量和非线性问题进行了研究。在研究过程中,涉及到的关键技术问题主要包括数据非线性结构的函数刻画、模型参数的可识别性以及算法的收敛性。针对上述问题,本项目分别采用关联数据的知识发现技术、因果关系网状图和潜变量非线性向量自回归等方法构建了相应的解决方案。在研究过程中发现,采用TF*IDF和LLR等算法构建的知识发现网络,能够描述传染病监测领域的发展变化趋势,并且该网络中的关键点和关键路径有助于提示与该传染病相关的重大事件(如暴发、控制或消灭等);在此基础上,采用以因果关系网状图为拓扑结构的动态贝叶斯网络图有助于通过因果推断的方式(如最小充分调整集的确定以及前门准则等)识别和控制潜变量造成的偏倚;进一步地,采用动态贝叶斯网络模型还可以结合传染病的“内因”(如疾病历史变化趋势)和“外因”(外界影响因素)等多方面数据,对传染病的未来发病趋势进行准确而精密地预测。模拟研究结果显示,当样本含量较大时(n≥340),动态贝叶斯网络的真阳性率≥98%;样本含量的大小对识别变量间的关系非常重要;采用动态贝叶斯网络模型可降低7%的预测误差。此外,实证研究结果还发现,基于动态贝叶斯网络模型和向量自回归模型联合构建的CVAR模型在处理潜变量和非线性问题等方面都比传统多元时间序列分析模型表现出更好的准确性和精确性。上述研究结果不仅有助于在一定程度上解决传染病监测体系中存在的危险因素多样复杂化和监测局限性及数据可获得性的矛盾,而且研究方法及相关程序的实现还可为其他健康事件研究提供理论与技术参考。
{{i.achievement_title}}
数据更新时间:2023-05-31
涡度相关技术及其在陆地生态系统通量研究中的应用
粗颗粒土的静止土压力系数非线性分析与计算方法
中国参与全球价值链的环境效应分析
基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例
基于细粒度词表示的命名实体识别研究
基于潜变量模型对有序分类数据的统计推断
两类带有潜变量的金融时间序列模型研究及其在行为金融中的应用
含潜变量的风险回归分析
基于多维潜变量模型和数据挖掘的溃疡性结肠炎中医证候量化方法学研究