On the one hand, compared with the Cox regression model, the support vector machine(SVM) has many advantages, such as no requirement of priori knowledge, the ability to handle small samples, nonlinear learning, over-fitting, curse of dimensionality, the generalization ability and global optimization. On the other hand, the traditional SVM can not deal with the survival data with the censored data.Therefore, the research of the survival analysis method based on the support vector has important theoretical and practical significance..In this project, the mathematical model for censored data, which is based on the principle of Structural Risk Minimization(SRM), will be firstly constructed according to the traditional SVM. Subsequently, we will try to construct new kernel function, or amend the existing kernel functions. From all of these kernel functions, which include the three commonly used kernel function, the two optimum kernel functions will be chosen to improve the performance of the algorithms. In addition, the candidate algorithms will be composed of the two optimum methods and Cox regression model. Artificially controlling the censored proportion, the statistical simulation data will be constructed. Through the statistical simulation numerical experiments, the relationship between the performance of the candidate algorithms and the censored proportions will be analyzed. According to the results of the numerical experiments, the optimal algorithm will be selected. Finally, the optimal algorithm will be applied to two practical problems to evaluate the effectiveness of the algorithm.
一方面支持向量机方法较传统的Cox回归模型,具有不需要先验知识、能解决小样本、非线性、过拟合、维数灾难,并且具有推广能力强、全局最优等明显优势;另一方面,传统的支撑向量机方法只能处理完全数据,不能处理包含删失数据的生存数据。 因此,基于支撑向量的生存分析的研究具有重要的理论与实际意义。.本课题首先根据传统的支撑向量机方法,基于结构风险最小化原则,构建能够处理删失数据的数学模型;其次,以常用的三种核函数、构建的新核函数或者修正现有的核函数为候选核函数,从中选取较优者,以提高算法的性能;再次,通过统计模拟数据,人为控制数据的删失比例,通过数值实验,分析不同删失比例下较优的支撑向量机的算法与传统的Cox回归模型的性能,通过综合比较产生最优的算法;最终根据最优的算法,形成一套完整的处理生存数据的方法,并运用于解决两个实际问题,以通过实际问题检验算法的有效性。
本课题首先基于结构风险最小化原则,构建了能够处理删失数据的数学模型;再利用凸二次规划算法,求解该模型,利用不同的核函数建立了基于支撑向量的生存分析的模型;采用生存分析常用的指数分布、Weibull 分布和Gompertz 分布产生生存时间数据,利用各种不同的连续和离散分布产生不同的协变量,并构建不同删失比例的模拟数据,采用C-index作为评价指标对多种不同的核函数,以及传统的Cox回归模型进行评价。其中Gaussian核构建的基于支撑向量的生存分析模型的性能最优,而且效果评价显示基于结构风险最小化构建的生存分析的模型效果优于传统的Cox回归模型,而且在不同的删失比例和样本容量中表现更为稳定。基于支撑向量的模型,随着协变量数量的增加,性能有明显提高,而传统的Cox回归模型性能变化不大,因此基于支撑向量的模型在协变量数据较多时,具有明显的优势。同时数据显示,删失比例对于各种模型的性能均有一定的影响,删失比例越高性能有下降的趋势。但样本容量对于各种模型的性能影响不太显著,但会大大增加模型的计算时间,尤其是基于支撑向量的生存模型的计算时间。通过模拟数据进行比较后,最后将各种模型用于分析颅脑损伤的住院时间的实际数据,将治愈出院的病人作为完整数据;而“好转出院”和“未愈出院”视为病人未达到“治愈出院”而结束观察,因此在此作为“删失值”处理。依据相关论文,分别选择了未经筛选的10个协变量和筛选后的4个协变量,分别构建模型。在两个不同的模型下,对各种模型的性能也进行了比较,结果详见报告正文。在完成了基于支撑向量的生存分析的方法的基础上,利用基于支撑向量的机器学习的方法,结合项目负责人学校的背景和优势,项目组也开展了基于支撑向量的方法在蛋白质功能预测方面的应用研究。我们结合不同的数学方法,对蛋白质序列进行特征提取,利用基于支撑向量的方法,对可溶蛋白、DNA-binding蛋白进行功能预测,得到了理想的预测准确度和效果。
{{i.achievement_title}}
数据更新时间:2023-05-31
玉米叶向值的全基因组关联分析
论大数据环境对情报学发展的影响
正交异性钢桥面板纵肋-面板疲劳开裂的CFRP加固研究
硬件木马:关键问题研究进展及新动向
基于LASSO-SVMR模型城市生活需水量的预测
协变量缺失时生存数据回归分析的方法、理论与应用
非线性分析方法在向量优化研究中的应用
支撑向量机的模型选择与整体优化问题研究
基于随机Petri网的网络可生存性模型与分析方法