垃圾邮件过滤是网络信息处理中的重要问题,基于机器学习方法的垃圾邮件过滤技术是目前的研究热点。现有研究一般将过滤问题视为二值分类问题进行解决,存在着模型优化目标和性能评价指标不一致的问题,导致模型优化结果产生偏差,过滤性能受到很大影响。本课题拟通过直接优化评价指标来提升过滤器性能,将垃圾邮件过滤问题转化成排序问题进行建模,探索基于顺序回归学习的垃圾邮件过滤新模型;拟提出在线顺序逻辑回归学习算法,解决顺序回归学习中的邮件得分偏移问题;综合应用TONE算法和重采样技术,拟提出参数权重更新算法,解决顺序回归学习中在线调整模型参数时的处理速度问题,满足垃圾邮件实时过滤的要求;拟提出基于字节级n元文法的特征提取方法,解决垃圾邮件信息伪装和隐藏的问题。本课题力争在垃圾邮件过滤的理论和方法上有所创新和突破,旨在大幅提高垃圾邮件过滤的性能,推动信息过滤技术的发展。本课题的研究具有重要的学术意义和实践意义。
本课题针对已有研究将过滤问题视为二值分类问题进行解决,存在模型优化目标和性能评价指标不一致的问题,系统性地研究了面向优化目标1-ROCA建模、基于排序策略的垃圾邮件内容过滤方法。构建了基于支持向量机、逻辑回归、贝叶斯等多种机器学习算法的在线过滤模型,解决垃圾邮件的在线实时过滤问题,参加SEWM、CEAS等国内外中英文邮件过滤评测,取得多项第一名的好成绩;1-ROCA是垃圾邮件过滤的核心评价指标,提出了通过直接优化评价指标来提升过滤器性能的新思路,通过对1-ROCA计算公式进行分析,发现将不一致的邮件序对降到最低即可实现对1-ROCA的优化,由此提出了利用排序模型来解决邮件过滤问题的理论框架,将垃圾邮件过滤问题转化成排序问题进行建模,完成了基于排序策略的在线垃圾邮件过滤新模型;在此基础上,我们建立了基于顺序回归学习的垃圾邮件过滤新模型,提出了基于特征的在线顺序逻辑回归算法和基于样本的在线顺序逻辑回归学习算法,解决顺序回归学习中的邮件得分偏移问题,后者得到了更好的邮件过滤性能;综合应用TONE算法和重采样技术,提出基于TONE、基于b-sampling、基于逻辑间隔采样法的样本主动学习算法,基于信息增益的和基于贝叶斯统计的特征选择算法,以及模型参数权重更新算法,降低模型中训练样本和特征的数量,提升模型训练速度,解决顺序回归学习模型中在线调整模型参数时的处理速度问题,满足垃圾邮件实时过滤的要求;提出基于字节级n元文法的特征提取方法和相应自然语言处理技术,解决垃圾邮件信息伪装和隐藏的问题。
{{i.achievement_title}}
数据更新时间:2023-05-31
正交异性钢桥面板纵肋-面板疲劳开裂的CFRP加固研究
基于LASSO-SVMR模型城市生活需水量的预测
小跨高比钢板- 混凝土组合连梁抗剪承载力计算方法研究
基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例
栓接U肋钢箱梁考虑对接偏差的疲劳性能及改进方法研究
层次化海量图像型垃圾邮件过滤体系中的关键问题研究
大规模垃圾邮件过滤中的集成化SVM增量学习机制研究
多目标约束下的回归测试用例优化策略研究
基于GPGPU的软件回归测试用例多目标预优化