垃圾邮件过滤的优化目标、建模及顺序回归研究

基本信息
批准号:60903083
项目类别:青年科学基金项目
资助金额:18.00
负责人:孙广路
学科分类:
依托单位:哈尔滨理工大学
批准年份:2009
结题年份:2012
起止时间:2010-01-01 - 2012-12-31
项目状态: 已结题
项目参与者:齐浩亮,薛一波,郎非,韩咏,张艳艳,李城龙,李博涵,殷丽凤,李松
关键词:
顺序回归垃圾邮件过滤在线顺序逻辑回归学习算法字节级n元文法评价指标优化
结项摘要

垃圾邮件过滤是网络信息处理中的重要问题,基于机器学习方法的垃圾邮件过滤技术是目前的研究热点。现有研究一般将过滤问题视为二值分类问题进行解决,存在着模型优化目标和性能评价指标不一致的问题,导致模型优化结果产生偏差,过滤性能受到很大影响。本课题拟通过直接优化评价指标来提升过滤器性能,将垃圾邮件过滤问题转化成排序问题进行建模,探索基于顺序回归学习的垃圾邮件过滤新模型;拟提出在线顺序逻辑回归学习算法,解决顺序回归学习中的邮件得分偏移问题;综合应用TONE算法和重采样技术,拟提出参数权重更新算法,解决顺序回归学习中在线调整模型参数时的处理速度问题,满足垃圾邮件实时过滤的要求;拟提出基于字节级n元文法的特征提取方法,解决垃圾邮件信息伪装和隐藏的问题。本课题力争在垃圾邮件过滤的理论和方法上有所创新和突破,旨在大幅提高垃圾邮件过滤的性能,推动信息过滤技术的发展。本课题的研究具有重要的学术意义和实践意义。

项目摘要

本课题针对已有研究将过滤问题视为二值分类问题进行解决,存在模型优化目标和性能评价指标不一致的问题,系统性地研究了面向优化目标1-ROCA建模、基于排序策略的垃圾邮件内容过滤方法。构建了基于支持向量机、逻辑回归、贝叶斯等多种机器学习算法的在线过滤模型,解决垃圾邮件的在线实时过滤问题,参加SEWM、CEAS等国内外中英文邮件过滤评测,取得多项第一名的好成绩;1-ROCA是垃圾邮件过滤的核心评价指标,提出了通过直接优化评价指标来提升过滤器性能的新思路,通过对1-ROCA计算公式进行分析,发现将不一致的邮件序对降到最低即可实现对1-ROCA的优化,由此提出了利用排序模型来解决邮件过滤问题的理论框架,将垃圾邮件过滤问题转化成排序问题进行建模,完成了基于排序策略的在线垃圾邮件过滤新模型;在此基础上,我们建立了基于顺序回归学习的垃圾邮件过滤新模型,提出了基于特征的在线顺序逻辑回归算法和基于样本的在线顺序逻辑回归学习算法,解决顺序回归学习中的邮件得分偏移问题,后者得到了更好的邮件过滤性能;综合应用TONE算法和重采样技术,提出基于TONE、基于b-sampling、基于逻辑间隔采样法的样本主动学习算法,基于信息增益的和基于贝叶斯统计的特征选择算法,以及模型参数权重更新算法,降低模型中训练样本和特征的数量,提升模型训练速度,解决顺序回归学习模型中在线调整模型参数时的处理速度问题,满足垃圾邮件实时过滤的要求;提出基于字节级n元文法的特征提取方法和相应自然语言处理技术,解决垃圾邮件信息伪装和隐藏的问题。

项目成果
{{index+1}}

{{i.achievement_title}}

{{i.achievement_title}}

DOI:{{i.doi}}
发表时间:{{i.publish_year}}

暂无此项成果

数据更新时间:2023-05-31

其他相关文献

1

正交异性钢桥面板纵肋-面板疲劳开裂的CFRP加固研究

正交异性钢桥面板纵肋-面板疲劳开裂的CFRP加固研究

DOI:10.19713/j.cnki.43-1423/u.t20201185
发表时间:2021
2

基于LASSO-SVMR模型城市生活需水量的预测

基于LASSO-SVMR模型城市生活需水量的预测

DOI:10.19679/j.cnki.cjjsjj.2019.0538
发表时间:2019
3

小跨高比钢板- 混凝土组合连梁抗剪承载力计算方法研究

小跨高比钢板- 混凝土组合连梁抗剪承载力计算方法研究

DOI:10.19701/j.jzjg.2015.15.012
发表时间:2015
4

基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例

基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例

DOI:
发表时间:2022
5

栓接U肋钢箱梁考虑对接偏差的疲劳性能及改进方法研究

栓接U肋钢箱梁考虑对接偏差的疲劳性能及改进方法研究

DOI:10.3969/j.issn.1002-0268.2020.03.007
发表时间:2020

孙广路的其他基金

相似国自然基金

1

层次化海量图像型垃圾邮件过滤体系中的关键问题研究

批准号:61171193
批准年份:2011
负责人:严寒冰
学科分类:F0116
资助金额:60.00
项目类别:面上项目
2

大规模垃圾邮件过滤中的集成化SVM增量学习机制研究

批准号:60970081
批准年份:2009
负责人:徐从富
学科分类:F06
资助金额:31.00
项目类别:面上项目
3

多目标约束下的回归测试用例优化策略研究

批准号:61103045
批准年份:2011
负责人:章晓芳
学科分类:F0203
资助金额:22.00
项目类别:青年科学基金项目
4

基于GPGPU的软件回归测试用例多目标预优化

批准号:61170082
批准年份:2011
负责人:李征
学科分类:F0203
资助金额:58.00
项目类别:面上项目