基于集成学习的网页链接作弊检测

基本信息
批准号:61300190
项目类别:青年科学基金项目
资助金额:22.00
负责人:刘馨月
学科分类:
依托单位:大连理工大学
批准年份:2013
结题年份:2016
起止时间:2014-01-01 - 2016-12-31
项目状态: 已结题
项目参与者:张宪超,王智慧,徐秀娟,史哲文,申华,秦静,韩敏,牟南,赵龙
关键词:
信任(不信任)传播自动算法半自动算法集成学习网页作弊
结项摘要

Web page spam causes huge losses to both search engine providers and users, and link spam is the most harmful. Semi-automatic link spam detection algorithms propagate human-identified spam information, but neglect many features of spam pages; Automatic algorithms use partial features and detect spam with machine learning or graph regulation techniques, but neglect other features and human judgement. In brief, existing algorithms can not make use of overall information, show weak detection abilities and meet with performance bottleneck. Based on our large amount of previous reseach, in this project, we use ensemble learning theory to solve the link spam detection problem. Firstly, we propose ensemble schemes of automatic spam detection algorithms, which make full use of spam page features and integrate the detection abilities of all kinds of automatic algorithms; Secondly, we propose synchronous propagation schemes of trust and distrust, which make full use of information provided by both good and bad seeds, and integrate the abilities of both trust propagation and distrust propagation; Finally, we propose combination schemes of automatic and semi-automatic algorithms, which integrate statical features of spam pages and human judgements,thus fuse all kinds of information for spam detection. With efforts made during the research this project, a fairly completed theoretical system of ensemble learning based link spam detection will be established, the difficulities of partial information and onefold algorithm will be overcomed and the spam detection precision will be significantly improved.

网页作弊给搜索引擎和用户带来巨大损失,尤以链接作弊危害严重。半自动链接作弊检测算法传播人工判别的作弊信息,但忽略了作弊网页的很多特征;自动算法使用作弊网页的部分特征,通过机器学习、图正规化等进行检测,但忽略了其它特征和人工判别能力。总之,现有算法使用信息不够全面,检测能力较弱,性能已遭遇瓶颈。针对现有算法的困难,本项目在我们前期大量研究基础上,使用集成学习理论解决链接作弊检测问题。首先提出自动作弊检测算法集成方案,充分利用作弊网页各种特征,集成各种算法的检测能力;其次提出信任和不信任同步传播策略,充分利用好种子和坏种子的信息,集成信任传播和不信任传播的检测能力;最后提出自动算法和半自动算法集成方案,将作弊网页的统计特征和人工判别能力充分结合,全方位挖掘各类信息用于作弊检测。本项研究将形成基于集成学习的链接作弊检测较完善的理论体系,克服片面信息和单一算法的困难,使作弊检测精度获得实质性提高。

项目摘要

网页作弊给搜索引擎和用户带来巨大损失,尤以链接作弊危害严重。半自动链接作弊检测算法传播人工判别的作弊信息,但忽略了作弊网页的很多特征;自动算法使用作弊网页的部分特征,通过机器学习、图正规化等进行检测,但忽略了其它特征和人工判别能力。总之,现有算法使用信息不够全面,检测能力较弱,性能已遭遇瓶颈。针对现有算法的困难,本项目在我们前期大量研究基础上,使用集成学习理论解决链接作弊检测问题。首先提出自动作弊检测算法集成方案,充分利用作弊网页各种特征,集成各种算法的检测能力;其次提出信任和不信任同步传播策略,充分利用好种子和坏种子的信息,集成信任传播和不信任传播的检测能力;最后提出自动算法和半自动算法集成方案,将作弊网页的统计特征和人工判别能力充分结合,全方位挖掘各类信息用于作弊检测。主要创新成果包括:提出信任和不信任同步传播网页作弊监测算法;提出基于社区发现的信任区分传播模型;提出基于多视角学习的社交作弊监测算法;提出社交作弊监测的半监督框架;提出首个社交作弊联盟监测框架。在TKDE、TWEB等国际期刊和AAAI、ICDM等国际会议上发表论文16篇。解决了网页作弊和社交作弊领域大量挑战性问题,克服了现有算法很多困难,圆满地达到项目预期目标。

项目成果
{{index+1}}

{{i.achievement_title}}

{{i.achievement_title}}

DOI:{{i.doi}}
发表时间:{{i.publish_year}}

暂无此项成果

数据更新时间:2023-05-31

其他相关文献

1

基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例

基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例

DOI:
发表时间:2022
2

惯性约束聚变内爆中基于多块结构网格的高效辐射扩散并行算法

惯性约束聚变内爆中基于多块结构网格的高效辐射扩散并行算法

DOI:10.19596/j.cnki.1001-246x.8419
发表时间:2022
3

物联网中区块链技术的应用与挑战

物联网中区块链技术的应用与挑战

DOI:10.3969/j.issn.0255-8297.2020.01.002
发表时间:2020
4

基于协同表示的图嵌入鉴别分析在人脸识别中的应用

基于协同表示的图嵌入鉴别分析在人脸识别中的应用

DOI:10.3724/sp.j.1089.2022.19009
发表时间:2022
5

一种改进的多目标正余弦优化算法

一种改进的多目标正余弦优化算法

DOI:
发表时间:2019

刘馨月的其他基金

相似国自然基金

1

作弊环境下的网页排序问题研究

批准号:61103138
批准年份:2011
负责人:靳小波
学科分类:F0605
资助金额:21.00
项目类别:青年科学基金项目
2

多模态Web作弊检测的统计机器学习方法研究

批准号:61005029
批准年份:2010
负责人:耿光刚
学科分类:F0603
资助金额:20.00
项目类别:青年科学基金项目
3

基于表示学习的RDF数据链接方法研究

批准号:61872172
批准年份:2018
负责人:胡伟
学科分类:F0203
资助金额:63.00
项目类别:面上项目
4

基于深度集成学习的多模态肺结节检测研究

批准号:61902282
批准年份:2019
负责人:武盼盼
学科分类:F0213
资助金额:23.00
项目类别:青年科学基金项目