基于集成学习的网页链接作弊检测

基本信息

批准号：61300190

项目类别：青年科学基金项目

资助金额：22.00

负责人：刘馨月

学科分类：

依托单位：大连理工大学

批准年份：2013

结题年份：2016

起止时间：2014-01-01 - 2016-12-31

项目状态：已结题

项目参与者：张宪超,王智慧,徐秀娟,史哲文,申华,秦静,韩敏,牟南,赵龙

关键词：

信任(不信任)传播自动算法半自动算法集成学习网页作弊

结项摘要

Web page spam causes huge losses to both search engine providers and users, and link spam is the most harmful. Semi-automatic link spam detection algorithms propagate human-identified spam information, but neglect many features of spam pages; Automatic algorithms use partial features and detect spam with machine learning or graph regulation techniques, but neglect other features and human judgement. In brief, existing algorithms can not make use of overall information, show weak detection abilities and meet with performance bottleneck. Based on our large amount of previous reseach, in this project, we use ensemble learning theory to solve the link spam detection problem. Firstly, we propose ensemble schemes of automatic spam detection algorithms, which make full use of spam page features and integrate the detection abilities of all kinds of automatic algorithms; Secondly, we propose synchronous propagation schemes of trust and distrust, which make full use of information provided by both good and bad seeds, and integrate the abilities of both trust propagation and distrust propagation; Finally, we propose combination schemes of automatic and semi-automatic algorithms, which integrate statical features of spam pages and human judgements，thus fuse all kinds of information for spam detection. With efforts made during the research this project, a fairly completed theoretical system of ensemble learning based link spam detection will be established, the difficulities of partial information and onefold algorithm will be overcomed and the spam detection precision will be significantly improved.

网页作弊给搜索引擎和用户带来巨大损失，尤以链接作弊危害严重。半自动链接作弊检测算法传播人工判别的作弊信息，但忽略了作弊网页的很多特征；自动算法使用作弊网页的部分特征，通过机器学习、图正规化等进行检测，但忽略了其它特征和人工判别能力。总之，现有算法使用信息不够全面，检测能力较弱，性能已遭遇瓶颈。针对现有算法的困难，本项目在我们前期大量研究基础上，使用集成学习理论解决链接作弊检测问题。首先提出自动作弊检测算法集成方案，充分利用作弊网页各种特征，集成各种算法的检测能力；其次提出信任和不信任同步传播策略，充分利用好种子和坏种子的信息，集成信任传播和不信任传播的检测能力；最后提出自动算法和半自动算法集成方案，将作弊网页的统计特征和人工判别能力充分结合,全方位挖掘各类信息用于作弊检测。本项研究将形成基于集成学习的链接作弊检测较完善的理论体系，克服片面信息和单一算法的困难，使作弊检测精度获得实质性提高。

项目摘要

网页作弊给搜索引擎和用户带来巨大损失，尤以链接作弊危害严重。半自动链接作弊检测算法传播人工判别的作弊信息，但忽略了作弊网页的很多特征；自动算法使用作弊网页的部分特征，通过机器学习、图正规化等进行检测，但忽略了其它特征和人工判别能力。总之，现有算法使用信息不够全面，检测能力较弱，性能已遭遇瓶颈。针对现有算法的困难，本项目在我们前期大量研究基础上，使用集成学习理论解决链接作弊检测问题。首先提出自动作弊检测算法集成方案，充分利用作弊网页各种特征，集成各种算法的检测能力；其次提出信任和不信任同步传播策略，充分利用好种子和坏种子的信息，集成信任传播和不信任传播的检测能力；最后提出自动算法和半自动算法集成方案，将作弊网页的统计特征和人工判别能力充分结合,全方位挖掘各类信息用于作弊检测。主要创新成果包括：提出信任和不信任同步传播网页作弊监测算法；提出基于社区发现的信任区分传播模型；提出基于多视角学习的社交作弊监测算法；提出社交作弊监测的半监督框架；提出首个社交作弊联盟监测框架。在TKDE、TWEB等国际期刊和AAAI、ICDM等国际会议上发表论文16篇。解决了网页作弊和社交作弊领域大量挑战性问题，克服了现有算法很多困难，圆满地达到项目预期目标。

项目成果

DOI：{{i.doi}}

发表时间：{{i.publish_year}}

暂无此项成果

数据更新时间：2023-05-31

其他相关文献

DOI：

发表时间：2021

DOI：10.3778/j.issn.1002-8331.1903-0411

发表时间：2020

DOI：10.19328/j.cnki.2096-8655.2022.02.002

发表时间：2022

DOI：10.16383/j.aas.c180673

发表时间：2021

DOI：10.1360/SSM-2020-0035

发表时间：2020

刘馨月的其他基金

相似国自然基金

作弊环境下的网页排序问题研究

批准号：61103138

批准年份：2011

负责人：靳小波

学科分类：F0605

资助金额：21.00

项目类别：青年科学基金项目

多模态Web作弊检测的统计机器学习方法研究

批准号：61005029

批准年份：2010

负责人：耿光刚

学科分类：F0603

资助金额：20.00

项目类别：青年科学基金项目

基于表示学习的RDF数据链接方法研究

批准号：61872172

批准年份：2018

负责人：胡伟

学科分类：F0203

资助金额：63.00

项目类别：面上项目

基于深度集成学习的多模态肺结节检测研究

批准号：61902282

批准年份：2019

负责人：武盼盼

学科分类：F0213

资助金额：23.00

项目类别：青年科学基金项目

基于集成学习的网页链接作弊检测

{{i.achievement_title}}

暂无此项成果

其他相关文献

基于铁路客流分配的旅客列车开行方案调整方法

新型树启发式搜索算法的机器人路径规划

"多对多"模式下GEO卫星在轨加注任务规划

二维FM系统的同时故障检测与控制

现代优化理论与应用

刘馨月的其他基金

相似国自然基金