基于内容的搜索引擎垃圾网页检测

被引:9
作者
贾志洋 [1 ]
李伟伟 [1 ]
张海燕 [2 ]
机构
[1] 云南师范大学计算机科学与信息技术学院
[2] 中国石油大庆石化公司信息中心
关键词
搜索引擎; 垃圾网页; 垃圾网页检测; 决策树; C4.5分类算法;
D O I
暂无
中图分类号
TP391.3 [检索机];
学科分类号
081203 ; 0835 ;
摘要
有些网页为了增加访问量,通过欺骗搜索引擎,提高在搜索引擎的搜索结果中的排名,这些网页被称为"搜索引擎垃圾网页"或"垃圾网页"。将搜索引擎垃圾网页的检测看成一个分类问题,采用C4.5分类算法建立决策树分类模型,将网页分成正常网页和垃圾网页两类。实验表明我们的分类模型可以有效地检测搜索引擎垃圾网页。
引用
收藏
页码:165 / 167
页数:3
相关论文
共 1 条
[1]  
Inside PageRank[J] . Monica Bianchini,Marco Gori,Franco Scarselli.ACM Transactions on Internet Technology (TOIT) . 2005 (1)