基于傅立叶变换的网页去重算法

被引:11
作者
陈锦言
孙济洲
张亚平
机构
[1] 天津大学计算机科学与技术学院
关键词
网页去重; K-L展开; 傅立叶变换; 维数压缩;
D O I
暂无
中图分类号
TP301.6 [算法理论];
学科分类号
080201 [机械制造及其自动化];
摘要
去除重复网页可以提高搜索引擎的搜索精度,减少数据存储空间。目前文本去重算法以关键词去重、语义指纹去重为主,用上述算法进行网页去重时容易发生误判。通过对字符关系矩阵进行K-L展开,将每个字符映射成为一个数值,然后对这个数值序列做离散傅立叶变换,得到每个网页的傅立叶系数向量,通过比较傅立叶系数向量差异实现对网页的相似度判断。实验结果表明该方法可对网页实现较好的去重。
引用
收藏
页码:948 / 950
页数:3
相关论文
共 2 条
[1]
基于特征串的大规模中文网页快速去重算法研究 [J].
吴平博 ;
陈群秀 ;
马亮 .
中文信息学报, 2003, (02) :28-35
[2]
模式识别.[M].边肇祺等编著;.清华大学出版社.2000,