学术探索
学术期刊
学术作者
新闻热点
数据分析
智能评审
基于傅立叶变换的网页去重算法
被引:11
作者
:
论文数:
引用数:
h-index:
机构:
陈锦言
论文数:
引用数:
h-index:
机构:
孙济洲
论文数:
引用数:
h-index:
机构:
张亚平
机构
:
[1]
天津大学计算机科学与技术学院
来源
:
计算机应用
|
2008年
/ 04期
关键词
:
网页去重;
K-L展开;
傅立叶变换;
维数压缩;
D O I
:
暂无
中图分类号
:
TP301.6 [算法理论];
学科分类号
:
080201
[机械制造及其自动化]
;
摘要
:
去除重复网页可以提高搜索引擎的搜索精度,减少数据存储空间。目前文本去重算法以关键词去重、语义指纹去重为主,用上述算法进行网页去重时容易发生误判。通过对字符关系矩阵进行K-L展开,将每个字符映射成为一个数值,然后对这个数值序列做离散傅立叶变换,得到每个网页的傅立叶系数向量,通过比较傅立叶系数向量差异实现对网页的相似度判断。实验结果表明该方法可对网页实现较好的去重。
引用
收藏
页码:948 / 950
页数:3
相关论文
共 2 条
[1]
基于特征串的大规模中文网页快速去重算法研究
[J].
论文数:
引用数:
h-index:
机构:
吴平博
;
论文数:
引用数:
h-index:
机构:
陈群秀
;
马亮
论文数:
0
引用数:
0
h-index:
0
机构:
智能技术与系统国家重点实验室,智能技术与系统国家重点实验室,智能技术与系统国家重点实验室清华大学计算机科学与技术系,北京,清华大学计算机科学与技术系,北京,清华大学计算机科学与技术系,北京
马亮
.
中文信息学报,
2003,
(02)
:28
-35
[2]
模式识别.[M].边肇祺等编著;.清华大学出版社.2000,
←
1
→
共 2 条
[1]
基于特征串的大规模中文网页快速去重算法研究
[J].
论文数:
引用数:
h-index:
机构:
吴平博
;
论文数:
引用数:
h-index:
机构:
陈群秀
;
马亮
论文数:
0
引用数:
0
h-index:
0
机构:
智能技术与系统国家重点实验室,智能技术与系统国家重点实验室,智能技术与系统国家重点实验室清华大学计算机科学与技术系,北京,清华大学计算机科学与技术系,北京,清华大学计算机科学与技术系,北京
马亮
.
中文信息学报,
2003,
(02)
:28
-35
[2]
模式识别.[M].边肇祺等编著;.清华大学出版社.2000,
←
1
→