学术探索
学术期刊
新闻热点
数据分析
智能评审
立即登录
基于网页正文主题和摘要的网页去重算法
被引:5
作者
:
周小平
论文数:
0
引用数:
0
h-index:
0
机构:
广西大学计算机与电子信息学院
广西大学计算机与电子信息学院
周小平
[
1
]
黄家裕
论文数:
0
引用数:
0
h-index:
0
机构:
南宁平方软件新技术有限公司
广西大学计算机与电子信息学院
黄家裕
[
2
]
论文数:
引用数:
h-index:
机构:
刘连芳
[
1
,
2
]
论文数:
引用数:
h-index:
机构:
梁一平
[
1
]
论文数:
引用数:
h-index:
机构:
申文明
[
1
]
机构
:
[1]
广西大学计算机与电子信息学院
[2]
南宁平方软件新技术有限公司
来源
:
广西科学院学报
|
2009年
/ 25卷
/ 04期
关键词
:
去重;
网页;
分词;
相似度;
元搜索;
D O I
:
10.13657/j.cnki.gxkxyxb.2009.04.008
中图分类号
:
TP391.1 [文字信息处理];
学科分类号
:
081203 ;
0835 ;
摘要
:
针对元搜索返回的网页内容相同,别名差异很大的重复网页,提出基于网页正文主题和摘要的网页去重算法,并通过实验对算法进行有效性验证。该算法首先对各成员搜索引擎返回来的网页标题进行有关处理,提取出网页的主题信息,然后对摘要进行分词,再计算摘要的相似度,二者结合能更好地现出文章摘要的内容,实现网页去重。该算法有效,并且比基于传统特征码的算法有明显的优势,更接近人工统计结果。
引用
收藏
页码:251 / 253
页数:3
相关论文
共 5 条
[1]
基于元搜索的网页消重方法研究
[J].
论文数:
引用数:
h-index:
机构:
谢蕙
;
论文数:
引用数:
h-index:
机构:
秦杰
.
计算机系统应用,
2008,
(08)
:94
-96
[2]
基于用户查询关键词的网页去重方法研究
[J].
论文数:
引用数:
h-index:
机构:
谢蕙
;
论文数:
引用数:
h-index:
机构:
秦杰
;
论文数:
引用数:
h-index:
机构:
胡双双
.
现代图书情报技术,
2008,
(07)
:43
-46
[3]
中文信息处理中自动分词技术的研究与展望
[J].
论文数:
引用数:
h-index:
机构:
刘迁
;
贾惠波
论文数:
0
引用数:
0
h-index:
0
机构:
清华大学光盘国家工程研究中心
清华大学精密仪器与机械学系
贾惠波
.
计算机工程与应用,
2006,
(03)
:175
-177+182
[4]
基于特征串的大规模中文网页快速去重算法研究
[J].
论文数:
引用数:
h-index:
机构:
吴平博
;
论文数:
引用数:
h-index:
机构:
陈群秀
;
马亮
论文数:
0
引用数:
0
h-index:
0
机构:
智能技术与系统国家重点实验室
马亮
.
中文信息学报,
2003,
(02)
:28
-35
[5]
搜索引擎.[M].李晓明;闫宏飞;王继民著;.科学出版社.2005,
←
1
→
共 5 条
[1]
基于元搜索的网页消重方法研究
[J].
论文数:
引用数:
h-index:
机构:
谢蕙
;
论文数:
引用数:
h-index:
机构:
秦杰
.
计算机系统应用,
2008,
(08)
:94
-96
[2]
基于用户查询关键词的网页去重方法研究
[J].
论文数:
引用数:
h-index:
机构:
谢蕙
;
论文数:
引用数:
h-index:
机构:
秦杰
;
论文数:
引用数:
h-index:
机构:
胡双双
.
现代图书情报技术,
2008,
(07)
:43
-46
[3]
中文信息处理中自动分词技术的研究与展望
[J].
论文数:
引用数:
h-index:
机构:
刘迁
;
贾惠波
论文数:
0
引用数:
0
h-index:
0
机构:
清华大学光盘国家工程研究中心
清华大学精密仪器与机械学系
贾惠波
.
计算机工程与应用,
2006,
(03)
:175
-177+182
[4]
基于特征串的大规模中文网页快速去重算法研究
[J].
论文数:
引用数:
h-index:
机构:
吴平博
;
论文数:
引用数:
h-index:
机构:
陈群秀
;
马亮
论文数:
0
引用数:
0
h-index:
0
机构:
智能技术与系统国家重点实验室
马亮
.
中文信息学报,
2003,
(02)
:28
-35
[5]
搜索引擎.[M].李晓明;闫宏飞;王继民著;.科学出版社.2005,
←
1
→