学术探索
学术期刊
新闻热点
数据分析
智能评审
立即登录
基于DBSCAN算法的网页正文提取
被引:6
作者
:
论文数:
引用数:
h-index:
机构:
欧阳佳
林丕源
论文数:
0
引用数:
0
h-index:
0
机构:
华南农业大学信息学院
林丕源
机构
:
[1]
华南农业大学信息学院
来源
:
计算机工程
|
2011年
/ 37卷
/ 03期
关键词
:
主题爬虫;
正文提取;
DBSCAN算法;
密度;
D O I
:
暂无
中图分类号
:
TP393.092 [];
学科分类号
:
摘要
:
针对网页正文提取问题,提出一种基于分段因子的方法对网页源文件进行过滤得到纯文本段,将每段看作二维空间中的一个点,利用DBSCAN聚类算法对这些点进行聚类得到正文内容。该方法复杂度低,并且不依赖于网站布局风格,适应性强。对各大国内外新闻类网站进行实验,结果表明,该方法对中英文新闻类网站的正文提取效果明显,具有较高的平均准确率。
引用
收藏
页码:64 / 66+69 +69
页数:4
相关论文
共 4 条
[1]
数据挖掘.[M].(加)JiaweiHan;(加)MichelineKamber著;范明;孟小峰等译;.机械工业出版社.2001,
[2]
有效HTML文本信息抽取方法的研究
[J].
论文数:
引用数:
h-index:
机构:
韩忠明
;
论文数:
引用数:
h-index:
机构:
李文正
;
论文数:
引用数:
h-index:
机构:
莫倩
.
计算机应用研究,
2008,
25
(12)
:3568
-3571+3574
[3]
互联网商品信息抽取技术
[J].
论文数:
引用数:
h-index:
机构:
于鲁波
;
陈超
论文数:
0
引用数:
0
h-index:
0
机构:
多媒体计算与通信教育部微软重点实验室
中国科学技术大学电子工程与信息科学系
陈超
.
计算机工程,
2008,
(05)
:274
-276
[4]
一种全自动生成网页信息抽取Wrapper的方法
[J].
梅雪
论文数:
0
引用数:
0
h-index:
0
机构:
中国科学院计算技术研究所
梅雪
;
论文数:
引用数:
h-index:
机构:
程学旗
;
郭岩
论文数:
0
引用数:
0
h-index:
0
机构:
中国科学院计算技术研究所
郭岩
;
论文数:
引用数:
h-index:
机构:
张刚
;
论文数:
引用数:
h-index:
机构:
丁国栋
.
中文信息学报,
2008,
(01)
:22
-29
←
1
→
共 4 条
[1]
数据挖掘.[M].(加)JiaweiHan;(加)MichelineKamber著;范明;孟小峰等译;.机械工业出版社.2001,
[2]
有效HTML文本信息抽取方法的研究
[J].
论文数:
引用数:
h-index:
机构:
韩忠明
;
论文数:
引用数:
h-index:
机构:
李文正
;
论文数:
引用数:
h-index:
机构:
莫倩
.
计算机应用研究,
2008,
25
(12)
:3568
-3571+3574
[3]
互联网商品信息抽取技术
[J].
论文数:
引用数:
h-index:
机构:
于鲁波
;
陈超
论文数:
0
引用数:
0
h-index:
0
机构:
多媒体计算与通信教育部微软重点实验室
中国科学技术大学电子工程与信息科学系
陈超
.
计算机工程,
2008,
(05)
:274
-276
[4]
一种全自动生成网页信息抽取Wrapper的方法
[J].
梅雪
论文数:
0
引用数:
0
h-index:
0
机构:
中国科学院计算技术研究所
梅雪
;
论文数:
引用数:
h-index:
机构:
程学旗
;
郭岩
论文数:
0
引用数:
0
h-index:
0
机构:
中国科学院计算技术研究所
郭岩
;
论文数:
引用数:
h-index:
机构:
张刚
;
论文数:
引用数:
h-index:
机构:
丁国栋
.
中文信息学报,
2008,
(01)
:22
-29
←
1
→