基于DBSCAN算法的网页正文提取

被引：6

作者：

欧阳佳

林丕源

机构：

[1] 华南农业大学信息学院

来源：

计算机工程 | 2011年 / 37卷 / 03期

关键词：

主题爬虫; 正文提取; DBSCAN算法; 密度;

D O I：

暂无

中图分类号：

TP393.092 [];

学科分类号：

摘要：

针对网页正文提取问题,提出一种基于分段因子的方法对网页源文件进行过滤得到纯文本段,将每段看作二维空间中的一个点,利用DBSCAN聚类算法对这些点进行聚类得到正文内容。该方法复杂度低,并且不依赖于网站布局风格,适应性强。对各大国内外新闻类网站进行实验,结果表明,该方法对中英文新闻类网站的正文提取效果明显,具有较高的平均准确率。

引用

页码：64 / 66+69 +69

页数：4

共 4 条

[1]

数据挖掘.[M].(加)JiaweiHan;(加)MichelineKamber著;范明;孟小峰等译;.机械工业出版社.2001,

[2] 有效HTML文本信息抽取方法的研究 [J].