基于DBSCAN算法的网页正文提取

被引:6
作者
欧阳佳
林丕源
机构
[1] 华南农业大学信息学院
关键词
主题爬虫; 正文提取; DBSCAN算法; 密度;
D O I
暂无
中图分类号
TP393.092 [];
学科分类号
摘要
针对网页正文提取问题,提出一种基于分段因子的方法对网页源文件进行过滤得到纯文本段,将每段看作二维空间中的一个点,利用DBSCAN聚类算法对这些点进行聚类得到正文内容。该方法复杂度低,并且不依赖于网站布局风格,适应性强。对各大国内外新闻类网站进行实验,结果表明,该方法对中英文新闻类网站的正文提取效果明显,具有较高的平均准确率。
引用
收藏
页码:64 / 66+69 +69
页数:4
相关论文
共 4 条
[1]  
数据挖掘.[M].(加)JiaweiHan;(加)MichelineKamber著;范明;孟小峰等译;.机械工业出版社.2001,
[2]   有效HTML文本信息抽取方法的研究 [J].
韩忠明 ;
李文正 ;
莫倩 .
计算机应用研究, 2008, 25 (12) :3568-3571+3574
[3]   互联网商品信息抽取技术 [J].
于鲁波 ;
陈超 .
计算机工程, 2008, (05) :274-276
[4]   一种全自动生成网页信息抽取Wrapper的方法 [J].
梅雪 ;
程学旗 ;
郭岩 ;
张刚 ;
丁国栋 .
中文信息学报, 2008, (01) :22-29