灵活结构网页的正文提取

被引:4
作者
殷彬
杨会志
机构
[1] 电子科技大学中山学院
关键词
Web数据挖掘; 网页内容提取; 正文节点; 超链接节点; 节点权值; 链接密度;
D O I
暂无
中图分类号
TP393.092 [];
学科分类号
摘要
在Web数据挖掘中,由于网页大多都含有指向其他页面的超链接等噪音信息,为了减少噪音信息对Web数据挖掘效果的影响,有必要对网页进行净化处理,提取其中的正文,同时,现实中很多网页的代码结构不是特别规范,对此,提出一种对灵活结构网页适用的正文抽取算法。将网页用HTML标签分割成节点形式,找出其中含有正文内容的一个节点,以此节点为基础向前和向后进行余下正文内容的抽取。实验结果表明,本算法的适用性强、正确率较高。
引用
收藏
页码:111 / 113+117 +117
页数:4
相关论文
共 7 条
[1]
网页正文信息抽取新方法 [J].
宋明秋 ;
张瑞雪 ;
吴新涛 ;
李文立 .
大连理工大学学报, 2009, 49 (04) :594-597
[2]
节点频度和语义距离相结合的网页正文信息抽取 [J].
孟军 ;
刘秋水 ;
王秀坤 .
计算机工程与应用, 2009, 45 (01) :140-143
[3]
网页信息抽取及其自动文本分类的实现 [J].
赵金仿 ;
赵艳 ;
缪建明 .
计算机技术与发展, 2008, (10) :37-39
[4]
基于XML的信息抽取和多层向量空间技术研究 [J].
仲华 ;
崔志明 .
计算机技术与发展, 2007, (07) :49-52
[5]
基于HTML模式代数的Web信息提取方法 [J].
李石君 ;
于俊清 ;
欧伟杰 .
计算机研究与发展, 2006, (09) :1644-1650
[6]
半结构化文档集的结构模式提取的研究与实现 [J].
杨建武 ;
陈晓鸥 .
计算机工程, 2001, (10) :19-21+113
[7]
从WEB文档中构造半结构化信息的抽取器 [J].
黄豫清 ;
戚广志 ;
张福炎 .
软件学报, 2000, (01) :73-78