逆序解析DOM树及网页正文信息提取

被引:44
作者
张瑞雪
宋明秋
公衍磊
机构
[1] 大连理工大学系统工程研究所
关键词
DOM树; 网页正文提取; 结构相似性; 逆序解析;
D O I
暂无
中图分类号
TP393.092 [];
学科分类号
摘要
一般地,从HTML网页中提取正文信息,应先将HTML网页解析成DOM树,然后遍历DOM树,依据目标信息在DOM树中的分布规律,将信息从DOM树中提取。这种传统方法将解析DOM树和从DOM树中提取信息看成两个独立的过程,制约了提取信息的速度。事实上,在准确提取目标信息的过程中,独立解析整个DOM树是没有必要的。在此,提出了逆序解析DOM树算法,并结合DOM树相似理论和传统的顺序解析算法,从部分目标信息开始分别向后顺序和向前逆序解析DOM树,同时定位并获取其他目标信息。利用该方法提取网页正文信息,一方面只需解析部分DOM树,从而减少了解析树结构花费的时间,另一方面不需要遍历整个DOM树查找目标信息,从而节省了查找时间,大大提高了信息提取速度。最后,通过实验证实了该方法的优越性。
引用
收藏
页码:213 / 215+225 +225
页数:4
相关论文
共 7 条
[1]
网页正文信息抽取新方法 [J].
宋明秋 ;
张瑞雪 ;
吴新涛 ;
李文立 .
大连理工大学学报, 2009, 49 (04) :594-597
[2]
HTML文件的文本信息预处理技术 [J].
王志琪 ;
王永成 .
计算机工程, 2006, (05) :46-48+67
[3]
半结构化网页中多记录信息的自动抽取方法 [J].
朱明 ;
王庆伟 .
计算机仿真, 2005, (12) :95-97+142
[4]
基于网页结构树的Web信息抽取方法 [J].
陈琼 ;
苏文健 .
计算机工程, 2005, (20) :54-55+140
[5]
基于统计的网页正文信息抽取方法的研究 [J].
孙承杰 ;
关毅 .
中文信息学报, 2004, (05) :17-22
[6]
基于标记树表示方法的页面结构分析 [J].
常育红 ;
姜哲 ;
朱小燕 ;
不详 .
计算机工程与应用 , 2004, (16) :129-132
[7]
XML文档自动聚类研究.[J].潘有能;.情报学报.2006, 02