共 4 条
网页正文信息抽取新方法
被引:18
作者:
宋明秋
张瑞雪
吴新涛
李文立
机构:
[1] 大连理工大学系统工程研究所
来源:
关键词:
包装器;
HTML树;
网页信息提取;
D O I:
暂无
中图分类号:
TP391.1 [文字信息处理];
学科分类号:
摘要:
基于包装器的信息抽取方法只能处理一种特定的信息源,而且对网页结构的依赖性强.基于此提出了一种将中文标点符号和HTML树结构作为识别网页正文内容重要特征的网页分析方法,通过统计中文标点符号确定部分正文信息,然后根据正文信息在结构上的相似性确定其他正文信息内容.实验结果表明该方法能有效地剔除网页噪音并提取网页正文,具有较好的通用性和较高的准确性.
引用
收藏
页码:594 / 597
页数:4
相关论文