网页正文信息抽取新方法

被引:18
作者
宋明秋
张瑞雪
吴新涛
李文立
机构
[1] 大连理工大学系统工程研究所
关键词
包装器; HTML树; 网页信息提取;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
摘要
基于包装器的信息抽取方法只能处理一种特定的信息源,而且对网页结构的依赖性强.基于此提出了一种将中文标点符号和HTML树结构作为识别网页正文内容重要特征的网页分析方法,通过统计中文标点符号确定部分正文信息,然后根据正文信息在结构上的相似性确定其他正文信息内容.实验结果表明该方法能有效地剔除网页噪音并提取网页正文,具有较好的通用性和较高的准确性.
引用
收藏
页码:594 / 597
页数:4
相关论文
共 4 条
[1]   HTML文件的文本信息预处理技术 [J].
王志琪 ;
王永成 .
计算机工程, 2006, (05) :46-48+67
[2]   基于统计的网页正文信息抽取方法的研究 [J].
孙承杰 ;
关毅 .
中文信息学报, 2004, (05) :17-22
[3]   基于标记树表示方法的页面结构分析 [J].
常育红 ;
姜哲 ;
朱小燕 ;
不详 .
计算机工程与应用 , 2004, (16) :129-132
[4]   一种提高中文搜索引擎检索质量的HTML解析方法 [J].
宋睿华 ;
马少平 ;
陈刚 ;
李景阳 .
中文信息学报, 2003, (04) :19-26