网页正文信息抽取新方法

被引：18

作者：

宋明秋

张瑞雪

吴新涛

李文立

机构：

[1] 大连理工大学系统工程研究所

来源：

大连理工大学学报 | 2009年 / 49卷 / 04期

关键词：

包装器; HTML树; 网页信息提取;

D O I：

暂无

中图分类号：

TP391.1 [文字信息处理];

学科分类号：

摘要：

基于包装器的信息抽取方法只能处理一种特定的信息源,而且对网页结构的依赖性强.基于此提出了一种将中文标点符号和HTML树结构作为识别网页正文内容重要特征的网页分析方法,通过统计中文标点符号确定部分正文信息,然后根据正文信息在结构上的相似性确定其他正文信息内容.实验结果表明该方法能有效地剔除网页噪音并提取网页正文,具有较好的通用性和较高的准确性.

引用

收藏

页码：594 / 597

页数：4

相关论文

共 4 条

[1] HTML文件的文本信息预处理技术 [J].

王志琪 ;

王永成 .

计算机工程, 2006, (05) :46-48+67

[2] 基于统计的网页正文信息抽取方法的研究 [J].

孙承杰 ;

关毅 .

中文信息学报, 2004, (05) :17-22

[3] 基于标记树表示方法的页面结构分析 [J].

常育红 ;

姜哲 ;

朱小燕 ;

不详 .

计算机工程与应用 , 2004, (16) :129-132

[4] 一种提高中文搜索引擎检索质量的HTML解析方法 [J].

宋睿华 ;

马少平 ;

陈刚 ;

李景阳 .

中文信息学报, 2003, (04) :19-26