一种Web主题文本通用提取方法

被引：5

作者：

蒲强

李鑫

刘启和

杨国纬

机构：

[1] 电子科技大学计算机科学与工程学院

来源：

计算机应用 | 2007年 / 06期

关键词：

Web文本; 文本提取; 文本语料库;

D O I：

暂无

中图分类号：

TP391.1 [文字信息处理];

学科分类号：

081203 ; 0835 ;

摘要：

为构建大规模中文文本语料库,提出了一种简单、有效、通用的中文Web主题文本提取方法。该方法巧妙地利用中文文本长度和标点符号序列,配合少量判别规则,便可准确地将主题文本从网页中提取出来。由于本方法不涉及具体的HTML标记分析,其通用性较强。实验结果表明该提取方法具有快速性和准确性,达到了构建大规模中文文本语料库的要求。

引用

收藏

页码：1394 / 1396

页数：3

相关论文

共 3 条

[1] 含有位置坐标树的Web页面分析和内容提取框架 [J].

封化民 ;

刘飚 ;

刘艳敏 ;

方勇 ;

宋国森 .

清华大学学报(自然科学版), 2005, (S1) :1767-1771

[2] Web页面清洗技术的研究与实现 [J].

周源远 ;

王继成 ;

郑刚 ;

张福炎 .

计算机工程, 2002, (09) :48-50+197

[3] 基于DOM的Web信息提取 [J].

李效东 ;

顾毓清 .

计算机学报, 2002, (05) :526-533