一种Web主题文本通用提取方法

被引:5
作者
蒲强
李鑫
刘启和
杨国纬
机构
[1] 电子科技大学计算机科学与工程学院
关键词
Web文本; 文本提取; 文本语料库;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
081203 ; 0835 ;
摘要
为构建大规模中文文本语料库,提出了一种简单、有效、通用的中文Web主题文本提取方法。该方法巧妙地利用中文文本长度和标点符号序列,配合少量判别规则,便可准确地将主题文本从网页中提取出来。由于本方法不涉及具体的HTML标记分析,其通用性较强。实验结果表明该提取方法具有快速性和准确性,达到了构建大规模中文文本语料库的要求。
引用
收藏
页码:1394 / 1396
页数:3
相关论文
共 3 条
[1]   含有位置坐标树的Web页面分析和内容提取框架 [J].
封化民 ;
刘飚 ;
刘艳敏 ;
方勇 ;
宋国森 .
清华大学学报(自然科学版), 2005, (S1) :1767-1771
[2]   Web页面清洗技术的研究与实现 [J].
周源远 ;
王继成 ;
郑刚 ;
张福炎 .
计算机工程, 2002, (09) :48-50+197
[3]   基于DOM的Web信息提取 [J].
李效东 ;
顾毓清 .
计算机学报, 2002, (05) :526-533