共 3 条
一种Web主题文本通用提取方法
被引:5
作者:
蒲强
李鑫
刘启和
杨国纬
机构:
[1] 电子科技大学计算机科学与工程学院
来源:
关键词:
Web文本;
文本提取;
文本语料库;
D O I:
暂无
中图分类号:
TP391.1 [文字信息处理];
学科分类号:
081203 ;
0835 ;
摘要:
为构建大规模中文文本语料库,提出了一种简单、有效、通用的中文Web主题文本提取方法。该方法巧妙地利用中文文本长度和标点符号序列,配合少量判别规则,便可准确地将主题文本从网页中提取出来。由于本方法不涉及具体的HTML标记分析,其通用性较强。实验结果表明该提取方法具有快速性和准确性,达到了构建大规模中文文本语料库的要求。
引用
收藏
页码:1394 / 1396
页数:3
相关论文