中文网页分类研究与系统实现

被引：12

作者：

段军峰

黄维通

陆玉昌

机构：

[1] 清华大学计算机科学与技术系

来源：

关键词：

中文网页分类; 网页预处理; 特征抽取;

D O I：

暂无

中图分类号：

TP393.02 [];

学科分类号：

081201 ; 1201 ;

摘要：

近年来,网页分类研究逐渐成为网络挖掘和文本挖掘的研究热点,针对中文网页分类的研究也日益增多。本文详细介绍了一个中文网页分类系统的设计与实现,并且提出了一些网页预处理和特征处理的方法。实验结果表明,本文的方法可以使中文网页分类性能由81.5%提高至94.9%。

引用

页码：210 / 213

页数：4

共 4 条

[1] 基于统计的网页正文信息抽取方法的研究 [J].

孙承杰 ;

关毅 .

单松巍 ;

冯是聪 ;

李晓明 ;

不详 .

[3] 基于统计分词的中文网页分类 [J].

黄科 ;

马少平 .

周水庚 ;

关佶红 ;

胡运发 ;

周傲英 .