中文网页分类研究与系统实现

被引:12
作者
段军峰
黄维通
陆玉昌
机构
[1] 清华大学计算机科学与技术系
关键词
中文网页分类; 网页预处理; 特征抽取;
D O I
暂无
中图分类号
TP393.02 [];
学科分类号
081201 ; 1201 ;
摘要
近年来,网页分类研究逐渐成为网络挖掘和文本挖掘的研究热点,针对中文网页分类的研究也日益增多。本文详细介绍了一个中文网页分类系统的设计与实现,并且提出了一些网页预处理和特征处理的方法。实验结果表明,本文的方法可以使中文网页分类性能由81.5%提高至94.9%。
引用
收藏
页码:210 / 213
页数:4
相关论文
共 4 条
[1]   基于统计的网页正文信息抽取方法的研究 [J].
孙承杰 ;
关毅 .
中文信息学报, 2004, (05) :17-22
[2]   几种典型特征选取方法在中文网页分类上的效果比较 [J].
单松巍 ;
冯是聪 ;
李晓明 ;
不详 .
计算机工程与应用 , 2003, (22) :146-148
[3]   基于统计分词的中文网页分类 [J].
黄科 ;
马少平 .
中文信息学报, 2002, (06) :25-31
[4]   一个无需词典支持和切词处理的中文文档分类系统 [J].
周水庚 ;
关佶红 ;
胡运发 ;
周傲英 .
计算机研究与发展, 2001, (07) :839-844