停用词的选取对文本分类效果的影响研究

被引:68
作者
崔彩霞
机构
[1] 太原师范学院计算机系
关键词
文本分类; 停用词; 特征选择;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
120506 [数字人文];
摘要
考察了2种常用的基于统计方法的停用词选取方法,结合语言学知识,提出了一种统计和语言学结合的停用词选取的方法,以支持向量机作为分类器在复旦语料上做了实验,结果表明该方法在保证文本分类的准确率的基础上,可以大大地降低特征词的维数.
引用
收藏
页码:91 / 93
页数:3
相关论文
共 3 条
[1]
基于支持向量机的文本分类方法研究 [D]. 
崔彩霞 .
山西大学,
2005
[2]
中文文本自动分词和标注.[M].刘开瑛著;.商务印书馆.2000,
[3]
中文停用词表的自动选取 [J].
顾益军 ;
樊孝忠 ;
王建华 ;
汪涛 ;
黄维金 .
北京理工大学学报, 2005, (04) :337-340