一种改进的特征选择方法在文本分类系统中的应用

被引:3
作者
李长虹
李堂秋
机构
[1] 厦门大学软件学院 福建厦门361005
[2] 厦门大学软件学院
关键词
文本分类; 特征选择; 文档频数; 互信息量;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
081203 ; 0835 ;
摘要
在介绍文本分类的背景及传统基于向量空间模型特征选择不足之处的同时,提出了不同特征选择方法相结合的文本分类模型.该模型首先对文本进行分析,把文本表示成向量空间的形式.文本在经过预处理后,按一定规则提取关键词,关键词的提取中增加了对名词短语的识别.特征选择的方法上,结合了文档频数和互信息量,并对他们进行了改进.实验结果表明,使用新方法进行分类所得到的分类精度得到了一定的提高.
引用
收藏
页码:239 / 242
页数:4
相关论文
共 6 条