一种应用向量聚合技术的KNN中文文本分类方法

被引:13
作者
李莹
张晓辉
王华勇
常桂然
机构
[1] 东北大学计算中心
关键词
KNN; 中文文本分类; 向量聚合;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
摘要
针对 KNN文本分类方法中不考虑特征词关联的问题 ,提出一种改进方法 .这种方法基于对体现词和类别间相关程度的 CHI统计值分布的分析 ,应用向量聚合技术很好地解决了关联特征词的提取问题 .其特点在于 :聚合文本向量中相关联的特征词作为特征项 ,从而取代传统方法中一个特征词对应向量一维的做法 ,这样不但缩减了向量的维数 ,而且加强了特征项对文本分类的贡献 .实验表明该方法明显提高了分类的准确率和召回率 .
引用
收藏
页码:993 / 996
页数:4
相关论文
共 2 条