应用特征聚合进行中文文本分类的改进KNN算法

被引:58
作者
张晓辉
李莹
王华勇
赵宏
不详
机构
[1] 东北大学软件中心
[2] 东北大学软件中心 辽宁沈阳
[3] 辽宁沈阳
[4] 辽宁沈阳
关键词
KNN算法; 中文文本分类; 分类贡献模式; 特征聚合;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
摘要
针对以KNN为代表的VSM模型存在的向量各特征项孤立处理问题 ,提出了一种应用特征聚合方式的改进算法·该算法通过CHI概率统计计算文本特征词对分类的贡献 ,将对分类有相同贡献的文本特征词聚合 ,使用它们共同的分类贡献模式代替传统算法中单个词对应向量一维的方式·该算法提高了稀有词对分类的贡献、强化了关联词的分类效果、并降低了文本向量的维数·与传统KNN算法进行的对比实验证明 ,该算法明显提高了分类的准确率和召回率
引用
收藏
页码:229 / 232
页数:4
相关论文
共 4 条
  • [1] 一种改进的kNN方法及其在文本分类中的应用
    孙丽华
    张积东
    李静梅
    [J]. 应用科技, 2002, (02) : 25 - 27
  • [2] 概念推理网及其在文本分类中的应用
    李晓黎
    刘继敏
    史忠植
    [J]. 计算机研究与发展, 2000, (09) : 1032 - 1038
  • [3] 中文文献自动分类中的知识库构造及其仿人算法
    刁倩
    张惠惠
    王永成
    何骥
    [J]. 情报学报, 2000, (03) : 248 - 253
  • [4] A Comparative Study on Feature Selection in Text Categorization .2 Yang Y,Pedersen JP. Proceedings of the Fourteenth International Conference on Machine Learning (ICML‘97) . 1997