基于粗糙集的快速KNN文本分类算法

被引:22
作者
孙荣宗 [1 ,2 ]
苗夺谦 [1 ,2 ]
卫志华 [1 ,2 ]
李文 [1 ,2 ]
机构
[1] 同济大学电子与信息工程学院计算机科学与技术系
[2] 同济大学嵌入式系统与服务计算教育部重点实验室
关键词
文本分类; K最近邻; 粗糙集;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
摘要
传统K最近邻一个明显缺陷是样本相似度的计算量很大,在具有大量高维样本的文本分类中,由于复杂度太高而缺乏实用性。为此,将粗糙集理论引入到文本分类中,利用上下近似概念刻画各类训练样本的分布,并在训练过程中计算出各类上下近似的范围。在分类过程中根据待分类文本向量在样本空间中的分布位置,改进算法可以直接判定一些文本的归属,缩小K最近邻搜索范围。实验表明,该算法可以在保持K最近邻分类性能基本不变的情况下,显著提高分类效率。
引用
收藏
页码:175 / 177
页数:3
相关论文
共 5 条