基于粗糙集的快速KNN文本分类算法

被引：22

作者：

孙荣宗 ^{[1
,2
]}

苗夺谦 ^{[1
,2
]}

卫志华 ^{[1
,2
]}

李文 ^{[1
,2
]}

机构：

[1] 同济大学电子与信息工程学院计算机科学与技术系

[2] 同济大学嵌入式系统与服务计算教育部重点实验室

来源：

计算机工程 | 2010年 / 36卷 / 24期

关键词：

文本分类; K最近邻; 粗糙集;

D O I：

暂无

中图分类号：

TP391.1 [文字信息处理];

学科分类号：

摘要：

传统K最近邻一个明显缺陷是样本相似度的计算量很大,在具有大量高维样本的文本分类中,由于复杂度太高而缺乏实用性。为此,将粗糙集理论引入到文本分类中,利用上下近似概念刻画各类训练样本的分布,并在训练过程中计算出各类上下近似的范围。在分类过程中根据待分类文本向量在样本空间中的分布位置,改进算法可以直接判定一些文本的归属,缩小K最近邻搜索范围。实验表明,该算法可以在保持K最近邻分类性能基本不变的情况下,显著提高分类效率。

引用

页码：175 / 177

页数：3

共 5 条

[1] 基于KNN算法的组合式非搜索特征选择算法
苏映雪
付耀文
[J]. 计算机工程, 2007, (18) : 217 - 218+221
[2] K-最近邻分类技术的改进算法
王晓晔
王正欧
[J]. 电子与信息学报, 2005, (03) : 487 - 491
[3] 知识约简的一种启发式算法
苗夺谦
胡桂荣
[J]. 计算机研究与发展 , 1999, (06) : 42 - 45
[4] Rough集理论与知识获取[M]. 西安交通大学出版社 , 王国胤编著, 2001
[5] ROUGH SETS
PAWLAK, Z
[J]. INTERNATIONAL JOURNAL OF COMPUTER & INFORMATION SCIENCES, 1982, 11 (05): : 341 - 356

← 1 →