学术探索
学术期刊
新闻热点
数据分析
智能评审
立即登录
基于粗糙集的快速KNN文本分类算法
被引:22
作者
:
论文数:
引用数:
h-index:
机构:
孙荣宗
[
1
,
2
]
苗夺谦
论文数:
0
引用数:
0
h-index:
0
机构:
同济大学电子与信息工程学院计算机科学与技术系
同济大学嵌入式系统与服务计算教育部重点实验室
同济大学电子与信息工程学院计算机科学与技术系
苗夺谦
[
1
,
2
]
论文数:
引用数:
h-index:
机构:
卫志华
[
1
,
2
]
论文数:
引用数:
h-index:
机构:
李文
[
1
,
2
]
机构
:
[1]
同济大学电子与信息工程学院计算机科学与技术系
[2]
同济大学嵌入式系统与服务计算教育部重点实验室
来源
:
计算机工程
|
2010年
/ 36卷
/ 24期
关键词
:
文本分类;
K最近邻;
粗糙集;
D O I
:
暂无
中图分类号
:
TP391.1 [文字信息处理];
学科分类号
:
摘要
:
传统K最近邻一个明显缺陷是样本相似度的计算量很大,在具有大量高维样本的文本分类中,由于复杂度太高而缺乏实用性。为此,将粗糙集理论引入到文本分类中,利用上下近似概念刻画各类训练样本的分布,并在训练过程中计算出各类上下近似的范围。在分类过程中根据待分类文本向量在样本空间中的分布位置,改进算法可以直接判定一些文本的归属,缩小K最近邻搜索范围。实验表明,该算法可以在保持K最近邻分类性能基本不变的情况下,显著提高分类效率。
引用
收藏
页码:175 / 177
页数:3
相关论文
共 5 条
[1]
基于KNN算法的组合式非搜索特征选择算法
苏映雪
论文数:
0
引用数:
0
h-index:
0
机构:
国防科技大学电子科学与工程学院ATR实验室
苏映雪
付耀文
论文数:
0
引用数:
0
h-index:
0
机构:
国防科技大学电子科学与工程学院ATR实验室
付耀文
[J].
计算机工程,
2007,
(18)
: 217
-
218+221
[2]
K-最近邻分类技术的改进算法
论文数:
引用数:
h-index:
机构:
王晓晔
王正欧
论文数:
0
引用数:
0
h-index:
0
机构:
天津大学系统工程研究所
王正欧
[J].
电子与信息学报,
2005,
(03)
: 487
-
491
[3]
知识约简的一种启发式算法
苗夺谦
论文数:
0
引用数:
0
h-index:
0
机构:
不详
苗夺谦
胡桂荣
论文数:
0
引用数:
0
h-index:
0
机构:
不详
胡桂荣
[J].
计算机研究与发展 ,
1999,
(06)
: 42
-
45
[4]
Rough集理论与知识获取[M]. 西安交通大学出版社 , 王国胤编著, 2001
[5]
ROUGH SETS
PAWLAK, Z
论文数:
0
引用数:
0
h-index:
0
PAWLAK, Z
[J].
INTERNATIONAL JOURNAL OF COMPUTER & INFORMATION SCIENCES,
1982,
11
(05):
: 341
-
356
←
1
→
共 5 条
[1]
基于KNN算法的组合式非搜索特征选择算法
苏映雪
论文数:
0
引用数:
0
h-index:
0
机构:
国防科技大学电子科学与工程学院ATR实验室
苏映雪
付耀文
论文数:
0
引用数:
0
h-index:
0
机构:
国防科技大学电子科学与工程学院ATR实验室
付耀文
[J].
计算机工程,
2007,
(18)
: 217
-
218+221
[2]
K-最近邻分类技术的改进算法
论文数:
引用数:
h-index:
机构:
王晓晔
王正欧
论文数:
0
引用数:
0
h-index:
0
机构:
天津大学系统工程研究所
王正欧
[J].
电子与信息学报,
2005,
(03)
: 487
-
491
[3]
知识约简的一种启发式算法
苗夺谦
论文数:
0
引用数:
0
h-index:
0
机构:
不详
苗夺谦
胡桂荣
论文数:
0
引用数:
0
h-index:
0
机构:
不详
胡桂荣
[J].
计算机研究与发展 ,
1999,
(06)
: 42
-
45
[4]
Rough集理论与知识获取[M]. 西安交通大学出版社 , 王国胤编著, 2001
[5]
ROUGH SETS
PAWLAK, Z
论文数:
0
引用数:
0
h-index:
0
PAWLAK, Z
[J].
INTERNATIONAL JOURNAL OF COMPUTER & INFORMATION SCIENCES,
1982,
11
(05):
: 341
-
356
←
1
→