学术探索
学术期刊
新闻热点
数据分析
智能评审
立即登录
一种改进的KNN Web文本分类方法
被引:9
作者
:
论文数:
引用数:
h-index:
机构:
吴春颖
王士同
论文数:
0
引用数:
0
h-index:
0
机构:
江南大学信息工程学院
王士同
机构
:
[1]
江南大学信息工程学院
来源
:
计算机应用研究
|
2008年
/ 11期
关键词
:
Web文本分类;
K最近邻;
快速分类;
D O I
:
暂无
中图分类号
:
TP391.1 [文字信息处理];
学科分类号
:
081203 ;
0835 ;
摘要
:
KNN方法存在两个不足:a)计算量巨大,它要求计算未知文本与所有训练样本间的相似度进而得到k个最近邻样本;b)当类别间有较多共性,即训练样本间有较多特征交叉现象时,KNN分类的精度将下降。针对这两个问题,提出了一种改进的KNN方法,该方法先通过Rocchio分类快速得到k0个最有可能的候选类别;然后在k0个类别训练文档中抽取部分代表样本采用KNN算法;最后由一种改进的相似度计算方法决定最终的文本所属类别。实验表明,改进的KNN方法在Web文本分类中能够获得较好的分类效果。
引用
收藏
页码:3275 / 3277
页数:3
相关论文
共 7 条
[1]
文档相似度综合计算研究
[J].
论文数:
引用数:
h-index:
机构:
宋玲
;
论文数:
引用数:
h-index:
机构:
马军
;
论文数:
引用数:
h-index:
机构:
连莉
;
张志军
论文数:
0
引用数:
0
h-index:
0
机构:
山东建筑工程学院计算机科学与技术系
山东大学计算机科学与技术学院
张志军
.
计算机工程与应用 ,
2006,
(30)
:160
-163
[2]
文本分类中特征项权重的计算方法
[J].
贝雨馨
论文数:
0
引用数:
0
h-index:
0
机构:
延边大学理工学院计算机科学与技术系
贝雨馨
;
崔荣一
论文数:
0
引用数:
0
h-index:
0
机构:
延边大学理工学院计算机科学与技术系
崔荣一
.
延边大学学报(自然科学版),
2004,
(03)
:202
-204+234
[3]
文本分类技术研究
[J].
高洁
论文数:
0
引用数:
0
h-index:
0
机构:
南京师范大学计算机系
高洁
;
吉根林
论文数:
0
引用数:
0
h-index:
0
机构:
南京师范大学计算机系
吉根林
.
计算机应用研究,
2004,
(07)
:28
-30+34
[4]
基于kNN的快速WEB文档分类
[J].
李杨
论文数:
0
引用数:
0
h-index:
0
机构:
复旦大学计算机系数据库中心
李杨
;
曾海泉
论文数:
0
引用数:
0
h-index:
0
机构:
复旦大学计算机系数据库中心
曾海泉
;
刘庆华
论文数:
0
引用数:
0
h-index:
0
机构:
复旦大学计算机系数据库中心
刘庆华
;
胡运发
论文数:
0
引用数:
0
h-index:
0
机构:
复旦大学计算机系数据库中心
胡运发
.
小型微型计算机系统,
2004,
(04)
:725
-729
[5]
基于密度的kNN文本分类器训练样本裁剪方法
[J].
论文数:
引用数:
h-index:
机构:
李荣陆
;
胡运发
论文数:
0
引用数:
0
h-index:
0
机构:
复旦大学计算机与信息技术系,复旦大学计算机与信息技术系上海,上海
胡运发
.
计算机研究与发展,
2004,
(04)
:539
-545
[6]
基于向量空间模型的文本自动分类系统的研究与实现
[J].
论文数:
引用数:
h-index:
机构:
庞剑锋
;
论文数:
引用数:
h-index:
机构:
卜东波
;
白硕
论文数:
0
引用数:
0
h-index:
0
机构:
中国科学院计算技术研究所!北京
白硕
.
计算机应用研究,
2001,
(09)
:23
-26
[7]
用于Web文本分类的快速KNN算法[J]. 王煜,白石,王正欧.情报学报. 2007 (01)
←
1
→
共 7 条
[1]
文档相似度综合计算研究
[J].
论文数:
引用数:
h-index:
机构:
宋玲
;
论文数:
引用数:
h-index:
机构:
马军
;
论文数:
引用数:
h-index:
机构:
连莉
;
张志军
论文数:
0
引用数:
0
h-index:
0
机构:
山东建筑工程学院计算机科学与技术系
山东大学计算机科学与技术学院
张志军
.
计算机工程与应用 ,
2006,
(30)
:160
-163
[2]
文本分类中特征项权重的计算方法
[J].
贝雨馨
论文数:
0
引用数:
0
h-index:
0
机构:
延边大学理工学院计算机科学与技术系
贝雨馨
;
崔荣一
论文数:
0
引用数:
0
h-index:
0
机构:
延边大学理工学院计算机科学与技术系
崔荣一
.
延边大学学报(自然科学版),
2004,
(03)
:202
-204+234
[3]
文本分类技术研究
[J].
高洁
论文数:
0
引用数:
0
h-index:
0
机构:
南京师范大学计算机系
高洁
;
吉根林
论文数:
0
引用数:
0
h-index:
0
机构:
南京师范大学计算机系
吉根林
.
计算机应用研究,
2004,
(07)
:28
-30+34
[4]
基于kNN的快速WEB文档分类
[J].
李杨
论文数:
0
引用数:
0
h-index:
0
机构:
复旦大学计算机系数据库中心
李杨
;
曾海泉
论文数:
0
引用数:
0
h-index:
0
机构:
复旦大学计算机系数据库中心
曾海泉
;
刘庆华
论文数:
0
引用数:
0
h-index:
0
机构:
复旦大学计算机系数据库中心
刘庆华
;
胡运发
论文数:
0
引用数:
0
h-index:
0
机构:
复旦大学计算机系数据库中心
胡运发
.
小型微型计算机系统,
2004,
(04)
:725
-729
[5]
基于密度的kNN文本分类器训练样本裁剪方法
[J].
论文数:
引用数:
h-index:
机构:
李荣陆
;
胡运发
论文数:
0
引用数:
0
h-index:
0
机构:
复旦大学计算机与信息技术系,复旦大学计算机与信息技术系上海,上海
胡运发
.
计算机研究与发展,
2004,
(04)
:539
-545
[6]
基于向量空间模型的文本自动分类系统的研究与实现
[J].
论文数:
引用数:
h-index:
机构:
庞剑锋
;
论文数:
引用数:
h-index:
机构:
卜东波
;
白硕
论文数:
0
引用数:
0
h-index:
0
机构:
中国科学院计算技术研究所!北京
白硕
.
计算机应用研究,
2001,
(09)
:23
-26
[7]
用于Web文本分类的快速KNN算法[J]. 王煜,白石,王正欧.情报学报. 2007 (01)
←
1
→