一种基于中心文档的KNN中文文本分类算法

被引:15
作者
鲁婷
王浩
姚宏亮
机构
[1] 合肥工业大学计算机与信息学院
基金
安徽省自然科学基金;
关键词
中文文本分类; k最邻近; 中心文档; 语义相似度; 聚类;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
081203 ; 0835 ;
摘要
在浩瀚的数据资源中,为了实现对特定主题的搜索或提取,文本自动分类技术已经成为目前研究的热点。KNN是一种重要的文本自动分类方法,KNN能够处理大规模数据,且具有较高的稳定性,但面临分类速度较慢的问题。以KNN方法为基础,引入特征项间的语义关系,并根据语义关系进行聚类生成中心文档,减少了KNN要搜索的文档数,提高了分类速度。仿真实验表明,该算法在不损失分类精度的情况下,显著提高了分类的速度。
引用
收藏
页码:127 / 130
页数:4
相关论文
共 8 条
[1]   基于结构学习的KNN分类算法 [J].
孙岩 ;
吕世聘 ;
王秀坤 ;
唐一源 .
计算机科学, 2007, (12) :184-186+237
[2]   初始聚类中心优化的k-means算法 [J].
袁方 ;
周志勇 ;
宋鑫 .
计算机工程, 2007, (03) :65-66
[3]   文档相似度综合计算研究 [J].
宋玲 ;
马军 ;
连莉 ;
张志军 .
计算机工程与应用 , 2006, (30) :160-163
[4]   基于类别核心词的朴素贝叶斯中文文本分类 [J].
袁方 ;
苑俊英 .
山东大学学报(理学版), 2006, (03) :46-49
[5]   SVM-KNN分类器——一种提高SVM分类精度的新方法 [J].
李蓉 ;
叶世伟 ;
史忠植 .
电子学报, 2002, (05) :745-748
[6]   Unsupervised word sense disambiguation using WordNet relatives [J].
Seo, HC ;
Chung, HJ ;
Rim, HC ;
Myaeng, SH ;
Kim, SH .
COMPUTER SPEECH AND LANGUAGE, 2004, 18 (03) :253-273
[7]   Semantic computation in a Chinese question-answering system [J].
Li, SJ ;
Zhang, J ;
Huang, X ;
Bai, S ;
Liu, Q .
JOURNAL OF COMPUTER SCIENCE AND TECHNOLOGY, 2002, 17 (06) :933-939
[8]  
Hownet .2 Dong Z D,Dong Q. http://www.keenage.com .