一种基于中心文档的KNN中文文本分类算法

被引：15

作者：

鲁婷

王浩

姚宏亮

机构：

[1] 合肥工业大学计算机与信息学院

来源：

计算机工程与应用 | 2011年 / 02期

基金：

安徽省自然科学基金;

关键词：

中文文本分类; k最邻近; 中心文档; 语义相似度; 聚类;

D O I：

暂无

中图分类号：

TP391.1 [文字信息处理];

学科分类号：

081203 ; 0835 ;

摘要：

在浩瀚的数据资源中,为了实现对特定主题的搜索或提取,文本自动分类技术已经成为目前研究的热点。KNN是一种重要的文本自动分类方法,KNN能够处理大规模数据,且具有较高的稳定性,但面临分类速度较慢的问题。以KNN方法为基础,引入特征项间的语义关系,并根据语义关系进行聚类生成中心文档,减少了KNN要搜索的文档数,提高了分类速度。仿真实验表明,该算法在不损失分类精度的情况下,显著提高了分类的速度。

引用

页码：127 / 130

页数：4

共 8 条

[1] 基于结构学习的KNN分类算法 [J].