基于K-最近距离的自动文本分类的研究

被引:11
作者
孙健
王伟
钟义信
机构
[1] 北京邮电大学信息工程学院!北京
关键词
自然语言理解; 向量空间模型; K-最近距离; 自动文本分类;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
081203 ; 0835 ;
摘要
提出并实现了利用统计词频信息和语言信息相结合的方法选择特征 ,计算特征的权重值时不仅考虑词频 ,还利用了特征的集中度、分散度 .经过训练和统计对每一类文本形成特征的权重向量 ,利用 K-最近距离的方法对测试集进行分类 .对英文文本的测试结果表明 ,该算法提高了文本分类的准确率
引用
收藏
页码:42 / 46
页数:5
相关论文
共 3 条
[1]   文本分类中基于对数似然比测试的特征词选择方法 [J].
李国臣 .
中文信息学报, 1999, (04) :17-22
[2]   An Evaluation of Statistical Approaches to Text Categorization [J].
Yiming Yang .
Information Retrieval, 1999, 1 (1-2) :69-90
[3]  
Automated learning of decision rules for text categorization .2 Apte C. ACM Transaction on Information Systems . 1994