基于KNN算法的文本自动分类方法研究——以学术期刊栏目自动归类为例

被引:8
作者
李湘东 [1 ,2 ]
徐朋 [1 ]
黄莉 [3 ]
沈祥兴 [1 ]
机构
[1] 武汉大学信息管理学院
[2] 武汉大学信息资源研究中心
[3] 武汉大学图书馆
关键词
KNN算法; 自动归类; 栏目; Jensen-Shannon散度; 动态k值;
D O I
10.13366/j.dik.2010.04.004
中图分类号
TP391.1 [文字信息处理];
学科分类号
摘要
本文将期刊目录中按照主题设置的有关栏目(常设主题栏目)看作不同的类别,应用改进的KNN算法对属于不同类别(栏目)的期刊论文进行自动归类(归栏)处理。在分析期刊常设主题栏目特征的基础之上,从建立自动分类所需的训练文本集、测试集及分类(归栏)效果评价等多个方面加以定义,利用Jensen-shannon散度计算文本间的相似度,按照栏目动态决定k值等方面对KNN算法的基本原理加以改进。该方法以论文标题、摘要和作者关键词构成的短小文本为分类对象,对期刊常设主题栏目的自动归类(归栏)处理取得77.25%的F测度值,可以针对短小文本以及训练文本数量有限的情况下开展有效的文本自动分类处理。
引用
收藏
页码:71 / 76
页数:6
相关论文
共 12 条