学术探索
学术期刊
新闻热点
数据分析
智能评审
立即登录
基于KNN算法的文本自动分类方法研究——以学术期刊栏目自动归类为例
被引:8
作者
:
李湘东
论文数:
0
引用数:
0
h-index:
0
机构:
武汉大学信息管理学院
武汉大学信息资源研究中心
武汉大学信息管理学院
李湘东
[
1
,
2
]
徐朋
论文数:
0
引用数:
0
h-index:
0
机构:
武汉大学信息管理学院
武汉大学信息管理学院
徐朋
[
1
]
黄莉
论文数:
0
引用数:
0
h-index:
0
机构:
武汉大学图书馆
武汉大学信息管理学院
黄莉
[
3
]
论文数:
引用数:
h-index:
机构:
沈祥兴
[
1
]
机构
:
[1]
武汉大学信息管理学院
[2]
武汉大学信息资源研究中心
[3]
武汉大学图书馆
来源
:
图书情报知识
|
2010年
/ 04期
关键词
:
KNN算法;
自动归类;
栏目;
Jensen-Shannon散度;
动态k值;
D O I
:
10.13366/j.dik.2010.04.004
中图分类号
:
TP391.1 [文字信息处理];
学科分类号
:
摘要
:
本文将期刊目录中按照主题设置的有关栏目(常设主题栏目)看作不同的类别,应用改进的KNN算法对属于不同类别(栏目)的期刊论文进行自动归类(归栏)处理。在分析期刊常设主题栏目特征的基础之上,从建立自动分类所需的训练文本集、测试集及分类(归栏)效果评价等多个方面加以定义,利用Jensen-shannon散度计算文本间的相似度,按照栏目动态决定k值等方面对KNN算法的基本原理加以改进。该方法以论文标题、摘要和作者关键词构成的短小文本为分类对象,对期刊常设主题栏目的自动归类(归栏)处理取得77.25%的F测度值,可以针对短小文本以及训练文本数量有限的情况下开展有效的文本自动分类处理。
引用
收藏
页码:71 / 76
页数:6
相关论文
共 12 条
[1]
基于K-近邻方法的网络信息文本分类
刘开袆
论文数:
0
引用数:
0
h-index:
0
机构:
贵州大方发电有限公司
贵州大方发电有限公司
刘开袆
江志雄
论文数:
0
引用数:
0
h-index:
0
机构:
上海海港通信技术有限公司
贵州大方发电有限公司
江志雄
[J].
贵州大学学报(自然科学版),
2009,
26
(03)
: 60
-
63
[2]
基于KNN算法的医药信息文本分类系统的研究
论文数:
引用数:
h-index:
机构:
许幸
论文数:
引用数:
h-index:
机构:
张启蕊
[J].
计算机技术与发展,
2009,
19
(04)
: 206
-
209
[3]
kNN在文本分类中的应用研究附视频
吕震宇
论文数:
0
引用数:
0
h-index:
0
机构:
河北理工大学经济管理学院
吕震宇
赵爽
论文数:
0
引用数:
0
h-index:
0
机构:
河北理工大学经济管理学院
赵爽
林永民
论文数:
0
引用数:
0
h-index:
0
机构:
河北理工大学经济管理学院
林永民
[J].
计算机与现代化,
2008,
(11)
: 69
-
72
[4]
中文网页分类的研究与实现
程传鹏
论文数:
0
引用数:
0
h-index:
0
机构:
中原工学院
程传鹏
[J].
中原工学院学报,
2007,
(01)
: 61
-
64
[5]
使用KNN算法的文本分类
张宁
论文数:
0
引用数:
0
h-index:
0
机构:
中国科技大学研究生院计算机学部
张宁
论文数:
引用数:
h-index:
机构:
贾自艳
史忠植
论文数:
0
引用数:
0
h-index:
0
机构:
中国科技大学研究生院计算机学部
史忠植
[J].
计算机工程,
2005,
(08)
: 171
-
172+185
[6]
基于k-近邻方法的渐进式中文文本分类技术
袁方
论文数:
0
引用数:
0
h-index:
0
机构:
河北大学 数学与计算机学院
袁方
杨柳
论文数:
0
引用数:
0
h-index:
0
机构:
河北大学 数学与计算机学院
杨柳
论文数:
引用数:
h-index:
机构:
张红霞
[J].
华南理工大学学报(自然科学版),
2004,
(S1)
: 88
-
91
[7]
信息检索技术[M]. 科学出版社 , 孙建军等编著, 2004
[8]
信息检索理论与技术[M]. 科学技术文献出版社 , 苏新宁主编, 2004
[9]
现代科技期刊编辑学[M]. 湖南科学技术出版社 , 胡传焯编著, 2001
[10]
文献学与排序论[M]. 科学技术出版社 , (德)高斯(Gaus,W.)著, 1989
←
1
2
→
共 12 条
[1]
基于K-近邻方法的网络信息文本分类
刘开袆
论文数:
0
引用数:
0
h-index:
0
机构:
贵州大方发电有限公司
贵州大方发电有限公司
刘开袆
江志雄
论文数:
0
引用数:
0
h-index:
0
机构:
上海海港通信技术有限公司
贵州大方发电有限公司
江志雄
[J].
贵州大学学报(自然科学版),
2009,
26
(03)
: 60
-
63
[2]
基于KNN算法的医药信息文本分类系统的研究
论文数:
引用数:
h-index:
机构:
许幸
论文数:
引用数:
h-index:
机构:
张启蕊
[J].
计算机技术与发展,
2009,
19
(04)
: 206
-
209
[3]
kNN在文本分类中的应用研究附视频
吕震宇
论文数:
0
引用数:
0
h-index:
0
机构:
河北理工大学经济管理学院
吕震宇
赵爽
论文数:
0
引用数:
0
h-index:
0
机构:
河北理工大学经济管理学院
赵爽
林永民
论文数:
0
引用数:
0
h-index:
0
机构:
河北理工大学经济管理学院
林永民
[J].
计算机与现代化,
2008,
(11)
: 69
-
72
[4]
中文网页分类的研究与实现
程传鹏
论文数:
0
引用数:
0
h-index:
0
机构:
中原工学院
程传鹏
[J].
中原工学院学报,
2007,
(01)
: 61
-
64
[5]
使用KNN算法的文本分类
张宁
论文数:
0
引用数:
0
h-index:
0
机构:
中国科技大学研究生院计算机学部
张宁
论文数:
引用数:
h-index:
机构:
贾自艳
史忠植
论文数:
0
引用数:
0
h-index:
0
机构:
中国科技大学研究生院计算机学部
史忠植
[J].
计算机工程,
2005,
(08)
: 171
-
172+185
[6]
基于k-近邻方法的渐进式中文文本分类技术
袁方
论文数:
0
引用数:
0
h-index:
0
机构:
河北大学 数学与计算机学院
袁方
杨柳
论文数:
0
引用数:
0
h-index:
0
机构:
河北大学 数学与计算机学院
杨柳
论文数:
引用数:
h-index:
机构:
张红霞
[J].
华南理工大学学报(自然科学版),
2004,
(S1)
: 88
-
91
[7]
信息检索技术[M]. 科学出版社 , 孙建军等编著, 2004
[8]
信息检索理论与技术[M]. 科学技术文献出版社 , 苏新宁主编, 2004
[9]
现代科技期刊编辑学[M]. 湖南科学技术出版社 , 胡传焯编著, 2001
[10]
文献学与排序论[M]. 科学技术出版社 , (德)高斯(Gaus,W.)著, 1989
←
1
2
→