利用Medline文摘数据库研究文本分类

被引:2
作者
霍东云
聂峰光
郭力
机构
[1] 中国科学院过程工程研究所多相反应实验室
[2] %中国科学院研究生院
关键词
Medline; 文本分类; SVM;
D O I
10.16866/j.com.app.chem2007.09.033
中图分类号
TP311.13 [];
学科分类号
1201 ;
摘要
文本分类领域的困难,在于如何获得大量人工标记好的分类样本数据集,Medline数据库在专家的长期维护下,具有完善的基于MeSH(Medical Subject Headings)的分类体系,以及大量的文摘,可用来制作分类样本数据集。本文介绍和研究Medline数据库,提出如何利用它构建良好的分类模型,实验表明,利用Medline文摘数据库,通过Major标记,特征项数目采用5000,训练样本采用600,利用SVM分类器,可得较好的分类模型,从而为文本分类研究提供一种实用、高效的数据集制作方式。
引用
收藏
页码:1281 / 1284
页数:4
相关论文
共 3 条
[1]   面向化学领域网络资源的文本自动分类算法 [J].
梁春燕 ;
夏诏杰 ;
郭力 .
华南理工大学学报(自然科学版), 2004, (S1) :52-57
[2]   基于向量空间模型的文本自动分类系统的研究与实现 [J].
庞剑锋 ;
卜东波 ;
白硕 .
计算机应用研究, 2001, (09) :23-26
[3]  
A vector space model for automatic indexing[J] . G. Salton,A. Wong,C. S. Yang. Communications of the ACM . 1975 (11)