学术探索
学术期刊
新闻热点
数据分析
智能评审
立即登录
利用Medline文摘数据库研究文本分类
被引:2
作者
:
霍东云
论文数:
0
引用数:
0
h-index:
0
机构:
中国科学院过程工程研究所多相反应实验室
霍东云
聂峰光
论文数:
0
引用数:
0
h-index:
0
机构:
中国科学院过程工程研究所多相反应实验室
聂峰光
郭力
论文数:
0
引用数:
0
h-index:
0
机构:
中国科学院过程工程研究所多相反应实验室
郭力
机构
:
[1]
中国科学院过程工程研究所多相反应实验室
[2]
%中国科学院研究生院
来源
:
计算机与应用化学
|
2007年
/ 09期
关键词
:
Medline;
文本分类;
SVM;
D O I
:
10.16866/j.com.app.chem2007.09.033
中图分类号
:
TP311.13 [];
学科分类号
:
1201 ;
摘要
:
文本分类领域的困难,在于如何获得大量人工标记好的分类样本数据集,Medline数据库在专家的长期维护下,具有完善的基于MeSH(Medical Subject Headings)的分类体系,以及大量的文摘,可用来制作分类样本数据集。本文介绍和研究Medline数据库,提出如何利用它构建良好的分类模型,实验表明,利用Medline文摘数据库,通过Major标记,特征项数目采用5000,训练样本采用600,利用SVM分类器,可得较好的分类模型,从而为文本分类研究提供一种实用、高效的数据集制作方式。
引用
收藏
页码:1281 / 1284
页数:4
相关论文
共 3 条
[1]
面向化学领域网络资源的文本自动分类算法
[J].
梁春燕
论文数:
0
引用数:
0
h-index:
0
机构:
中国科学院过程工程研究所
梁春燕
;
夏诏杰
论文数:
0
引用数:
0
h-index:
0
机构:
中国科学院过程工程研究所
夏诏杰
;
郭力
论文数:
0
引用数:
0
h-index:
0
机构:
中国科学院过程工程研究所
郭力
.
华南理工大学学报(自然科学版),
2004,
(S1)
:52
-57
[2]
基于向量空间模型的文本自动分类系统的研究与实现
[J].
论文数:
引用数:
h-index:
机构:
庞剑锋
;
论文数:
引用数:
h-index:
机构:
卜东波
;
白硕
论文数:
0
引用数:
0
h-index:
0
机构:
中国科学院计算技术研究所!北京
白硕
.
计算机应用研究,
2001,
(09)
:23
-26
[3]
A vector space model for automatic indexing[J] . G. Salton,A. Wong,C. S. Yang. Communications of the ACM . 1975 (11)
←
1
→
共 3 条
[1]
面向化学领域网络资源的文本自动分类算法
[J].
梁春燕
论文数:
0
引用数:
0
h-index:
0
机构:
中国科学院过程工程研究所
梁春燕
;
夏诏杰
论文数:
0
引用数:
0
h-index:
0
机构:
中国科学院过程工程研究所
夏诏杰
;
郭力
论文数:
0
引用数:
0
h-index:
0
机构:
中国科学院过程工程研究所
郭力
.
华南理工大学学报(自然科学版),
2004,
(S1)
:52
-57
[2]
基于向量空间模型的文本自动分类系统的研究与实现
[J].
论文数:
引用数:
h-index:
机构:
庞剑锋
;
论文数:
引用数:
h-index:
机构:
卜东波
;
白硕
论文数:
0
引用数:
0
h-index:
0
机构:
中国科学院计算技术研究所!北京
白硕
.
计算机应用研究,
2001,
(09)
:23
-26
[3]
A vector space model for automatic indexing[J] . G. Salton,A. Wong,C. S. Yang. Communications of the ACM . 1975 (11)
←
1
→