面向化学领域网络资源的文本自动分类算法

被引:3
作者
梁春燕
夏诏杰
郭力
机构
[1] 中国科学院过程工程研究所
[2] 中国科学院过程工程研究所 北京 100080
关键词
机器学习; 化学主题搜索引擎; 文本自动分类; k-近邻方法; 隐含语义检索;
D O I
暂无
中图分类号
TP393.09 [];
学科分类号
080402 ;
摘要
为了提高化学主题搜索引擎的查询效果,采用距离加权七一近邻分类算法来进行自动分类.为了测试该算法对化学领域网络资源进行分类的效果,文中使用化学化工资源导航系统ChIN人工积累的资源和描述信息作为数据集,并采用基于化学领域的多层次分类体系进行分类.经测试,系统微平均值Fmicro最高可达到71%.文中还就文档的关键词和数据集的熵对分类性能的影响进行了讨论.结果表明,该算法能较好地应用于化学领域网络资源的自动分类.
引用
收藏
页码:52 / 57
页数:6
相关论文
共 2 条
[1]  
BoosTexter: A Boosting-based System for Text Categorization[J] . Robert E. Schapire,Yoram Singer.Machine Learning . 2000 (2-3)
[2]   An Evaluation of Statistical Approaches to Text Categorization [J].
Yiming Yang .
Information Retrieval, 1999, 1 (1-2) :69-90