对数字化科技论文的自动分类研究

被引:5
作者
李森
马军
赵嫣
雷景生
机构
[1] 山东大学计算机科学与技术学院
关键词
科技论文; 文本分类; 层次结构; 分类精度; 分类效率;
D O I
暂无
中图分类号
TP18 [人工智能理论];
学科分类号
081104 ; 0812 ; 0835 ; 1405 ;
摘要
针对科技论文具有半结构化的特点,提出利用科技论文的元数据的多层次分类模型.这里元数据包含论文的标题、关键词集合和摘要等信息.实验证明,若只利用元数据,可以取得与传统的基于全文信息分类方法近似的分类精度;若基于领域知识所产生的分类法,先利用元数据进行粗分类,然后再进行全文分类,所得到的分类精度要高于已知最好算法.因元数据的尺寸远远小于论文全文的尺寸,而粗分类后每类的论文数要远远小于全体论文数,故在分类类别数目较多且分类文本分布较为平均的情况下,可极大地缩短分类的时间.
引用
收藏
页码:81 / 84
页数:4
相关论文
共 3 条
[1]  
知识发现.[M].史忠植著;.清华大学出版社.2002,
[2]  
《中国图书馆分类法》(第四版)使用手册.[M].中国图书馆分类法编辑委员会编;.北京图书馆出版社.1999,
[3]   汉语分词的主要技术及其应用展望 [J].
王科 ;
高常波 ;
翟雪峰 ;
罗万伯 .
通信技术, 2003, (06) :12-15