基于人工标引的中文学术期刊文献自动分类算法

被引:6
作者
王洪
贾惠波
徐端颐
机构
[1] 清华大学精密仪器与机械学系
[2] 清华大学精密仪器与机械学系 北京
[3] 北京
关键词
自动分类; 人工标引; 特征词向量空间; 文献; 中文文本;
D O I
10.16511/j.cnki.qhdxxb.2002.06.021
中图分类号
TP399 [在其他方面的应用];
学科分类号
081203 ; 0835 ;
摘要
为了解决期刊电子化的自动分类问题 ,提出了一种基于中文学术期刊人工标引的自动分类算法。这种算法主要利用自动分词得到各文献的特征词向量空间 ,并考虑到人工标引在分类中的关键作用 ,得到综合了特征词 TF和 IDF权重的分类准则。通过适当训练建立分类库 ,计算待分类样本与已知分类的相似性 ,判别各分类。实验表明 :该分类算法可以获得 85 %的分类识别率
引用
收藏
页码:787 / 790
页数:4
相关论文
共 2 条
[1]   中国期刊网专题数据库——因特网上的中文期刊资源 [J].
黄晓玲 .
情报理论与实践, 2000, (04) :272-273
[2]   文本自动分类中的词权重与分类算法 [J].
刁倩 ;
王永成 ;
张惠惠 ;
何骥 .
中文信息学报, 2000, (03) :25-29