基于改进TF-IDF算法的情报关键词提取方法

被引:62
作者
张瑾
机构
[1] 郑州轻工业学院
关键词
提取; TF-IDF; 位置权值; 词跨度值;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
摘要
传统的TF-IDF完全基于词频,忽略了词语的其它特征项对关键词的影响。本文提出基于TF-IDF、词位置和词跨度的关键词自动提取的方法。该方法通过在传统的TF-IDF关键词权重计算方法中,加入位置权值及词跨度权值,避免单纯采用TF-IDF算法产生的偏差。实验结果表明,该方法在情报关键词提取中有广泛的应用价值,其准确率、召回率及F1值与传统方法相比有明显提升。
引用
收藏
页码:153 / 155
页数:3
相关论文
共 5 条
[1]  
中文文本分类中分词和特征选择方法研究.[D].李原.吉林大学.2011, 09
[2]   一种基于最少出现文档频的文本特征提取方法 [J].
苏丹 ;
周明全 ;
王学松 ;
任玉芝 .
计算机工程与应用 , 2012, (10) :164-166+178
[3]   一种改进的特征权重算法 [J].
张瑜 ;
张德贤 .
计算机工程, 2011, 37 (05) :210-212
[4]   文本分类中特征权重算法的改进 [J].
沈志斌 ;
白清源 .
南京师范大学学报(工程技术版), 2008, (04) :95-98+149
[5]   自动标引研究的回顾与展望 [J].
章成志 .
现代图书情报技术, 2007, (11) :33-39