基于改进TF-IDF算法的情报关键词提取方法

被引：62

作者：

张瑾

机构：

[1] 郑州轻工业学院

来源：

情报杂志 | 2014年 / 33卷 / 04期

关键词：

提取; TF-IDF; 位置权值; 词跨度值;

D O I：

暂无

中图分类号：

TP391.1 [文字信息处理];

学科分类号：

摘要：

传统的TF-IDF完全基于词频,忽略了词语的其它特征项对关键词的影响。本文提出基于TF-IDF、词位置和词跨度的关键词自动提取的方法。该方法通过在传统的TF-IDF关键词权重计算方法中,加入位置权值及词跨度权值,避免单纯采用TF-IDF算法产生的偏差。实验结果表明,该方法在情报关键词提取中有广泛的应用价值,其准确率、召回率及F1值与传统方法相比有明显提升。

引用

页码：153 / 155

页数：3

共 5 条

[1]

中文文本分类中分词和特征选择方法研究.[D].李原.吉林大学.2011, 09

[2] 一种基于最少出现文档频的文本特征提取方法 [J].