学术探索
学术期刊
新闻热点
数据分析
智能评审
立即登录
基于改进TF-IDF算法的情报关键词提取方法
被引:62
作者
:
张瑾
论文数:
0
引用数:
0
h-index:
0
机构:
郑州轻工业学院
张瑾
机构
:
[1]
郑州轻工业学院
来源
:
情报杂志
|
2014年
/ 33卷
/ 04期
关键词
:
提取;
TF-IDF;
位置权值;
词跨度值;
D O I
:
暂无
中图分类号
:
TP391.1 [文字信息处理];
学科分类号
:
摘要
:
传统的TF-IDF完全基于词频,忽略了词语的其它特征项对关键词的影响。本文提出基于TF-IDF、词位置和词跨度的关键词自动提取的方法。该方法通过在传统的TF-IDF关键词权重计算方法中,加入位置权值及词跨度权值,避免单纯采用TF-IDF算法产生的偏差。实验结果表明,该方法在情报关键词提取中有广泛的应用价值,其准确率、召回率及F1值与传统方法相比有明显提升。
引用
收藏
页码:153 / 155
页数:3
相关论文
共 5 条
[1]
中文文本分类中分词和特征选择方法研究.[D].李原.吉林大学.2011, 09
[2]
一种基于最少出现文档频的文本特征提取方法
[J].
论文数:
引用数:
h-index:
机构:
苏丹
;
论文数:
引用数:
h-index:
机构:
周明全
;
王学松
论文数:
0
引用数:
0
h-index:
0
机构:
不详
王学松
;
论文数:
引用数:
h-index:
机构:
任玉芝
.
计算机工程与应用 ,
2012,
(10)
:164
-166+178
[3]
一种改进的特征权重算法
[J].
论文数:
引用数:
h-index:
机构:
张瑜
;
论文数:
引用数:
h-index:
机构:
张德贤
.
计算机工程,
2011,
37
(05)
:210
-212
[4]
文本分类中特征权重算法的改进
[J].
论文数:
引用数:
h-index:
机构:
沈志斌
;
白清源
论文数:
0
引用数:
0
h-index:
0
机构:
福州大学数学与计算机科学学院
白清源
.
南京师范大学学报(工程技术版),
2008,
(04)
:95
-98+149
[5]
自动标引研究的回顾与展望
[J].
章成志
论文数:
0
引用数:
0
h-index:
0
机构:
南京理工大学信息管理系
章成志
.
现代图书情报技术,
2007,
(11)
:33
-39
←
1
→
共 5 条
[1]
中文文本分类中分词和特征选择方法研究.[D].李原.吉林大学.2011, 09
[2]
一种基于最少出现文档频的文本特征提取方法
[J].
论文数:
引用数:
h-index:
机构:
苏丹
;
论文数:
引用数:
h-index:
机构:
周明全
;
王学松
论文数:
0
引用数:
0
h-index:
0
机构:
不详
王学松
;
论文数:
引用数:
h-index:
机构:
任玉芝
.
计算机工程与应用 ,
2012,
(10)
:164
-166+178
[3]
一种改进的特征权重算法
[J].
论文数:
引用数:
h-index:
机构:
张瑜
;
论文数:
引用数:
h-index:
机构:
张德贤
.
计算机工程,
2011,
37
(05)
:210
-212
[4]
文本分类中特征权重算法的改进
[J].
论文数:
引用数:
h-index:
机构:
沈志斌
;
白清源
论文数:
0
引用数:
0
h-index:
0
机构:
福州大学数学与计算机科学学院
白清源
.
南京师范大学学报(工程技术版),
2008,
(04)
:95
-98+149
[5]
自动标引研究的回顾与展望
[J].
章成志
论文数:
0
引用数:
0
h-index:
0
机构:
南京理工大学信息管理系
章成志
.
现代图书情报技术,
2007,
(11)
:33
-39
←
1
→