关键词自动提取方法的研究与改进

被引:23
作者
黄磊 [1 ,2 ]
伍雁鹏 [2 ]
朱群峰 [2 ]
机构
[1] 湖南大学信息科学与工程学院
[2] 邵阳学院信息工程系
关键词
提取; 特征权重; TFIDF; DI-TFIDF;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
081203 ; 0835 ;
摘要
关键词提取技术是信息检索和文本分类领域的基础与关键技术之一。首先分析了TFIDF算法中存在的不足,即IDF(Inverse Document Frequency)权值中没有考虑特征词在类内以及类别间的分布情况。因此,原有的TFIDF方法会出现有些不能代表文档主题的低频词的IDF值很高,而有些能够代表文档主题的高频词的IDF值却很低的情况,这会导致关键词提取不准确。通过增加一个新的权值,即类内离散度DI(Distribution Information)来增加关键的特征词条的权重,提出了一种新的算法DI-TFIDF。实验中使用的是搜狗语料库,选择其中的体育、教育和军事3类文档各1000篇作为实验的语料库,分别用基于传统TFIDF方法和基于DI-TFIDF方法提取关键词。实验结果表明,所提出的DI-TFIDF方法提取关键词的准确度要高于传统的TFIDF算法。
引用
收藏
页码:204 / 207
页数:4
相关论文
共 9 条
[1]   基于信息增益与信息熵的TFIDF算法 [J].
李学明 ;
李海瑞 ;
薛亮 ;
何光军 .
计算机工程, 2012, 38 (08) :37-40
[2]   基于TFIDF文本特征加权方法的改进研究 [J].
张保富 ;
施化吉 ;
马素琴 .
计算机应用与软件, 2011, 28 (02) :17-20
[3]   基于同义词链的中文关键词提取算法 [J].
张颖颖 ;
谢强 ;
丁秋林 .
计算机工程, 2010, 36 (19) :93-95
[4]   基于词汇链的关键短语抽取方法的研究 [J].
刘铭 ;
王晓龙 ;
刘远超 .
计算机学报, 2010, 33 (07) :1246-1255
[5]   TFIDF算法研究综述 [J].
施聪莺 ;
徐朝军 ;
杨晓江 .
计算机应用, 2009, 29(S1) (S1) :167-170+180
[6]   文本分类中特征权重算法的改进 [J].
沈志斌 ;
白清源 .
南京师范大学学报(工程技术版), 2008, (04) :95-98+149
[7]   基于信息增益的特征词权重调整算法研究 [J].
张玉芳 ;
陈小莉 ;
熊忠阳 .
计算机工程与应用 , 2007, (35) :159-161
[8]   基于文本分类TFIDF方法的改进与应用 [J].
张玉芳 ;
彭时名 ;
吕佳 .
计算机工程, 2006, (19) :76-78
[9]   Using lexical chains for keyword extraction [J].
Ercan, Gonenc ;
Cicekli, Ilyas .
INFORMATION PROCESSING & MANAGEMENT, 2007, 43 (06) :1705-1714