基于改进的TFIDF关键词自动提取算法研究

被引:0
作者
杨凯艳
机构
[1] 湘潭大学
关键词
自动提取; TFIDF; 信息增益; 离散度; 多特征融合;
D O I
暂无
年度学位
2015
学位类型
硕士
摘要
传统TFIDF算法的不足存在于两方面:文本内部,忽略了特征项的除词频外的其他特征对词语重要程度的表现力;文本外部,没有考虑特征项与文本集合类别的依存关系。目前对TFIDF的改进大多是从文本外部方面进行的,或者直接改进IDF计算公式,或者基于类别分布信息加入新的计算因子调整IDF的计算结果。这些改进算法应用于文本分类上都能得到较好地分类效果,但若要应用于关键词提取算法中,则不是不能直接应用,就是对关键词的提取效果不理想。论文针对TFIDF算法中计算IDF时没有考虑词语在文本集上的分布情况而高度依赖词语文档频数的问题,提出结合信息增益和离散度量化词语在文本集上的分布信息,对IDF计算结果进行调整的改进方案;针对TFIDF算法中词频TF对文本内部信息表现不足的问题,提出在词频基础上融合词长、词性、词位置与词跨度等多个特征来表现词语对文本的重要性程度的改进方法。实验结果表明该算法对关键词的提取效果明显。
引用
收藏
页数:55
共 39 条
[1]
Using lexical chains for keyword extraction [J].
Ercan, Gonenc ;
Cicekli, Ilyas .
INFORMATION PROCESSING & MANAGEMENT, 2007, 43 (06) :1705-1714
[2]
A statistical interpretation of term specificity and its application in retrieval [J].
Sparck-Jones, K .
JOURNAL OF DOCUMENTATION, 2004, 60 (05) :493-502
[3]
The small world of human language [J].
Cancho, RFI ;
Solé, RV .
PROCEEDINGS OF THE ROYAL SOCIETY B-BIOLOGICAL SCIENCES, 2001, 268 (1482) :2261-2265
[4]
基于语义的文档关键词提取方法 [J].
姜芳 ;
李国和 ;
岳翔 .
计算机应用研究, 2015, 32 (01) :142-145
[5]
一种基于聚类的微博关键词提取方法的研究与实现 [J].
孙兴东 ;
李爱平 ;
李树栋 .
信息网络安全, 2014, (12) :27-31
[6]
融合多特征的中文关键词提取方法 [J].
潘丽敏 ;
吴军华 ;
林萌 ;
罗森林 .
信息网络安全, 2014, (08) :40-44
[7]
潜在语义分析在关键词—叙词对照系统构建中的应用 [J].
李国垒 ;
陈先来 .
情报理论与实践, 2014, 37 (04) :127-130+133
[8]
结合语义扩展度和词汇链的关键词提取算法 [J].
刘端阳 ;
王良芳 .
计算机科学, 2013, 40 (12) :264-269+291
[9]
浅谈文本数据自动标引系统的设计 [J].
王莉 ;
许凯 .
图书馆理论与实践, 2013, (06) :95-97
[10]