基于加权TextRank的文本关键词提取方法

被引:62
作者
徐立 [1 ,2 ]
机构
[1] 商丘职业技术学院软件学院
[2] 中国科学技术大学苏州研究院
关键词
提取; 加权; 词频; TextRank;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
120506 [数字人文];
摘要
为提升提取文本关键词的准确性,文中提出了一种文本关键词提取方法。该方法融合词频、词长、词语位置及词性等关键词提取影响因素,提出了候选关键词的权重公式;通过实验获取权重公式的相对最优权重系数;将权重公式应用到TextRank算法的候选关键词得分公式中,以提升提取文本关键词的准确性。通过实验对比了OPW-Text-Rank算法与TextRank算法对单文本关键词提取的准确率、召回率及F值,结果表明,OPW-TextRank算法在窗口大小为6时,提取关键词的准确率高于TextRank算法。在以文本关键词提取为基础的自然语言处理系统中所提算法具有一定的实用性。
引用
收藏
页码:142 / 145
页数:4
相关论文
共 9 条
[1]
Deep learning in neural networks: An overview.[J].Jürgen Schmidhuber.Neural Networks.2015,
[2]
基于WMFLDA主题模型的文本相似度计算 [J].
张璐 ;
芦天亮 ;
杜彦辉 .
计算机应用研究, 2019, 36 (10) :2916-2919+2951
[3]
共词分析与LDA模型分析在文本主题挖掘中的比较研究 [J].
曲靖野 ;
陈震 ;
胡轶楠 .
情报科学 , 2018, (02) :18-23
[4]
中文文本的主题关键短语提取技术 [J].
杨玥 ;
张德生 .
计算机科学, 2017, 44(S2) (S2) :432-436
[5]
大数据环境下舆情分析与决策支持研究文献综述 [J].
夏火松 ;
甄化春 .
情报杂志 , 2015, (02) :1-6+21
[6]
融合LDA与TextRank的关键词抽取研究 [J].
顾益军 ;
夏天 .
现代图书情报技术, 2014, (Z1) :41-47
[7]
基于多特征融合的中文文本关键词提取方法 [J].
张建娥 .
情报理论与实践, 2013, 36 (10) :105-108
[8]
[9]
Tag-TextRank:一种基于Tag的网页关键词抽取方法 [J].
李鹏 ;
王斌 ;
石志伟 ;
崔雅超 ;
李恒训 .
计算机研究与发展, 2012, 49 (11) :2344-2351