基于TextRank和簇过滤的林业文本关键信息抽取研究

被引:21
作者
陈志泊 [1 ]
李钰曼 [1 ]
许福 [1 ]
冯国明 [2 ]
师栋瑜 [3 ]
崔晓晖 [1 ]
机构
[1] 北京林业大学信息学院
[2] 中国联合网络通信集团有限公司
[3] 中国电信系统集成有限责任公司
关键词
林业文本; 关键词抽取; TextRank; 簇过滤; 信息类型;
D O I
暂无
中图分类号
S712 [森林物理学]; TP391.1 [文字信息处理];
学科分类号
090703 [森林保护学]; 120506 [数字人文];
摘要
目前,获取林业文本关键信息存在2个问题:关键信息获取主要从关键词角度考虑,忽略了词语的信息类型;网络上的林业文本没有统一的记述结构,词语信息类型提取困难。为此,本文提出了基于改进TextRank和簇过滤的林业文本关键信息抽取方法,以"关键词+信息类型"两部分表示文本关键信息。首先,抽取关键词并进行Word2Vec向量化,然后通过构建融合词语特征值、边权值的图模型对TextRank进行改进,对经迭代收敛得到的稳定图进行归并聚类形成簇;然后,设计簇品质评价公式进行簇过滤,再次应用TextRank形成最终簇集合;最后,对簇进行信息类型标注。对于测试文本,通过比较关键词向量和簇心向量的距离获得词语的信息类型,将信息类型与关键词结合得到文本的关键信息。基于2 000篇与林业政策新闻相关的林业文本进行实验,最终簇集合的紧密度为0. 968 0,间隔度为0. 057 2,综合评价指标为0. 887 1;对其中400篇文本进行关键词人工标注,将本文关键词抽取方法与TextRank、TF-IDF等6种算法进行比较,结果表明,本文方法在MRR、Bpref、准确率和综合评价指标上均获得了较好的效果,说明本文方法在提取林业文本关键词方面具有优势。
引用
收藏
页码:207 / 214+172 +172
页数:9
相关论文
共 30 条
[1]
基于KACC模型的文本分类研究 [J].
李钰曼 ;
陈志泊 ;
许福 .
数据分析与知识发现, 2019, (10) :89-97
[2]
基于文档主题结构和词图迭代的关键词抽取方法研究 [J].
孙明珠 ;
马静 ;
钱玲飞 .
数据分析与知识发现 , 2019, (08) :68-76
[3]
基于用户评论的商品特征提取及特征价格研究 [J].
文秀贤 ;
徐健 .
数据分析与知识发现, 2019, (07) :42-51
[4]
基于加权TextRank的文本关键词提取方法 [J].
徐立 .
计算机科学, 2019, 46(S1) (S1) :142-145
[5]
改进的关键词提取算法研究 [J].
王涛 ;
李明 .
重庆师范大学学报(自然科学版), 2019, 36 (03) :98-104
[6]
基于簇过滤的优势集模糊聚类集成 [J].
周冰 ;
李飞 ;
侯位昭 ;
苏攀 .
计算机与网络, 2019, 45 (07) :61-64
[7]
基于改进的隐马尔科夫模型的网页新闻关键信息抽取 [J].
刘志强 ;
都云程 ;
施水才 .
数据分析与知识发现 , 2019, (03) :120-128
[8]
基于标签和分块特征的新闻网页关键信息自动抽取 [J].
王雪梅 ;
陈兴蜀 ;
王海舟 ;
王文贤 .
山东大学学报(理学版), 2019, 54 (03) :67-74
[9]
基于DPCA的社会化问答社区用户生成答案知识聚合与主题发现服务研究 [J].
陶兴 ;
张向先 ;
郭顺利 .
情报理论与实践 , 2019, (06) :94-98+87
[10]
融合多特征的基于远程监督的中文领域实体关系抽取 [J].
王斌 ;
郭剑毅 ;
线岩团 ;
王红斌 ;
余正涛 .
模式识别与人工智能, 2019, 32 (02) :133-143