基于TextRank和簇过滤的林业文本关键信息抽取研究

被引：21

作者：

陈志泊 ^{[1
]}

李钰曼 ^{[1
]}

许福 ^{[1
]}

冯国明 ^{[2
]}

师栋瑜 ^{[3
]}

崔晓晖 ^{[1
]}

机构：

[1] 北京林业大学信息学院

[2] 中国联合网络通信集团有限公司

[3] 中国电信系统集成有限责任公司

来源：

农业机械学报 | 2020年 / 05期

关键词：

林业文本; 关键词抽取; TextRank; 簇过滤; 信息类型;

D O I：

暂无

中图分类号：

S712 [森林物理学]; TP391.1 [文字信息处理];

学科分类号：

090703 [森林保护学]; 120506 [数字人文];

摘要：

目前,获取林业文本关键信息存在2个问题:关键信息获取主要从关键词角度考虑,忽略了词语的信息类型;网络上的林业文本没有统一的记述结构,词语信息类型提取困难。为此,本文提出了基于改进TextRank和簇过滤的林业文本关键信息抽取方法,以"关键词+信息类型"两部分表示文本关键信息。首先,抽取关键词并进行Word2Vec向量化,然后通过构建融合词语特征值、边权值的图模型对TextRank进行改进,对经迭代收敛得到的稳定图进行归并聚类形成簇;然后,设计簇品质评价公式进行簇过滤,再次应用TextRank形成最终簇集合;最后,对簇进行信息类型标注。对于测试文本,通过比较关键词向量和簇心向量的距离获得词语的信息类型,将信息类型与关键词结合得到文本的关键信息。基于2 000篇与林业政策新闻相关的林业文本进行实验,最终簇集合的紧密度为0. 968 0,间隔度为0. 057 2,综合评价指标为0. 887 1;对其中400篇文本进行关键词人工标注,将本文关键词抽取方法与TextRank、TF-IDF等6种算法进行比较,结果表明,本文方法在MRR、Bpref、准确率和综合评价指标上均获得了较好的效果,说明本文方法在提取林业文本关键词方面具有优势。

引用

页码：207 / 214+172 +172

页数：9

共 30 条

[1]

基于KACC模型的文本分类研究 [J].