基于农业网络信息分类的热词自动提取方法

被引:14
作者
段青玲 [1 ]
张璐 [1 ]
刘怡然 [1 ]
王沙沙 [2 ]
机构
[1] 中国农业大学信息与电气工程学院
[2] 北京农信通科技有限责任公司
基金
国家高技术研究发展计划(863计划);
关键词
农业网络信息; 农业舆情监测; 热词; 多标记分类; 热度计算;
D O I
暂无
中图分类号
S126 [电子技术、计算机技术在农业上的应用]; TP391.1 [文字信息处理];
学科分类号
082806 [农业信息与电气工程]; 120506 [数字人文];
摘要
热词提取对于监控和分析农业舆情具有重要意义,目前已有一定研究基础,但仍存在针对性差等问题,无法满足农业领域不同产业用户群的个性化需求,为此,提出一种基于农业网络信息分类的热词自动提取方法。首先采用多标记分类算法对文本语料进行分类,按分类类别构建语料库,然后采用基于信息熵的方法对每个类别分别提取热词候选词,最后采用基于时间变化的方法进行候选词热度计算,根据候选词热度排序结果得到热词。本文抽取农业网站上的15 354条文本进行实验,结果表明,热词提取准确率达到0.9以上,能够较高质量地提取农业热词,为不同农业用户群体发现和分析产业热点提供帮助。
引用
收藏
页码:160 / 167
页数:8
相关论文
共 19 条
[1]
Optimization approach for feature selection in multi-label classification.[J].Hyunki Lim;Jaesung Lee;Dae-Won Kim.Pattern Recognition Letters.2017,
[2]
Big data. The parable of Google Flu: traps in big data analysis..[J].Lazer David;Kennedy Ryan;King Gary;Vespignani Alessandro.Science (New York; N.Y.).2014, 6176
[3]
Random k-Labelsets for Multilabel Classification [J].
Tsoumakas, Grigorios ;
Katakis, Ioannis ;
Vlahavas, Ioannis .
IEEE TRANSACTIONS ON KNOWLEDGE AND DATA ENGINEERING, 2011, 23 (07) :1079-1089
[4]
基于支持向量机的中文农业文本分类技术研究 [J].
魏芳芳 ;
段青玲 ;
肖晓琰 ;
张磊 .
农业机械学报, 2015, 46(S1) (S1) :174-179
[5]
利用信息传播特性的中文网络新词发现方法 [J].
孙立远 ;
周亚东 ;
管晓宏 .
西安交通大学学报, 2015, (12) :59-64
[6]
中英命名实体识别及对齐中的中文分词优化 [J].
尹存燕 ;
黄书剑 ;
戴新宇 ;
陈家骏 .
电子学报, 2015, 43 (08) :1481-1487
[7]
微博热词抽取及话题发现研究 [J].
郝晓玲 ;
茅嘉惠 ;
于秀艳 .
情报杂志, 2015, 34 (06) :109-113+157
[8]
基于新词发现的网络新闻热点排名 [J].
王馨 ;
王煜 ;
王亮 .
图书情报工作 , 2015, (06) :68-74
[9]
大数据分析与高速数据更新 [J].
陈世敏 .
计算机研究与发展, 2015, (02) :333-342
[10]
中文分词模型的领域适应性方法 [J].
韩冬煦 ;
常宝宝 .
计算机学报, 2015, 38 (02) :272-281