大数据时代基于统计特征的情报关键词提取方法

被引:16
作者
罗繁明
杨海深
机构
[1] 广东省社会科学院图书馆
关键词
大数据; 关键词提取; 词偏度; 网络情报监测;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
摘要
为克服传统词频—逆向文本频率(TFIDF)关键词提取精度低下的缺点,文章提出一种基于多级统计特征的关键词提取(TFIDF-SK)算法。该算法采用词语TfDf指标的离散系数公式来剔除噪音词,构建基于词偏度、词语位置权重信息和词频—逆向文本频率的评估函数来度量关键词的重要性。实验结果表明该算法优于传统方法,在大数据时代网络情报监测中具有广泛的应用价值。
引用
收藏
页码:64 / 68
页数:5
相关论文
共 5 条
[1]   大数据视角下的情报研究与情报研究技术 [J].
李广建 ;
杨林 .
图书与情报, 2012, (06) :1-8
[2]   基于语义的中文文本关键词提取算法 [J].
王立霞 ;
淮晓永 .
计算机工程, 2012, 38 (01) :1-4
[3]   一种改进的TFIDF网页关键词提取方法 [J].
李静月 ;
李培峰 ;
朱巧明 .
计算机应用与软件, 2011, 28 (05) :25-27
[4]   政府网络舆情监测分析及预警 [J].
闫利平 ;
陶卫江 ;
韩晓虎 ;
靳兰 .
现代情报 , 2011, (04) :46-48+52
[5]   热点主题词提取方法研究 [J].
程肖 ;
陆蓓 ;
谌志群 .
现代图书情报技术, 2010, (10) :43-48