共 5 条
大数据时代基于统计特征的情报关键词提取方法
被引:16
作者:
罗繁明
杨海深
机构:
[1] 广东省社会科学院图书馆
来源:
关键词:
大数据;
关键词提取;
词偏度;
网络情报监测;
D O I:
暂无
中图分类号:
TP391.1 [文字信息处理];
学科分类号:
摘要:
为克服传统词频—逆向文本频率(TFIDF)关键词提取精度低下的缺点,文章提出一种基于多级统计特征的关键词提取(TFIDF-SK)算法。该算法采用词语TfDf指标的离散系数公式来剔除噪音词,构建基于词偏度、词语位置权重信息和词频—逆向文本频率的评估函数来度量关键词的重要性。实验结果表明该算法优于传统方法,在大数据时代网络情报监测中具有广泛的应用价值。
引用
收藏
页码:64 / 68
页数:5
相关论文