基于词频统计规律的文本数据预处理方法

被引:12
作者
池云仙
赵书良
罗燕
高琳
赵骏鹏
李超
机构
[1] 河北师范大学数学与信息科学学院
[2] 河北师范大学河北省计算数学与应用数学重点实验室
关键词
大数据; 文本挖掘; 数据预处理; 词频统计;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
081203 ; 0835 ;
摘要
在大数据时代,文本挖掘面临特征的"高维-稀疏"问题,海量文本词汇与稀少关键特征间的矛盾导致了高时空复杂度和低效率等问题,严重制约了文本挖掘效率,因此在文本挖掘前进行有效的数据预处理至关重要。传统文本挖掘算法在数据预处理阶段只进行分词和去停用词操作。为提高性能,提出基于词频统计规律的文本数据预处理方法。首先,基于齐普夫定律和最大值法推导同频词数表达式;然后,基于同频词数表达式探究各频次词语在文中的分布规律,结果表明词频为1和2的词语与文档的关联度较低,但比重高达2/3;最后,基于词频统计规律进行数据预处理,在预处理阶段去除低频词,减小特征维度。在公共数据集Reuters-21578和20-Newsgroups上进行的实验的结果表明,各频次词语的分布规律是正确的,基于词频统计规律的文本数据预处理方法在分类准确率、精确率、召回率以及F1度量值方面均有提升,运行时间明显降低,文本挖掘效率得到显著提高。
引用
收藏
页码:276 / 282+288 +288
页数:8
相关论文
共 6 条
[1]   一种语义增强的空间关键词搜索方法 [J].
韩军 ;
范举 ;
周立柱 .
计算机研究与发展, 2015, 52 (09) :1954-1964
[2]   一种综合语义和时效性意图的检索结果多样化方法 [J].
任鹏杰 ;
陈竹敏 ;
马军 ;
隋雪芹 ;
吴凯 .
计算机学报, 2015, 38 (10) :2076-2091
[3]   微博数据挖掘研究综述 [J].
丁兆云 ;
贾焰 ;
周斌 .
计算机研究与发展 , 2014, (04) :691-706
[4]   空间数据上Top-k关键词模糊查询算法 [J].
胡骏 ;
范举 ;
李国良 ;
陈姗姗 .
计算机学报, 2012, 35 (11) :2237-2246
[5]  
文献计量学[M]. 科学技术文献出版社 , 邱均平 编著, 1988
[6]  
Data mining for improving textbooks[J] . Rakesh Agrawal,Sreenivas Gollapudi,Anitha Kannan,Krishnaram Kenthapadi.ACM SIGKDD Explorations Newsletter . 2012 (2)