中文文本聚类常用停用词表对比研究

被引:246
作者
官琴
邓三鸿
王昊
机构
[1] 南京大学信息管理学院
[2] 江苏省数据工程与知识服务重点实验室
关键词
文本聚类; 停用词; K-means;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
120506 [数字人文];
摘要
【目的】通过实验对比分析,比较不同停用词表对于不同类型的文本数据的作用效果,对停用词表的构建与使用提供参考意见。【方法】选取百度停用词表、哈尔滨工业大学停用词表以及四川大学机器智能实验室停用词表,基于三个不同语料库运用汉语分词技术、TF-IDF特征评估函数以及VSM模型进行文本处理,并且采用Java编写的K-means算法进行聚类实验,通过准确率P、召回率R和F1三个评价指标对不同聚类结果进行效果评估。【结果】不同停用词表对于不同类型的文本数据作用效果差异明显,词表的长度、内容结构是影响作用效果的直接因素,其中两字停用词作用效果最为明显。【局限】实验文本类型及数量有限,同时对于不同停用词表仅在词语数量及内容上做了简单的分析比较,未对停用词按照类别分类进行实验分析。【结论】停用词表对于文本聚类准确度有很大的影响,构建或选取适宜的中文停用词表极为重要。同时,过度增加停用词的数量并不会一直改善聚类结果。
引用
收藏
页码:72 / 80
页数:9
相关论文
共 18 条
[1]
中文文本情感分类研究 [D]. 
华林森 .
重庆大学,
2014
[2]
基于云计算的文本挖掘技术研究 [D]. 
周姚 .
国防科学技术大学,
2011
[3]
改进的K均值算法在中文文本聚类中的研究 [D]. 
李梅 .
安徽大学,
2010
[4]
基于语境和停用词驱动的中文自动分词研究 [D]. 
江兆中 .
合肥工业大学,
2010
[5]
基于团结构的文本分类技术研究 [D]. 
胡晓辉 .
江西师范大学,
2008
[6]
关键词自动提取方法的研究与改进 [J].
黄磊 ;
伍雁鹏 ;
朱群峰 .
计算机科学, 2014, 41 (06) :204-207
[7]
基于句法结构分析的同义词识别方法研究 [J].
于娟 ;
尹积栋 ;
费庶 .
现代图书情报技术, 2013, (09) :35-40
[8]
一种面向中文敏感网页识别的文本分类方法 [J].
陈欣 ;
张菁 ;
李晓光 ;
卓力 .
测控技术, 2011, 30 (05) :27-31+40
[10]
知识抽取中的停用词处理技术 [J].
化柏林 .
现代图书情报技术, 2007, (08) :48-51