中文停用词表的自动选取

被引:35
作者
顾益军
樊孝忠
王建华
汪涛
黄维金
机构
[1] 北京理工大学信息科学技术学院计算机科学工程系
[2] 中国公安大学信息安全工程系 北京
[3] 北京
关键词
停用词; 中文停用词表; 联合熵;
D O I
10.15918/j.tbit1001-0645.2005.04.014
中图分类号
TP391.1 [文字信息处理];
学科分类号
081203 ; 0835 ;
摘要
通过对现有基于统计的停用词选取方法的考察,提出了一种新的停用词选取方法.用该方法分别计算词条在语料库中各个句子内发生的概率和包含该词条的句子在语料库中的概率,在此基础上计算它们的联合熵,依据联合熵选取停用词.将该方法与传统方法选取的停用词表进行了对比,并比较了将各种方法用于文本分类的预处理时对分类效果的影响.实验结果表明,该方法更好地避免了语料的行文格式对停用词选取的影响,比传统方法更适用于文本分类的预处理.
引用
收藏
页码:337 / 340
页数:4
相关论文
共 2 条
[1]   向量空间法中单词权重函数的分析和构造 [J].
陆玉昌 ;
鲁明羽 ;
李凡 ;
周立柱 .
计算机研究与发展, 2002, (10) :1205-1210
[2]  
文本分类语料库[复旦]测试语料 .2 自然语言处理开放平台. http:∥www.nlp.org.cn/categories . 2003