基于词性选择的文本预处理方法研究

被引:9
作者
李英
机构
[1] 河北北方学院图书馆
关键词
文本分类; 停用词; 词性; 文本预处理;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
081203 ; 0835 ;
摘要
预处理是文本分类中的一个重要环节,预处理结果的好坏不仅关系到分类的准确度,而且关系到训练时间的长短和影响到分类的速度。采用一种基于词性选择的文本预处理方法进行文本预处理,该方法与传统方法进行了实验对比,结果显示,该方法降低了特征维数,同时保证了分类性能。实验表明该方法能够获得较好的分类效果。
引用
收藏
页码:717 / 719+738 +738
页数:4
相关论文
共 6 条
[1]   文本分类中一种改进的特征选择方法 [J].
刘海峰 ;
王元元 ;
张学仁 .
情报科学, 2007, (10) :1534-1537
[2]   基于改进Nave Bayes的垃圾邮件过滤模型研究 [J].
王涛 ;
裘国永 ;
何聚厚 .
计算机工程与应用, 2007, (13) :186-190
[3]   文本聚类中的降维技术研究 [J].
李彦平 ;
张佳骥 .
无线电工程, 2005, (06) :51-53+56
[4]   文本自动分类系统文本预处理方法的研究 [J].
周钦强 ;
孙炳达 ;
王义 .
计算机应用研究, 2005, (02) :85-86
[5]   关于文本特征抽取新方法的研究 [J].
李凡 ;
鲁明羽 ;
陆玉昌 .
清华大学学报(自然科学版), 2001, (07) :98-101
[6]   An Evaluation of Statistical Approaches to Text Categorization [J].
Yiming Yang .
Information Retrieval, 1999, 1 (1-2) :69-90