文本分类中受词性影响的特征权重计算方法

被引:10
作者
路永和
王鸿滨
机构
[1] 中山大学资讯管理学院
关键词
文本分类; 词性; 权重计算; 粒子群算法;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
081203 ; 0835 ;
摘要
【目的】为提高分类准确率,引入词性改进特征权重计算方法,进而影响文本特征权重的取值。【方法】采用对比实验的方法,将本文提出的引入词性的特征权重计算方法与传统的TF-IDF方法分组进行实验。在引入词性的特征权重计算方法中,采用粒子群算法迭代计算最优词性权重。两组实验均采用SVM分类器进行分类。【结果】实验结果表明:改进的权重计算方法比传统的TF-IDF方法的分类效果更好,分类准确率在不同特征维度下都得到明显的提高,提高幅度在2-6个百分点。【局限】由于实验条件的不足,在使用粒子群算法寻找最优权重配比时得出的结果仅是接近最优解的配比,需要扩大数据规模与增加迭代次数才能得出更佳的权重配比。【结论】在文本分类当中引入词性能有效提高分类准确率,各词性权重大小的排序从高到低为名词、字符串、动词;结合词性的权重计算方法并不只适用于某个特定的语料集,还可以适用于一般的语料集。
引用
收藏
页码:18 / 25
页数:8
相关论文
共 11 条
[1]  
文本分类及其相关技术研究.[D].李荣陆.复旦大学.2005, 07
[2]  
PU text classification enhanced by term frequency–inverse document frequency‐improved weighting.[J].Tao Peng;Lu Liu;Wanli Zuo.Concurrency and Computation: Practice and Experience.2014, 3
[3]   A PROBABILISTIC LEARNING APPROACH FOR DOCUMENT INDEXING [J].
FUHR, N ;
BUCKLEY, C .
ACM TRANSACTIONS ON INFORMATION SYSTEMS, 1991, 9 (03) :223-248
[4]   COMPUTER EVALUATION OF INDEXING AND TEXT PROCESSING [J].
SALTON, G ;
LESK, ME .
JOURNAL OF THE ACM, 1968, 15 (01) :8-&
[5]  
群智能优化算法及其应用.[M].雷秀娟; 著.科学出版社.2012,
[6]   文本分类中特征预抽取方法研究 [J].
郑伟 ;
吕建新 ;
张建伟 .
情报科学 , 2011, (01) :86-88+92
[7]   基于词性选择的文本预处理方法研究 [J].
李英 .
情报科学 , 2009, (05) :717-719+738
[8]   文本分类中词语权重计算方法的改进与应用 [J].
熊忠阳 ;
黎刚 ;
陈小莉 ;
陈伟 .
计算机工程与应用, 2008, (05) :187-189
[9]   中文文本分类中基于词性的特征提取方法研究 [J].
胡燕 ;
吴虎子 ;
钟珞 .
武汉理工大学学报, 2007, (04) :132-135
[10]   文本聚类中的降维技术研究 [J].
李彦平 ;
张佳骥 .
无线电工程, 2005, (06) :51-53+56