基于同义词词林的文本特征选择方法

被引:33
作者
郑艳红
张东站
机构
[1] 厦门大学信息科学与技术学院
关键词
特征选择; 同义词词林; 遗传算法; 文本分类;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
120506 [数字人文];
摘要
特性选择是文本分类、机器学习以及模式识别领域的重要问题之一.特征选择能在保证数据完整性的情况下减少高维数据的特征维数,同时提高分类的精度.以往提出的基于同义词词林的特征选择方法虽然能有效避免提取出的特征值在概念上的重复性,但并未考虑到权值最优的特征向量构成的子集可能并非是最优的.为了解决此问题,结合同义词和遗传算法,提出了一种新的基于同义词词林的文本特征选择方法.该方法首先对特征词进行同义词过滤、合并,在降低特征向量维度的同时避免了同义词带来的影响.然后采用改进的遗传算法选出具有较好适应度值的特征向量.实验结果表明,这种方法较之以往提出的方法,在保证特征选择准确率的基础上能明显地减小特征向量的维度.
引用
收藏
页码:200 / 203
页数:4
相关论文
共 5 条
[1]
基于同义词词林的文本特征选择与加权研究 [J].
吕震宇 ;
林永民 ;
赵爽 ;
朱卫东 .
情报杂志, 2008, (05) :130-132
[2]
一种基于改进遗传算法的文本特征选择方法 [J].
李桂芳 ;
刘培玉 .
山东师范大学学报(自然科学版), 2007, (02) :17-19
[3]
基于遗传算法的文本聚类特征选择 [J].
张锋 ;
樊孝忠 ;
许云 .
华南理工大学学报(自然科学版), 2004, (自然科学版) :133-136
[4]
中文文本分类中的特征选择研究 [J].
周茜 ;
赵明生 ;
扈旻 .
中文信息学报, 2004, (03) :17-23
[5]
同义词词林.[M].梅家驹等编;.上海辞书出版社.1996,