一种面向文本分类的特征向量优化方法

被引:13
作者
郭正斌
张仰森
蒋玉茹
机构
[1] 北京信息科技大学智能信息处理研究所
关键词
机器学习; Mahout; 特征向量; 向量优化; 文本分类;
D O I
暂无
中图分类号
TP181 [自动推理、机器学习]; TP391.1 [文字信息处理];
学科分类号
081104 ; 0812 ; 0835 ; 1405 ; 081203 ;
摘要
对文本进行建模的普遍方法是使用向量空间模型构建文本向量,并利用权值调整和维度调整对文本向量进行优化。提出了一种面向文本分类的特征向量优化方法。首先利用剔除近义词方法优化文本向量中的特征项;然后提出贡献率因子的概念,并利用其优化特征值。实验表明,相比朴素贝叶斯分类方法其效果提高了0.96%。因此,通过去除近义词和对提取出的特征词调整权重,可以达到优化特征向量、提高文本分类效果的目的。
引用
收藏
页码:2299 / 2302+2348 +2348
页数:5
相关论文
empty
未找到相关数据