一种改进的文本特征选择方法的研究与设计

被引:1
作者
许高建 [1 ]
胡学钢 [2 ]
路遥 [1 ]
涂立静 [1 ]
机构
[1] 安徽农业大学信息与计算机学院
[2] 舍肥工业大学计算机与信息学院
关键词
文本挖掘; 信息增益; 互信息; 特征向量;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
摘要
特征选择是文本挖掘技术的一个重要的环节。在中文分词的基础上,通过设计一个简单的应用程序,对文本进行预处理。然后,在分析比较几种用于文本分类的特征选择方法的基础上,提出了一种基于信息增益和互信息相结合的特征选择方法。利用它对文本文档进行特征选择,抽取代表其特征的元数据或特征词条构成特征向量,降低噪音。最后通过实验来和其它几种特征选择方法作比较,分析这种方法获取文本特征的精度。
引用
收藏
页码:21 / 23+4 +4-5
页数:5
相关论文
共 6 条