文本分类中特征选择方法的比较与改进

被引:27
作者
单丽莉
刘秉权
孙承杰
机构
[1] 哈尔滨工业大学计算机科学与技术学院
关键词
文本分类; 特征选择; 期望交叉熵;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
摘要
为了在面向旅游领域的文本分类系统中选择有效的分类特征,提高分类性能,本文根据系统采用的训练集、训练过程及分类算法等因素重新对各常用的特征选择方法进行了综合实验评测,比较了五种常用的特征选择方法,对于评测结果最好的三种函数:期望交叉熵、信息增益和互信息,通过理论分析和科学实验,分别提出了不同的改进方法.实验结果表明改进的期望交叉熵方法在本应用中能够最有效地提高系统的分类性能.
引用
收藏
页码:319 / 324
页数:6
相关论文
共 3 条
[1]  
聚类/分类理论研究及其在文本挖掘中的应用.[D].卜东波.中国科学院研究生院(计算技术研究所).2000, 02
[2]   文本分类中的特征抽取 [J].
秦进 ;
陈笑蓉 ;
汪维家 ;
陆汝占 .
计算机应用, 2003, (02) :45-46
[3]   关于文本特征抽取新方法的研究 [J].
李凡 ;
鲁明羽 ;
陆玉昌 .
清华大学学报(自然科学版), 2001, (07) :98-101