文本分类中一种改进的特征选择方法

被引:8
作者
刘海峰 [1 ]
王元元 [1 ]
张学仁 [2 ]
机构
[1] 解放军理工大学指挥自动化学院
[2] 解放军理工大学理学院
关键词
信息增益; 互信息; 信息比值; 特征选择; 文本分类;
D O I
暂无
中图分类号
TP391.1 [文字信息处理]; TP18 [人工智能理论];
学科分类号
081203 ; 0835 ; 081104 ; 0812 ; 1405 ;
摘要
本文提出了一种改进的基于互信息的特征选择方法,与改进的TF-IDF权值公式相结合对文本特征进行选择,提高了特征项信息利用效率。试验表明,该算法提高了文本分类正确率。
引用
收藏
页码:1534 / 1537
页数:4
相关论文
共 11 条
[1]   基于向量模型的文本检索若干问题研究 [J].
刘海峰 ;
王元元 .
情报杂志, 2006, (10) :57-59+62
[2]   基于机器学习的文本分类技术研究进展 [J].
苏金树 ;
张博锋 ;
徐昕 .
软件学报, 2006, (09) :1848-1859
[3]   基于词频差异的特征选取及改进的TF-IDF公式 [J].
罗欣 ;
夏德麟 ;
晏蒲柳 .
计算机应用, 2005, (09) :2031-2033
[4]   自动文本分类中权值公式的改进 [J].
寇莎莎 ;
魏振军 .
计算机工程与设计, 2005, (06) :1616-1618
[5]   文本分类中一种新的特征选择方法 [J].
王秀娟 ;
郭军 ;
郑康锋 .
计算机应用, 2005, (03) :661-663
[6]   中文文本分类的特征选取评价 [J].
孙国菊 ;
张杰 .
哈尔滨理工大学学报, 2005, (01) :76-78
[7]   基于向量空间模型的文本分类系统的研究与实现 [J].
陈治纲 ;
何丕廉 ;
孙越恒 ;
郑小慎 .
中文信息学报, 2005, (01) :36-41
[8]   文本自动分类中特征权重算法的改进研究 [J].
徐凤亚 ;
罗振声 .
计算机工程与应用, 2005, (01) :181-184+220
[9]   基于向量空间模型的文本自动分类系统的研究与实现 [J].
庞剑锋 ;
卜东波 ;
白硕 .
计算机应用研究, 2001, (09) :23-26
[10]  
陈涛,宋妍,谢阳群.基于IIG和LSI组合特征提取方法的文本聚类研究[J].情报学报,2005(02)