新的CDF文本分类特征提取方法

被引:11
作者
熊忠阳
蒋健
张玉芳
机构
[1] 重庆大学计算机学院
基金
中国博士后科学基金;
关键词
文本分类; 降维; 特征提取; K-最近邻分类算法; 评价函数;
D O I
暂无
中图分类号
TP391.41 [];
学科分类号
080203 ;
摘要
对高维的特征集进行降维是文本分类过程中的一个重要环节。在研究了现有的特征降维技术的基础上,对部分常用的特征提取方法做了简要的分析,之后结合类间集中度、类内分散度和类内平均频度,提出了一个新的特征提取方法,即CDF方法。实验采用K-最近邻分类算法(KNN)来考查CDF方法的有效性。结果表明该方法简单有效,能够取得比传统特征提取方法更优的降维效果。
引用
收藏
页码:1755 / 1757
页数:3
相关论文
共 5 条
[1]   基于机器学习的文本分类技术研究进展 [J].
苏金树 ;
张博锋 ;
徐昕 .
软件学报, 2006, (09) :1848-1859
[2]   文本分类的特征提取方法比较与改进 [J].
申红 ;
吕宝粮 ;
内山将夫 ;
井佐原均 .
计算机仿真, 2006, (03) :222-224
[3]   文本自动分类中特征权重算法的改进研究 [J].
徐凤亚 ;
罗振声 .
计算机工程与应用, 2005, (01) :181-184+220
[4]   文本分类中的特征选取 [J].
刘丽珍 ;
宋瀚涛 .
计算机工程, 2004, (04) :14-15+175
[5]   关于文本特征抽取新方法的研究 [J].
李凡 ;
鲁明羽 ;
陆玉昌 .
清华大学学报(自然科学版), 2001, (07) :98-101