新的CDF文本分类特征提取方法

被引：11

作者：

熊忠阳

蒋健

张玉芳

机构：

[1] 重庆大学计算机学院

来源：

计算机应用 | 2009年 / 29卷 / 07期

基金：

中国博士后科学基金;

关键词：

文本分类; 降维; 特征提取; K-最近邻分类算法; 评价函数;

D O I：

暂无

中图分类号：

TP391.41 [];

学科分类号：

080203 ;

摘要：

对高维的特征集进行降维是文本分类过程中的一个重要环节。在研究了现有的特征降维技术的基础上,对部分常用的特征提取方法做了简要的分析,之后结合类间集中度、类内分散度和类内平均频度,提出了一个新的特征提取方法,即CDF方法。实验采用K-最近邻分类算法(KNN)来考查CDF方法的有效性。结果表明该方法简单有效,能够取得比传统特征提取方法更优的降维效果。

引用

页码：1755 / 1757

页数：3

共 5 条

[1] 基于机器学习的文本分类技术研究进展 [J].