基于粗糙集的文本分类特征选择算法

被引:8
作者
张志飞 [1 ,2 ]
苗夺谦 [1 ,2 ]
机构
[1] 同济大学计算机科学与技术系
[2] 同济大学嵌入式系统与服务计算教育部重点实验室
基金
高等学校博士学科点专项科研基金;
关键词
文本分类; 粗糙集; 特征选择; 快速约简;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
081203 ; 0835 ;
摘要
文本分类是根据未知文本的内容将其划分到一个或多个预先定义的类别的过程,是许多基于内容的信息管理任务的重要组成部分.文本分类问题的难点是特征空间的高维性,通常采用特征选择作为降维的重要方法.将属性约简和文本分类的特点相结合,提出了一种基于粗糙集的特征选择算法即改进的快速约简算法.实验表明该算法是有效的,不仅可以降低特征空间的维度,而且能够维持高精度.
引用
收藏
页码:453 / 457
页数:5
相关论文
共 5 条
[1]  
中文文本信息处理的原理与应用.[M].苗夺谦; 卫志华; 编著.清华大学出版社.2007,
[2]  
Rough集理论与知识获取.[M].王国胤编著;.西安交通大学出版社.2001,
[3]   基于Naive Bayes的文本分类器的设计与实现 [J].
周屹 .
黑龙江工程学院学报, 2007, (02) :28-30
[4]   基于Rough集约简算法的中文文本自动分类系统 [J].
盛晓炜 ;
江铭虎 .
电子与信息学报, 2005, (07) :1047-1052
[5]   知识约简的一种启发式算法 [J].
苗夺谦 ;
胡桂荣 .
计算机研究与发展, 1999, (06) :42-45