基于类别特征域的文本分类特征选择方法

被引:20
作者
赵世奇
张宇
刘挺
陈毅恒
黄永光
李生
机构
[1] 哈尔滨工业大学信息检索研究室
关键词
计算机应用; 中文信息处理; 文本分类; 特征选择; 类别特征域;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
摘要
特征选择是文本分类的关键问题之一,而噪音与数据稀疏则是特征选择过程中遇到的主要障碍。本文介绍了一种基于类别特征域的特征选择方法。该方法首先利用“组合特征抽取”[1]的方法去除原始特征空间中的噪音,从中抽取出候选特征。这里,“组合特征抽取”是指先利用文档频率(DF)的方法去掉一部分低频词,再用互信息的方法选择出候选特征。接下来,本方法为分类体系中的每个类别构建一个类别特征域,对出现在类别特征域中的候选特征进行特征的合并和强化,从而解决数据稀疏的问题。实验表明,这种新的方法较之各种传统方法在特征选择的效果上有着明显改善,并能显著提高文本分类系统的性能。
引用
收藏
页码:23 / 29
页数:7
相关论文
共 6 条
[1]   中文文本分类中的特征选择研究 [J].
周茜 ;
赵明生 ;
扈旻 .
中文信息学报, 2004, (03) :17-23
[2]   中文文本分类中特征抽取方法的比较研究 [J].
代六玲 ;
黄河燕 ;
陈肇雄 .
中文信息学报, 2004, (01) :26-32
[3]   一种基于向量空间模型的文本分类方法 [J].
李雪蕾 ;
张冬茉 .
计算机工程, 2003, (17) :90-92
[4]   一种改进的kNN方法及其在文本分类中的应用 [J].
孙丽华 ;
张积东 ;
李静梅 .
应用科技, 2002, (02) :25-27
[5]   基于向量空间模型的文本自动分类系统的研究与实现 [J].
庞剑锋 ;
卜东波 ;
白硕 .
计算机应用研究, 2001, (09) :23-26
[6]   一个基于向量空间模型的中文文本自动分类系统 [J].
朱华宇 ;
孙正兴 ;
张福炎 .
计算机工程, 2001, (02) :15-17+63