共 6 条
基于类别特征域的文本分类特征选择方法
被引:20
作者:
赵世奇
张宇
刘挺
陈毅恒
黄永光
李生
机构:
[1] 哈尔滨工业大学信息检索研究室
来源:
关键词:
计算机应用;
中文信息处理;
文本分类;
特征选择;
类别特征域;
D O I:
暂无
中图分类号:
TP391.1 [文字信息处理];
学科分类号:
摘要:
特征选择是文本分类的关键问题之一,而噪音与数据稀疏则是特征选择过程中遇到的主要障碍。本文介绍了一种基于类别特征域的特征选择方法。该方法首先利用“组合特征抽取”[1]的方法去除原始特征空间中的噪音,从中抽取出候选特征。这里,“组合特征抽取”是指先利用文档频率(DF)的方法去掉一部分低频词,再用互信息的方法选择出候选特征。接下来,本方法为分类体系中的每个类别构建一个类别特征域,对出现在类别特征域中的候选特征进行特征的合并和强化,从而解决数据稀疏的问题。实验表明,这种新的方法较之各种传统方法在特征选择的效果上有着明显改善,并能显著提高文本分类系统的性能。
引用
收藏
页码:23 / 29
页数:7
相关论文