文本分类技术涉及到信息检索,模式识别,机器学习等领域。它将文本按照人工事先分好的类别自动归类,而将该技术应用到信息检索时,则能提升搜索引擎的效果。经典的文本分类包括两大步骤:(1)提取文本中的特征项,并对原始特征项进行选择,最后把文本映射到向量空间模型中去;(2)利用某个分类算法分类。
然而向量空间模型有其缺点,它假设所有的特征项之间是相互独立的,事实并非如此,因此它无法发掘特征项之间的关联性。关联规则挖掘是数据挖掘一个重要领域,用于从海量数据库中寻找隐含的规则。利用关联规则挖掘文本则首先要将文本转换成事务,把一个文本看成是一个事务,文本中的特征项是事务中的项(item)。本文将分类关联规则引入特征选择过程,提出了一种二次特征选择方法。由于文本事务数据库的稀疏性,直接用关联规则挖掘不但开销大,而且效果不是很好。通过观察原始特征库,将库中特征项大致分成四类。先用类间DF“落差”初步过滤,获得对分类贡献较大的模糊词和分类词。该方法简单易行,系统开销小,过滤强度可通过阈值调节。在此基础上对第一次选择结果用CBA-RG算法进行类别关联规则挖掘,用挖掘出来的关联规则的前件组成特征集。实验证明,这种方法有效的提高了分类效果。