基于关联规则和向量空间模型的文本分类研究

被引:0
作者
叶振宇
机构
[1] 东南大学
关键词
向量空间模型; 关联规则; 文本分类; 特征选择; 数据挖掘;
D O I
暂无
年度学位
2005
学位类型
硕士
摘要
文本分类技术涉及到信息检索,模式识别,机器学习等领域。它将文本按照人工事先分好的类别自动归类,而将该技术应用到信息检索时,则能提升搜索引擎的效果。经典的文本分类包括两大步骤:(1)提取文本中的特征项,并对原始特征项进行选择,最后把文本映射到向量空间模型中去;(2)利用某个分类算法分类。 然而向量空间模型有其缺点,它假设所有的特征项之间是相互独立的,事实并非如此,因此它无法发掘特征项之间的关联性。关联规则挖掘是数据挖掘一个重要领域,用于从海量数据库中寻找隐含的规则。利用关联规则挖掘文本则首先要将文本转换成事务,把一个文本看成是一个事务,文本中的特征项是事务中的项(item)。本文将分类关联规则引入特征选择过程,提出了一种二次特征选择方法。由于文本事务数据库的稀疏性,直接用关联规则挖掘不但开销大,而且效果不是很好。通过观察原始特征库,将库中特征项大致分成四类。先用类间DF“落差”初步过滤,获得对分类贡献较大的模糊词和分类词。该方法简单易行,系统开销小,过滤强度可通过阈值调节。在此基础上对第一次选择结果用CBA-RG算法进行类别关联规则挖掘,用挖掘出来的关联规则的前件组成特征集。实验证明,这种方法有效的提高了分类效果。
引用
收藏
页数:45
共 6 条
[1]
Exploiting Background Information in Knowledge Discovery from Text [J].
Feldman R. ;
Hirsh H. .
Journal of Intelligent Information Systems, 1997, 9 (1) :83-97
[2]
Induction of decision trees.[J].J. R. Quinlan.Machine Learning.1986, 1
[3]
基于向量空间模型的文本自动分类系统的研究与实现 [J].
庞剑锋 ;
卜东波 ;
白硕 .
计算机应用研究, 2001, (09) :23-26
[4]
中文文献自动分类中的知识库构造及其仿人算法 [J].
刁倩 ;
张惠惠 ;
王永成 ;
何骥 .
情报学报, 2000, (03) :248-253
[5]
书面汉语自动分词系统—CDWS [J].
梁南元 .
中文信息学报, 1987, (02) :44-52
[6]
电子计算机与文献分类 [J].
侯汉清 ;
黄刚 .
计算机与图书馆, 1982, (01) :5-14