文本分类中词共现关系的研究及其应用

被引:0
作者
章舜仲
机构
[1] 南京理工大学
关键词
文本分类; 词语共现; 关联规则; 遗传算法; 线性相关分析; 贝叶斯分类;
D O I
暂无
年度学位
2010
学位类型
博士
摘要
在网络信息时代,文本分类作为大规模文本处理的技术基础,有着广泛的应用前景。随着研究的深入,文本分类技术日趋成熟,开始进入实用阶段,对于文本分类算法本身的研究越来越难以取得突破性创新。在这种情况下,寻找新的研究切入点,从基础性问题入手,解决关键技术,再逐步展开应用于分类器性能的改进,对于文本分类技术研究的发展具有重要的意义。 本文从分析文本类别特征入手,提出了文本分类中词语共现关系研究的课题,从关联和相关两个方面研究了词语共现关系,然后提出了多种将词关联和词相关应用于文本分类的方法,可概括为直接的基于关联或相关的文本分类模型构建以及间接的其它文本分类模型的改进这样两种应用方式。 关联和相关的概念源于数据挖掘中的规则有趣性度量,本文将其应用于文本分类,又采用了统计学中对于相关的一般性解释,从线性和非线性两个方面分析了词间相关性,其中线性相关分析包括了线性方程参数求解和线性相关系数的计算,而非线性相关则主要分析了基于概率的相关性度量指标计算。 对于关联分析在文本分类中的应用,本文从关联文本分类模型和关联特征选择这两个方面进行研究。关联文本分类模型是一种基于规则的文本分类模型,在分类规则挖掘算法上,我们提出了一种应用于长频繁集挖掘的基于变动邻域搜索的遗传算法(VNS-GA)设计,在文档类别判定方法上,我们提出了基于规则匹配长度计算的文档区分算法。在关联特征选择的研究中,我们总结了文档类别区分能力和文档覆盖率这两个特征选择原则,提出了k项频集的并集的选择方法。在Yahoo中文文本数据集上的实验结果表明本文提出的长频繁集挖掘算法能够有效地应用于关联文本分类模型,而运用关联特征选择的朴素贝叶斯文本分类模型也大大提高了分类性能。 对于相关分析在文本分类中的应用,本文所作研究包括线性最小二乘拟合(LLSF)分类、LLSF和朴素贝叶斯组合分类和基于概率相关性分析的改进贝叶斯分类。在Reuters-21578文本集上的实验结果可得以下结论:首先,LLSF分类器的效果不够理想,说明在文本分类中词间线性关系表现较弱,完全基于线性关系假设的分类器可能存在较大偏差;其次,LLSF和朴素贝叶斯组合分类的性能要好于两种分类器单独使用的性能,说明尽管LLSF分类效果较差,但作为一种成熟分类算法仍有其价值;最后,基于概率相关性分析的改进贝叶斯比朴素贝叶斯分类在评测指标上有着全面的明显的提高,说明了本文提出的词集相关度计算方法用于改进贝叶斯分类的有效性。
引用
收藏
页数:104
共 28 条
[1]
关联文本分类关键技术研究 [D]. 
钱铁云 .
华中科技大学,
2006
[2]
一种基于随机森林的多视角文本分类方法 [J].
田宝明 ;
戴新宇 ;
陈家骏 .
中文信息学报, 2009, 23 (04) :48-54
[3]
基于关联规则的特征选择算法 [J].
武建华 ;
宋擒豹 ;
沈均毅 ;
谢建文 .
模式识别与人工智能, 2009, 22 (02) :256-262
[4]
一种直推式多标记文档分类方法 [J].
姜远 ;
佘俏俏 ;
黎铭 ;
周志华 .
计算机研究与发展 , 2008, (11) :1817-1823
[5]
一种基于向量夹角的k近邻多标记文本分类算法 [J].
广凯 ;
潘金贵 .
计算机科学, 2008, (04) :205-206+297
[6]
多维随机变量的线性相关性 [J].
蒋福坤 ;
刘正春 ;
柴惠文 .
数理统计与管理, 2008, (01) :96-99
[7]
一种自顶向下挖掘长频繁项的有效方法 [J].
王晓峰 ;
王天然 ;
赵越 .
计算机研究与发展, 2004, (01) :148-155
[8]
快速开采最大频繁项目集 [J].
路松峰 ;
卢正鼎 .
软件学报, 2001, (02) :293-297
[9]
基于克服过早收敛的自适应并行遗传算法 [J].
周远晖 ;
陆玉昌 ;
石纯一 .
清华大学学报(自然科学版), 1998, (03)
[10]
遗传算法.[M].王小平;曹立明著;.西安交通大学出版社.2002,