中文文本分类的研究与应用

被引:0
作者
梅君
机构
[1] 南昌大学
关键词
文本分类; 特征选择; 特征加权; 二次特征选择; TF-IDF; 朴素贝叶斯;
D O I
暂无
年度学位
2010
学位类型
硕士
导师
摘要
随着信息技术尤其是因特网相关技术的发展与成熟,人们可获得的信息越来越多。面对海量信息,一方面是人们对快速、准确且全面获取信息的渴望,另一方面却是信息的杂乱无序。而文本分类作为处理和组织大量文本数据的关键技术,可在较大程度上解决信息杂乱问题,对于信息的高效管理和有效利用都具有极其现实的意义,并已成为数据挖掘领域中一个重要的研究方向。本文在分析和总结文本分类中文本表示模型、文本预处理、特征选择、特征加权、分类方法和分类性能评价的基础上,对特征选择、特征加权进行了深入研究。本文的主要研究工作如下: (1)针对文本分类中的高维特征空间和冗余特征问题,提出了一种基于类别分布的特征选择,并与ECBF算法相结合,给出了一种二次特征选择方法。其中,基于类别分布的特征选择方法可以较好的处理高维空间问题,并且对特征集进行初步筛选,ECBF算法能够合理的衡量特征之间的冗余程度,用来处理特征冗余问题。通过该二次特征选择方法不仅可以为文本分类选择合适的特征,而且还可以减少大量的冗余特征,从而提高文本分类器的性能。 (2)针对文本分类中的特征加权问题,本文首先详细分析了最经典也是常用的估算特征权重的TF-IDF方法,发现TF-IDF只是能较好的表达一个特征词对一个文档的区分能力,但是没有引入特征词区分一个类和其他类的能力的表示。文本在研究朴素贝叶斯分类模型和TF-IDF特点后,提出一种改进的特征加权估算方法。该估算方法有效的对各个特征词的类别区分能力给出合适的权重。 本文从文本分类的特征选择和特征加权两个方面,分别提出改进的方法,在不同程度上提高了文本分类的性能。
引用
收藏
页数:61
共 22 条
[1]
web文本分类中特征向量优化技术研究 [D]. 
王卫玲 .
山东师范大学,
2007
[2]
朴素贝叶斯分类模型的研究与应用 [D]. 
王峻 .
合肥工业大学,
2006
[3]
基于关联规则和向量空间模型的文本分类研究 [D]. 
叶振宇 .
东南大学,
2005
[4]
基于信息论的特征选择和分类算法研究 [D]. 
张隆 .
西南农业大学,
2005
[5]
信息论与编码.[M].曹雪虹;张宗橙编著;.清华大学出版社.2004,
[6]
应用信息论基础.[M].朱雪龙编著;.清华大学出版社.2001,
[7]
信息理论基础.[M].常迥[编];.清华大学出版社.1993,
[8]
语法讲义.[M].朱德熙[著];.商务印书馆.1982,
[9]
一种基于概率加权的朴素贝叶斯分类 [J].
白似雪 ;
梅君 ;
吴穹 ;
朱涛 .
南昌大学学报(理科版), 2009, 33 (02) :191-194
[10]
文本分类中基于基尼指数的特征选择算法研究 [J].
尚文倩 ;
黄厚宽 ;
刘玉玲 ;
林永民 ;
瞿有利 ;
董红斌 .
计算机研究与发展 , 2006, (10) :1688-1694