文本分类及其相关技术研究

被引:0
作者
尚文倩
机构
[1] 北京交通大学
关键词
文本分类; 文本预处理; 特征选择; 特征加权; 基尼指数;
D O I
暂无
年度学位
2007
学位类型
博士
导师
摘要
随着网络的发展,大量的文档数据涌现在网上,用于处理海量数据的自动文本分类技术变得越来越重要,己逐渐成为处理和组织大量文档数据的关键技术。而对于采用矢量空间模型的大多数文本分类器来说,文本预处理一直是分类的瓶颈,文本预处理结果的好坏直接影响着分类器的分类性能。因此本文在对文本分类算法进行研究的同时,也深入研究了文本预处理的有关算法,有效地提高了分类器的分类性能。 本文的研究工作主要包括:(1)对文本预处理算法的改进 提出了一种新的文本特征选择算法。对于分类前的文本预处理工作来说,首先要进行文本的特征选择,选出最能代表文档特征的单词作为特征空间中的维,以期达到降低特征空间的维数、提高分类器分类性能的目的。本文在分析研究现有文本预处理算法优、缺点的基础上,对基尼指数方法进行改进,并将其用于文本的特征选择,有效地提高了分类器的分类性能。 提出了一种新的特征加权算法。对于基于矢量空间模型的文本预处理来说,在进行特征选择以后,还要进行特征的加权处理,以突出重要单词对分类的影响,抑制次要单词和噪音数据。最有代表性的特征加权算法就是传统的TF—IDF方法,本文在分析研究该方法优、缺点的基础上,采用改进的基尼指数方法对其进行改进,达到了提高分类器的分类性能的目的。(2)对kNN文本分类器的改进 改进了kNN文本分类器的分类决策规则。近年来,出现了众多的文本分类算法,算法的分类性能各有千秋,其中kNN分类算法被众多的研究者证明是分类性能比较好的方法之一。本文采用模糊分类的思想,通过引入隶属度函数,构建了新的分类决策公式,使kNN的分类性能得到了有效提高,在一定程度上解决了当类分布不均匀时kNN分类器的分类性能下降的问题。 在模糊kNN分类器的基础之上,采用改进的基尼指数算法进行特征加权,进一步提高了模糊kNN分类器的分类性能。(3)对朴素贝叶斯文本分类器的改进 朴素贝叶斯分类器是分类性能较好的文本分类算法之一,本文采用改进的基尼指数算法对朴素贝叶斯的分类决策规则进行改进,设计了新的分类决策公式,有效地提高了朴素贝叶斯文本分类器的分类性能。(4)提出了一种新的文本分类模型 在众多的文本分类算法中,SVM、kNN、朴素贝叶斯分类器经众多的研究者证明是分类性能较好的三种文本分类方法。本文在研究这些算法优、缺点的基础上,提出了基于改进基尼指数的文本分类算法,该算法吸收了上述三种算法的优点,克服了它们的一些缺点,使分类性能得到了有效提高。本文从理论上给出了这种方法可行性的依据,用实验结果验证了这种方法的有效性,是一种非常有前途的文本分类方法。 以上算法的可行性和有效性通过实验都得到了很好的验证。
引用
收藏
页数:103
共 31 条
[1]
文本分类中结合评估函数的TEF-WA权值调整技术 [J].
唐焕玲 ;
孙建涛 ;
陆玉昌 .
计算机研究与发展, 2005, (01) :47-53
[2]
使用最大熵模型进行中文文本分类 [J].
李荣陆 ;
王建会 ;
陈晓云 ;
陶晓鹏 ;
胡运发 .
计算机研究与发展, 2005, (01) :94-101
[3]
基于密度的kNN文本分类器训练样本裁剪方法 [J].
李荣陆 ;
胡运发 .
计算机研究与发展, 2004, (04) :539-545
[4]
论模糊C均值算法的模糊指标 [J].
于剑 .
计算机学报, 2003, (08) :968-973
[5]
向量空间法中单词权重函数的分析和构造 [J].
陆玉昌 ;
鲁明羽 ;
李凡 ;
周立柱 .
计算机研究与发展, 2002, (10) :1205-1210
[6]
基于Bayes潜在语义模型的半监督Web挖掘 [J].
宫秀军 ;
史忠植 .
软件学报, 2002, (08) :1508-1514
[7]
SVM-KNN分类器——一种提高SVM分类精度的新方法 [J].
李蓉 ;
叶世伟 ;
史忠植 .
电子学报, 2002, (05) :745-748
[8]
支持向量机在大类别数分类中的应用 [J].
王建芬 ;
曹元大 .
北京理工大学学报, 2001, (02) :225-228
[9]
基于支持向量机与无监督聚类相结合的中文网页分类器 [J].
李晓黎 ;
刘继敏 ;
史忠植 .
计算机学报, 2001, (01) :62-68
[10]
自动分类中的过学习问题与支持向量机 [J].
尹中航 ;
王永成 ;
蔡巍 .
计算机工程, 2000, (S1) :726-730