中文文本分类中特征提取算法研究

被引：0

作者：

彭时名

机构：

[1] 重庆大学

关键词：

特征提取; 特征向量; 向量空间模型; 遗传算法;

D O I：

暂无

年度学位：

2006

学位类型：

硕士

导师：

张玉芳;

摘要：

随着网络和信息技术的飞速发展,人们可获得的知识越来越多,但是面对具体的知识,要在这浩瀚的信息世界中快速获得却是很困难的。面对这一矛盾,人们想到了知识分类技术,这一技术的出现立即获得了人们广泛关注,同时知识分类中的文本分类也成为了研究的热点。文本特征提取算法是文本分类中研究比较多,比较重要的问题。本文通过分析传统的TFIDF算法发现其存在如下缺点:1)没有考虑特征词在类间的分布,如果一个特征词,在各个类间分布比较均匀,这样的词对分类基本没有贡献;但是如果一个特征词比较集中的分布在某个类中,而在其它类中几乎不出现,这样的词却能够很好代表这个类的特征,然而传统的TFIDF算法不能够区分这两种情况;2)没有考虑特征词在类内部文档中的分布情况。在类内部的文档中,如果特征词均匀分布在其中,则这个特征词能够很好的代表这个类的特征,如果只在几篇文档中出现,而在此类的其它文档中不出现,显然这样的特征词不能够代表这个类的特征。针对传统的TFIDF算法的缺陷,运用特征词在类间和类内部的分布信息来改进传统的TFIDF算法。方差是描述随机变量分布情况的指标,本文用方差来描述特征词在类间的分布情况。如果特征词方差小,说明其在类间的分布比较均匀,这样的特征词对分类贡献不大,可以用方差来降低该特征词的权重;而特征词在类内部的分布情况也可以用方差来描述,与类间分布不同的是,特征词在类内部分布方差越小,即在类内部分布越均匀,特征词越能代表此类,因此在修正TFIDF公式时,应该将其TFIDF值调大。本文的另外一个工作是,将遗传算法运用到特征提取中。本文抛弃了传统特征提取方法为每个文档进行特征提取的思想,而是为每个类进行特征提取。首先用常用的特征提取算法量化各个特征词的权重,然后用遗传算法来修正特征词的权重,直到为每个类训练出能够代表本类的特征向量(又叫分类器),最后用这些类的特征向量进行分类。为了验证提出的改进TFIDF方法的正确性及其遗传算法用于中文文本分类的效果,本文进行了两个实验:1)将传统的和改进的算法提取的特征词用于KNN算法分类的对比实验;2)将遗传算法用于特征提取的实验结果和KNN分类结果比较。实验一结果表明无论从整体混淆矩阵、总体查全率、查对率、以及各个类的查全率、查对率方面,改进方法都要优于TFIDF传统算法;实验二结果显示:遗传算法作为特征提取的分类结果和KNN方法的分类结果相当,并且略好于KNN分类

引用

页数：60

共 14 条

[1]

遗传算法研究及其在排课问题中的应用 [D].