中文文本分类中特征提取算法研究

被引:0
作者
彭时名
机构
[1] 重庆大学
关键词
特征提取; 特征向量; 向量空间模型; 遗传算法;
D O I
暂无
年度学位
2006
学位类型
硕士
导师
摘要
随着网络和信息技术的飞速发展,人们可获得的知识越来越多,但是面对具体的知识,要在这浩瀚的信息世界中快速获得却是很困难的。面对这一矛盾,人们想到了知识分类技术,这一技术的出现立即获得了人们广泛关注,同时知识分类中的文本分类也成为了研究的热点。 文本特征提取算法是文本分类中研究比较多,比较重要的问题。本文通过分析传统的TFIDF算法发现其存在如下缺点:1)没有考虑特征词在类间的分布,如果一个特征词,在各个类间分布比较均匀,这样的词对分类基本没有贡献;但是如果一个特征词比较集中的分布在某个类中,而在其它类中几乎不出现,这样的词却能够很好代表这个类的特征,然而传统的TFIDF算法不能够区分这两种情况;2)没有考虑特征词在类内部文档中的分布情况。在类内部的文档中,如果特征词均匀分布在其中,则这个特征词能够很好的代表这个类的特征,如果只在几篇文档中出现,而在此类的其它文档中不出现,显然这样的特征词不能够代表这个类的特征。 针对传统的TFIDF算法的缺陷,运用特征词在类间和类内部的分布信息来改进传统的TFIDF算法。方差是描述随机变量分布情况的指标,本文用方差来描述特征词在类间的分布情况。如果特征词方差小,说明其在类间的分布比较均匀,这样的特征词对分类贡献不大,可以用方差来降低该特征词的权重;而特征词在类内部的分布情况也可以用方差来描述,与类间分布不同的是,特征词在类内部分布方差越小,即在类内部分布越均匀,特征词越能代表此类,因此在修正TFIDF公式时,应该将其TFIDF值调大。 本文的另外一个工作是,将遗传算法运用到特征提取中。本文抛弃了传统特征提取方法为每个文档进行特征提取的思想,而是为每个类进行特征提取。首先用常用的特征提取算法量化各个特征词的权重,然后用遗传算法来修正特征词的权重,直到为每个类训练出能够代表本类的特征向量(又叫分类器),最后用这些类的特征向量进行分类。 为了验证提出的改进TFIDF方法的正确性及其遗传算法用于中文文本分类的效果,本文进行了两个实验:1)将传统的和改进的算法提取的特征词用于KNN算法分类的对比实验;2)将遗传算法用于特征提取的实验结果和KNN分类结果比较。实验一结果表明无论从整体混淆矩阵、总体查全率、查对率、以及各个类的查全率、查对率方面,改进方法都要优于TFIDF传统算法;实验二结果显示:遗传算法作为特征提取的分类结果和KNN方法的分类结果相当,并且略好于KNN分类
引用
收藏
页数:60
共 14 条
[1]
遗传算法研究及其在排课问题中的应用 [D]. 
陈本庆 .
西南交通大学,
2003
[2]
文本信息检索中的概率模型 [J].
张文进 .
情报杂志, 2005, (03) :107-110
[3]
自动文本分类中两种文本表示方式的比较 [J].
宋枫溪 ;
郑如冰 ;
王积忠 .
计算机工程, 2004, (18) :124-126
[4]
基于密度的kNN文本分类器训练样本裁剪方法 [J].
李荣陆 ;
胡运发 .
计算机研究与发展, 2004, (04) :539-545
[5]
文本分类中的特征选取 [J].
刘丽珍 ;
宋瀚涛 .
计算机工程, 2004, (04) :14-15+175
[6]
中文文本分类中特征抽取方法的比较研究 [J].
代六玲 ;
黄河燕 ;
陈肇雄 .
中文信息学报, 2004, (01) :26-32
[7]
用Naive Bayes方法协调分类Web网页 [J].
范焱 ;
郑诚 ;
王清毅 ;
蔡庆生 ;
刘洁 .
软件学报, 2001, (09) :1386-1392
[8]
一种基于Agent的需求分析与建模方法 [J].
顾绍元 ;
祝琛琛 ;
施鸿宝 .
微型电脑应用, 2001, (03) :12-15+2
[9]
基于Ngram信息的中文文档分类研究 [J].
周水庚 ;
关佶红 ;
俞红奇 ;
胡运发 .
中文信息学报, 2001, (01) :34-39
[10]
文档中词语权重计算方法的改进 [J].
鲁松 ;
李晓黎 ;
白硕 ;
王实 .
中文信息学报, 2000, (06) :8-13+20