基于无监督聚类和朴素贝叶斯分类的文本分类方法研究

被引:0
作者
祝翠玲
机构
[1] 山东大学
关键词
文本挖掘; 无监督文本聚类; 朴素贝叶斯分类; 向量空间模型; 特征选择;
D O I
暂无
年度学位
2005
学位类型
硕士
导师
摘要
在现实世界中,我们可获得的大部分信息都是以诸如书籍、研究论文、新闻、数字图书、Web页面及电子邮件等各种形式出现的。这些形式的信息通常称为文本信息,它们由来自各种数据源的大量文档组成,主要存储在文本数据库中。文本数据库中存储最多的数据是半结构化数据,它既不是完全无结构的也不是完全结构化的。据统计,80%以上的数据都是以非完全结构化的形式存在,而且由于电子形式的信息量也正在迅猛增长,使得文本数据库得到迅速的发展。为了在这些海量的、异质的、非结构化的数据源中提取感兴趣的、潜在的有用模式和隐藏的信息,也需要对文本信息进行数据挖掘,这就是文本挖掘。随着文本数据的迅速增长,文本挖掘已经成为了数据挖掘领域的一个重要的研究方向。 通过数据挖掘,可以从大量的数据中提取或发现知识。模式则是知识的一种表述形式。所以无论是在数据挖掘中,还是在文本挖掘中,模式挖掘都是其中的一个重要环节。分类和聚类是两种常见模式挖掘的方法。 无监督文本聚类算法(UTC)是一种把无监督聚类算法(UC)用于文本聚类的方法。算法通过指定聚类半径R,分别对每类文本进行聚类并获得聚类中心;然后,把聚类中心作为对文本的预分类:即对任意文本,计算其与各聚类中心的距离;找到与其距离最近的聚类中心后,该聚类中心所对应的类就是文本的所属类。该方法的特点是分类速度快,但准确率较低。 朴素贝叶斯分类以其坚实的数学基础和丰富的概率表达能力,尤其是它能充分利用先验信息的特性越来越受到人们的重视,成为数据挖掘领域中的一个热点,在数据挖掘中具有广泛的应用。 论文在分析无监督文本聚类和朴素贝叶斯分类特点的基础上,提出了一个对不带任何类别标志的文本进行准确分类的方法。采用向量空间模型(VSM)来对待分类的文本进行表示,即将文本表示成在n维向量空间中的一个点。指定聚类半径R,利用无监督文本聚类方法进行聚类,获得文本类别标志集合和聚类的正例中心和反例中心,然后把聚类结果中的那些处在包含正例中心区域内的文本作为训练样本来对朴素贝叶斯分类器进行训练,最后再将在聚类结果中处
引用
收藏
页数:61
共 21 条
[1]
基于贝叶斯网的分类器及其在CRM中的应用 [J].
罗宁 ;
穆志纯 .
计算机应用, 2004, (03) :79-81
[2]
基于无监督学习的盲信号源分离技术研究 [J].
傅彦 ;
周俊临 ;
不详 .
电子科技大学学报 , 2004, (01) :63-66
[3]
基于无监督聚类的入侵检测方法 [J].
罗敏 ;
王丽娜 ;
张焕国 .
电子学报, 2003, (11) :1713-1716
[4]
一种基于Web挖掘的信息自动分类系统 [J].
段宏 ;
张桂清 ;
谭运猛 .
华中科技大学学报(自然科学版), 2003, (07) :19-21
[5]
一种文本处理中的朴素贝叶斯分类器 [J].
李静梅 ;
孙丽华 ;
张巧荣 ;
张春生 .
哈尔滨工程大学学报, 2003, (01) :71-74
[6]
Web文本挖掘中特征提取的设计与实现 [J].
谢春丽 ;
崔志明 .
微机发展, 2003, (02) :77-79
[7]
基于模糊聚类和Naive Bayes方法的文本分类器 [J].
杨岳湘 ;
田艳芳 ;
王韶红 .
计算机工程与科学, 2002, (05) :18-21
[8]
基于Bayes潜在语义模型的半监督Web挖掘 [J].
宫秀军 ;
史忠植 .
软件学报, 2002, (08) :1508-1514
[9]
Web挖掘系统的设计与实现 [J].
陈建华 ;
包煊 .
计算机工程, 2002, (08) :141-142+151
[10]
主动贝叶斯网络分类器 [J].
宫秀军 ;
孙建平 ;
史忠植 .
计算机研究与发展, 2002, (05) :574-579