基于相似度的文本聚类算法研究及应用

被引:0
作者
马素琴
机构
[1] 江苏大学
关键词
文本挖掘; 文本聚类; 文本表示; 语义列表; 相似度计算; 聚簇表示; DBSCAN算法; TDCAOTV算法; 分位数;
D O I
暂无
年度学位
2010
学位类型
硕士
导师
摘要
文本聚类是文本挖掘的一项重要技术,可广泛应用于文本挖掘与信息检索等方面,在大规模文本集的组织与浏览、文本集层次归类的自动生成等方面都具有重要的应用价值。但是,传统的文本聚类算法忽略了文本中单词之间的语义相关性,存在聚类结果不稳定等问题。论文主要钳对以上问题对文本聚类进行研究。 论文先论述了文本挖掘的相关知识,分析了文本聚类的必要性及国内外研究现状,并介绍了传统的文本聚类算法,并对其进行比较和分析。重点对文本表示方法及DBSCAN算法做了深入研究,对相关算法进行改进,并在此基础上设计一个文本聚类系统。本文主要工作如下: (1)介绍常用文本聚类算法,并从伸缩性、多维性、处理高维数据的能力等方面对常用文本聚类算法进行分析和比较。 (2)提出一种基于语义列表的文本聚类算法,该算法利用语义相似度计算文本的相似度,获得文本的语义相关性,采用语义列表中的同义词近义词指针降低单词的冗余度,降低了文本数据的维度,最后采用基于划分聚类算法对文本聚类。实验表明此算法提高了聚类结果的正确性。 (3)对聚类算法DBSCAN进行改进,提出一种阈值优化的文本密度聚类算法。该算法首先使用k近邻距离对对象进行排序,并通过分位数区分密度不同的各序列,找到与其对应的优化,根据优化阈值使用密度聚类方法对对象进行聚类。改进后的聚类算法克服了阈值选取对聚类结果的影响,提高了聚类精确度和时间效率。文章采用树形结构存储聚簇,增加了聚簇的可读性。实验结果证明了该算法的有效性。 (4)在理论研究的基础上,将本文提出的文本聚类算法应用于文本数据集中,设计一种文本聚类系统,该系统提供了预处理模块、语义列表模块、聚类算法模块、结果评估模块,分析系统各个模块的主要功能及其应用,结果表明该系统具有良好的可扩展性、灵活性。
引用
收藏
页数:72
共 22 条
[1]
基于语义距离的高效文本聚类算法 [J].
冯少荣 ;
肖文俊 .
华南理工大学学报(自然科学版), 2008, (05) :30-37
[2]
一种用于文本聚类的改进k-means算法 [J].
索红光 ;
王玉伟 .
山东大学学报(理学版), 2008, (01) :60-64
[3]
一种基于语义内积空间模型的文本聚类算法 [J].
彭京 ;
杨冬青 ;
唐世渭 ;
付艳 ;
蒋汉奎 .
计算机学报, 2007, (08) :1354-1363
[4]
一种基于语义相似度的文本聚类算法 [J].
孙爽 ;
章勇 .
南京航空航天大学学报, 2006, (06) :712-716
[5]
中文停用词表的自动选取 [J].
顾益军 ;
樊孝忠 ;
王建华 ;
汪涛 ;
黄维金 .
北京理工大学学报, 2005, (04) :337-340
[6]
汉语自动分词的研究现状与困难 [J].
张春霞 ;
郝天永 .
系统仿真学报, 2005, (01) :138-143+147
[7]
Apriori and N-gram Based Chinese Text Feature Extraction Method.[J].王晔;黄上腾.Journal of Shanghai Jiaotong University.2004, 04
[8]
基于特征的汉语词性标注模型 [J].
屈刚 ;
陆汝占 .
计算机研究与发展, 2003, (04) :556-561
[9]
基于Bayes潜在语义模型的半监督Web挖掘 [J].
宫秀军 ;
史忠植 .
软件学报, 2002, (08) :1508-1514
[10]
文本聚类中的贝叶斯后验模型选择方法 [J].
姜宁 ;
史忠植 .
计算机研究与发展, 2002, (05) :580-587