基于向量空间模型的中文文本聚类方法的研究

被引:0
作者
姚清耘
机构
[1] 上海交通大学
关键词
向量空间模型; 文本聚类; 语料库;
D O I
暂无
年度学位
2008
学位类型
硕士
摘要
文本聚类是聚类分析领域的一个重要研究分支,是聚类方法在文本处理领域的应用。 本文对基于空间向量模型的中文文本聚类算法做了较深入的讨论。利用开源语料库,实现并讨论了现有比较流行的多种算法的优劣,并基于语料库的实际聚类效果,就维度确定、特征选择、文本表示等方面提出优化方案。 本文首先回顾了中文文本聚类领域的已有成果,列举了文本聚类领域在文本表示、文本相似度衡量、文本信息特征集缩减等方面的基础研究工作。另外,本文回顾了现有的中文文本聚类算法,以及常用的文本聚类效果评价指标。 在回顾了已有成果的基础上,本文针对向量空间表示模型,基于搜狐研发中心搜狗实验室的开源语料,设计并实现了几种比较流行的聚类算法,并根据实验结果,对这几种算法在多个层面上做了比对。实验表明,层次法的聚类效果较好,但时间消耗较大;而划分法在聚类效果的表现上不够稳定,但时间消耗相对较小。 在对实验结果进行分析后,本文还针对现有算法存在的一些问题,在维度确定、特征选择、文本表示等多方面提出了改进,改变了传统的空间向量模型单纯依靠词条进行统计的缺点,考虑了词条本身所蕴含的含义以及词与词之间的关系,这些改进在基于语料库的文本聚类实验中有效地提高了聚类的效果。在两种流行的聚类有效性评价指标PP与PR的表现上,分别最多提高了11.4%与20.5%。这表明,基于词条更多隐藏信息的文本聚类可以得到较好的聚类结果。
引用
收藏
页数:80
共 5 条
[1]
文本挖掘技术研究进展 [J].
袁军鹏 ;
朱东华 ;
李毅 ;
李连宏 ;
黄进 .
计算机应用研究, 2006, (02) :1-4
[2]
向量空间法中单词权重函数的分析和构造 [J].
陆玉昌 ;
鲁明羽 ;
李凡 ;
周立柱 .
计算机研究与发展, 2002, (10) :1205-1210
[3]
“Is this document relevant?…probably”.[J].Fabio Crestani;Mounia Lalmas;Cornelis J. Van Rijsbergen;Iain Campbell.ACM Computing Surveys (CSUR).1998, 4
[4]
BIRCH: A new data clustering algorithm and its applications [J].
Zhang, T ;
Ramakrishnan, R ;
Livny, M .
DATA MINING AND KNOWLEDGE DISCOVERY, 1997, 1 (02) :141-182
[5]
数据挖掘.[M].(加)JiaweiHan;(加)MichelineKamber著;范明;孟小峰等译;.机械工业出版社.2001,