基于向量空间模型的中文文本聚类方法的研究

被引：0

作者：

姚清耘

机构：

[1] 上海交通大学

关键词：

向量空间模型; 文本聚类; 语料库;

D O I：

暂无

年度学位：

2008

学位类型：

硕士

导师：

李翔；刘功申;

摘要：

文本聚类是聚类分析领域的一个重要研究分支,是聚类方法在文本处理领域的应用。本文对基于空间向量模型的中文文本聚类算法做了较深入的讨论。利用开源语料库,实现并讨论了现有比较流行的多种算法的优劣,并基于语料库的实际聚类效果,就维度确定、特征选择、文本表示等方面提出优化方案。本文首先回顾了中文文本聚类领域的已有成果,列举了文本聚类领域在文本表示、文本相似度衡量、文本信息特征集缩减等方面的基础研究工作。另外,本文回顾了现有的中文文本聚类算法,以及常用的文本聚类效果评价指标。在回顾了已有成果的基础上,本文针对向量空间表示模型,基于搜狐研发中心搜狗实验室的开源语料,设计并实现了几种比较流行的聚类算法,并根据实验结果,对这几种算法在多个层面上做了比对。实验表明,层次法的聚类效果较好,但时间消耗较大;而划分法在聚类效果的表现上不够稳定,但时间消耗相对较小。在对实验结果进行分析后,本文还针对现有算法存在的一些问题,在维度确定、特征选择、文本表示等多方面提出了改进,改变了传统的空间向量模型单纯依靠词条进行统计的缺点,考虑了词条本身所蕴含的含义以及词与词之间的关系,这些改进在基于语料库的文本聚类实验中有效地提高了聚类的效果。在两种流行的聚类有效性评价指标PP与PR的表现上,分别最多提高了11.4%与20.5%。这表明,基于词条更多隐藏信息的文本聚类可以得到较好的聚类结果。

引用

页数：80

共 5 条

[1]

文本挖掘技术研究进展 [J].