一种提高文本聚类算法质量的方法

被引:3
作者
冯少荣
机构
[1] 厦门大学信息科学与技术学院
关键词
文本聚类; 语义距离; 最近邻聚类; 相似度; 聚类算法;
D O I
暂无
中图分类号
TP181 [自动推理、机器学习];
学科分类号
摘要
针对基于VSM(vector space model)的文本聚类算法存在的主要问题,即忽略了词之间的语义信息、忽略了各维度之间的联系而导致文本的相似度计算不够精确,提出基于语义距离计算文档间相似度及两阶段聚类方案来提高文本聚类算法的质量.首先,从语义上分析文档,采用最近邻算法进行第一次聚类;其次,根据相似度权重,对类特征词进行优胜劣汰;然后进行类合并;最后,进行第二次聚类,解决最近邻算法对输入次序敏感的问题.实验结果表明,提出的方法在聚类精度和召回率上均有显著的提高,较好解决了基于VSM的文本聚类算法存在的问题.
引用
收藏
页码:1712 / 1718
页数:7
相关论文
共 3 条
[1]   一种基于VSM文本分类系统的设计与实现 [J].
李凡 ;
林爱武 ;
陈国社 .
华中科技大学学报(自然科学版), 2005, (03) :53-55
[2]   Semantic computation in a Chinese question-answering system [J].
Li, SJ ;
Zhang, J ;
Huang, X ;
Bai, S ;
Liu, Q .
JOURNAL OF COMPUTER SCIENCE AND TECHNOLOGY, 2002, 17 (06) :933-939
[3]  
中文自然语言处理开放平台[CD/DL]. 中国科学院计算技术研究所数字化室和软件室. http:∥www.nlp.org.cn . 2007