基于非对称相似度的文本聚类方法

被引:7
作者
宋韶旭
李春平
机构
[1] 清华大学软件学院
关键词
机器学习; 文字信息处理; 文本聚类;
D O I
10.16511/j.cnki.qhdxxb.2006.07.037
中图分类号
TP18 [人工智能理论];
学科分类号
081104 ; 0812 ; 0835 ; 1405 ;
摘要
文本聚类具有数据稀疏性的特点,常见的聚类方法采用基于距离的相异度,为了增强文档的区分特征,提出一种基于非对称相似度的方法,来度量文档对象之间的关联。定义了文本对象之间的非对称相似度度量。利用文本非对称相似度矩阵的稀疏特性,采用强连通构件的划分方法对文本对象进行聚类分析。并通过迭代的方法形成聚类结果的概念层次。实验结果表明:非对称相似度比距离相异度具有更高的准确率和更少的执行时间,当聚类结果簇数目达到较小时,准确率提高约为20%。
引用
收藏
页码:1325 / 1328
页数:4
相关论文
empty
未找到相关数据