学术探索
学术期刊
新闻热点
数据分析
智能评审
立即登录
基于非对称相似度的文本聚类方法
被引:7
作者
:
宋韶旭
论文数:
0
引用数:
0
h-index:
0
机构:
清华大学软件学院
宋韶旭
论文数:
引用数:
h-index:
机构:
李春平
机构
:
[1]
清华大学软件学院
来源
:
清华大学学报(自然科学版)
|
2006年
/ 07期
关键词
:
机器学习;
文字信息处理;
文本聚类;
D O I
:
10.16511/j.cnki.qhdxxb.2006.07.037
中图分类号
:
TP18 [人工智能理论];
学科分类号
:
081104 ;
0812 ;
0835 ;
1405 ;
摘要
:
文本聚类具有数据稀疏性的特点,常见的聚类方法采用基于距离的相异度,为了增强文档的区分特征,提出一种基于非对称相似度的方法,来度量文档对象之间的关联。定义了文本对象之间的非对称相似度度量。利用文本非对称相似度矩阵的稀疏特性,采用强连通构件的划分方法对文本对象进行聚类分析。并通过迭代的方法形成聚类结果的概念层次。实验结果表明:非对称相似度比距离相异度具有更高的准确率和更少的执行时间,当聚类结果簇数目达到较小时,准确率提高约为20%。
引用
收藏
页码:1325 / 1328
页数:4
相关论文
未找到相关数据
未找到相关数据