一种基于语义内积空间模型的文本聚类算法

被引:46
作者
彭京 [1 ]
杨冬青 [1 ]
唐世渭 [1 ]
付艳 [1 ]
蒋汉奎 [2 ]
机构
[1] 北京大学信息科学技术学院
[2] 成都市公安局信息通信处
基金
中国博士后科学基金; 北京市自然科学基金;
关键词
内积空间; 文本聚类; 概念相似度; 相似计算; 数据挖掘;
D O I
暂无
中图分类号
TP301.6 [算法理论];
学科分类号
081202 ;
摘要
现有数据聚类方法在处理文本数据,尤其是短文本数据时,由于没有考虑词之间潜在存在的相似情况,因此导致聚类效果不理想.文中针对文本数据高维度和稀疏空间的特点,提出了一种基于语义内积空间模型的文本聚类算法.算法首先利用内积空间的定义建立了针对中文概念、词和文本的相似度度量方法,然后从理论上进行了分析.最后通过一个两阶段处理过程,即向下分裂和向上聚合,完成文本数据的聚类.该方法成功用于中文短文本数据的聚类.实验表明相对于传统方法,文中提供的方法聚类质量更好.
引用
收藏
页码:1354 / 1363
页数:10
相关论文
共 2 条
[1]   面向文本检索的语义计算 [J].
赵军 ;
金千里 ;
徐波 .
计算机学报, 2005, (12) :2068-2078
[2]   文本聚类中权重计算的对偶性策略 [J].
卜东波 ;
白硕 ;
李国杰 .
软件学报, 2002, (11) :2083-2089