共 2 条
一种基于语义内积空间模型的文本聚类算法
被引:46
作者:
彭京
[1
]
杨冬青
[1
]
唐世渭
[1
]
付艳
[1
]
蒋汉奎
[2
]
机构:
[1] 北京大学信息科学技术学院
[2] 成都市公安局信息通信处
来源:
基金:
中国博士后科学基金;
北京市自然科学基金;
关键词:
内积空间;
文本聚类;
概念相似度;
相似计算;
数据挖掘;
D O I:
暂无
中图分类号:
TP301.6 [算法理论];
学科分类号:
081202 ;
摘要:
现有数据聚类方法在处理文本数据,尤其是短文本数据时,由于没有考虑词之间潜在存在的相似情况,因此导致聚类效果不理想.文中针对文本数据高维度和稀疏空间的特点,提出了一种基于语义内积空间模型的文本聚类算法.算法首先利用内积空间的定义建立了针对中文概念、词和文本的相似度度量方法,然后从理论上进行了分析.最后通过一个两阶段处理过程,即向下分裂和向上聚合,完成文本数据的聚类.该方法成功用于中文短文本数据的聚类.实验表明相对于传统方法,文中提供的方法聚类质量更好.
引用
收藏
页码:1354 / 1363
页数:10
相关论文