共 1 条
高维特征空间中文本聚类研究
被引:18
作者:
姜宁
宫秀军
史忠植
机构:
[1] 中国科技大学研究生院计算机学部
[2] 中国科学院计算技术研究所 北京
[3] 北京
来源:
关键词:
文本聚类;
信息量;
特征聚类;
平均准确率;
D O I:
暂无
中图分类号:
TP311.13 [];
学科分类号:
1201 ;
摘要:
依据信息论的思想,从文档信息量变化的角度对文本聚类的过程进行了分析,指出了信息量在聚类过程中呈现的规律性,进而提出一种基于信息量模型的聚类分析算法。通过对高维特征空间中影响聚类准确率因素的分析,发现特征之间复杂的语义联系和过高的维度是影响文本聚类准确率的重要因素。从削弱特征之间的语义联系入手,提出了一种特征聚类算法,其算法复杂度与处理的文档数量无关,提高了高维空间下聚类的速度和效果。两种算法的结合使得对大量高维文本数据直接聚类变得可行,实际的测试中获得了满意的效果。
引用
收藏
页码:63 / 67
页数:5
相关论文