基于语义的高维数据聚类技术

被引：6

作者：

刘铭

王晓龙

刘远超

机构：

[1] 哈尔滨工业大学计算机科学与技术学院

来源：

基金：

国家自然科学基金重点项目;

关键词：

语义相似度计算; 自组织映射; 特征链; 权值调整;

D O I：

暂无

中图分类号：

TP391.1 [文字信息处理];

学科分类号：

摘要：

本文提出一种有效处理高维数据的聚类算法,算法首先通过构造特征链将文档集合划分为多个类别,同时在相似度计算及权值调整时考虑相似特征的影响以凝聚语义相似的文档,并动态调整文档权重使分布不平衡的文档得到充分训练.实验表明:该算法在高维空间能够获得较好的聚类结果,类内相似度高,类间区分性好,迭代次数较少.

引用

页码：925 / 929

页数：5

共 5 条

[1] 一种基于词矢量的汉语语义量化模型 [J].

陈清才 ;

王晓龙 .

[2] 基于k-近似的汉语词类自动判定 [J].

孙茂松 ;

左正平 ;

邹嘉彦 .

[3] 结构自适应自组织神经网络的研究 [J].

吴郢 ;

阎平凡 .

[4]

一种改进的k-means文档聚类初值选择算法[J]. 刘远超,王晓龙,刘秉权.高技术通讯. 2006 (01)

[5] Using lexical chains for keyword extraction [J].

Ercan, Gonenc ;

Cicekli, Ilyas .