中文Web检索中聚类算法的改进

被引：9

作者：

耿玉良

陈家琪

王咏梅

机构：

[1] 上海理工大学计算机工程学院

[2] 上海理工大学计算机工程学院上海

[3] 上海

来源：

计算机工程与设计 | 2005年 / 10期

关键词：

文本聚类算法; 信息检索; Web挖掘;

D O I：

10.16208/j.issn1000-7024.2005.10.038

中图分类号：

TP391.3 [检索机];

学科分类号：

081203 ; 0835 ;

摘要：

对基于混合相似度的HTFC算法进行改进,要做的预处理是:建立向量空间模型,计算文档和链接的混合相似度。算法过程是:首先随机选取√kn个文档进行层次聚类,直到剩k个聚簇为止;对这k个聚簇不断迭代直到集合元素不再变化为止;然后表示出每类;最后通过用户对结果的反馈使得新生成的簇继续迭代,最终满足用户需求。算法第1步采用的是改进的k-means算法,可提高运行效率。反馈机制对原有模型进一步修正,从而提高精度。

引用

页码：2685 / 2687

页数：3