基于最大频繁项集的搜索引擎查询结果聚类算法

被引：11

作者：

苏冲

陈清才

王晓龙

孟宪军

机构：

[1] 哈尔滨工业大学深圳研究生院智能计算研究中心

来源：

中文信息学报 | 2010年 / 02期

关键词：

计算机应用; 中文信息处理; 搜索引擎; 网页聚类; 频繁项集;

D O I：

暂无

中图分类号：

TP391.3 [检索机];

学科分类号：

080201 [机械制造及其自动化];

摘要：

现有的搜索引擎查询结果聚类算法大多针对用户查询生成的网页摘要进行聚类,由于网页摘要篇幅较短,质量良莠不齐,聚类效果难以有较大的提高(比如后缀树算法,Lingo算法);而传统的基于全文的聚类算法运算复杂度较高,且难以生成高质量的类别标签,无法满足在线聚类的需求(比如KMeans算法)。该文提出一种基于全文最大频繁项集的网页在线聚类算法MFIC(Maximal Frequent Itemset Clustering)。算法首先基于全文挖掘最大频繁项集,然后依据网页集合之间最大频繁项集的共享关系进行聚类,最后依据类别包含的频繁项生成类别标签。实验结果表明MFIC算法降低了基于网页全文聚类的时间,聚类精度提高15%左右,且能生成可读性较好的类别标签。

引用

页码：58 / 67

页数：10

共 6 条

[1]

基于后缀树的Web检索结果聚类标签生成方法 [J].