基于最大频繁项集的搜索引擎查询结果聚类算法

被引:11
作者
苏冲
陈清才
王晓龙
孟宪军
机构
[1] 哈尔滨工业大学深圳研究生院智能计算研究中心
关键词
计算机应用; 中文信息处理; 搜索引擎; 网页聚类; 频繁项集;
D O I
暂无
中图分类号
TP391.3 [检索机];
学科分类号
080201 [机械制造及其自动化];
摘要
现有的搜索引擎查询结果聚类算法大多针对用户查询生成的网页摘要进行聚类,由于网页摘要篇幅较短,质量良莠不齐,聚类效果难以有较大的提高(比如后缀树算法,Lingo算法);而传统的基于全文的聚类算法运算复杂度较高,且难以生成高质量的类别标签,无法满足在线聚类的需求(比如KMeans算法)。该文提出一种基于全文最大频繁项集的网页在线聚类算法MFIC(Maximal Frequent Itemset Clustering)。算法首先基于全文挖掘最大频繁项集,然后依据网页集合之间最大频繁项集的共享关系进行聚类,最后依据类别包含的频繁项生成类别标签。实验结果表明MFIC算法降低了基于网页全文聚类的时间,聚类精度提高15%左右,且能生成可读性较好的类别标签。
引用
收藏
页码:58 / 67
页数:10
相关论文
共 6 条
[1]
基于后缀树的Web检索结果聚类标签生成方法 [J].
骆雄武 ;
万小军 ;
杨建武 ;
吴於茜 .
中文信息学报, 2009, 23 (02) :83-88
[2]
搜索引擎中的聚类浏览技术 [J].
李红梅 ;
丁振国 ;
周水生 ;
周利华 .
中文信息学报, 2008, (03) :56-63
[3]
利用上下文提高文本聚类的效果 [J].
丘志宏 ;
宫雷光 .
中文信息学报, 2007, (06) :109-115
[4]
一种基于主题的文本聚类方法 [J].
赵世奇 ;
刘挺 ;
李生 .
中文信息学报, 2007, (02) :58-62
[5]
文档聚类综述 [J].
刘远超 ;
王晓龙 ;
徐志明 ;
关毅 .
中文信息学报, 2006, (03) :55-62
[6]
Frequent pattern mining: current status and future directions.[J] Jiawei Han;Hong Cheng;Dong Xin;Xifeng Yan Data Min. Knowl. Discov. 2007,