学术探索
学术期刊
学术作者
新闻热点
数据分析
智能评审
基于最大频繁项集的搜索引擎查询结果聚类算法
被引:11
作者
:
论文数:
引用数:
h-index:
机构:
苏冲
论文数:
引用数:
h-index:
机构:
陈清才
论文数:
引用数:
h-index:
机构:
王晓龙
论文数:
引用数:
h-index:
机构:
孟宪军
机构
:
[1]
哈尔滨工业大学深圳研究生院智能计算研究中心
来源
:
中文信息学报
|
2010年
/ 02期
关键词
:
计算机应用;
中文信息处理;
搜索引擎;
网页聚类;
频繁项集;
D O I
:
暂无
中图分类号
:
TP391.3 [检索机];
学科分类号
:
080201
[机械制造及其自动化]
;
摘要
:
现有的搜索引擎查询结果聚类算法大多针对用户查询生成的网页摘要进行聚类,由于网页摘要篇幅较短,质量良莠不齐,聚类效果难以有较大的提高(比如后缀树算法,Lingo算法);而传统的基于全文的聚类算法运算复杂度较高,且难以生成高质量的类别标签,无法满足在线聚类的需求(比如KMeans算法)。该文提出一种基于全文最大频繁项集的网页在线聚类算法MFIC(Maximal Frequent Itemset Clustering)。算法首先基于全文挖掘最大频繁项集,然后依据网页集合之间最大频繁项集的共享关系进行聚类,最后依据类别包含的频繁项生成类别标签。实验结果表明MFIC算法降低了基于网页全文聚类的时间,聚类精度提高15%左右,且能生成可读性较好的类别标签。
引用
收藏
页码:58 / 67
页数:10
相关论文
共 6 条
[1]
基于后缀树的Web检索结果聚类标签生成方法
[J].
论文数:
引用数:
h-index:
机构:
骆雄武
;
论文数:
引用数:
h-index:
机构:
万小军
;
杨建武
论文数:
0
引用数:
0
h-index:
0
机构:
北京大学计算机科学技术研究所
杨建武
;
论文数:
引用数:
h-index:
机构:
吴於茜
.
中文信息学报,
2009,
23
(02)
:83
-88
[2]
搜索引擎中的聚类浏览技术
[J].
论文数:
引用数:
h-index:
机构:
李红梅
;
论文数:
引用数:
h-index:
机构:
丁振国
;
论文数:
引用数:
h-index:
机构:
周水生
;
周利华
论文数:
0
引用数:
0
h-index:
0
机构:
西安电子科技大学计算机学院
西安电子科技大学计算机学院
周利华
.
中文信息学报,
2008,
(03)
:56
-63
[3]
利用上下文提高文本聚类的效果
[J].
丘志宏
论文数:
0
引用数:
0
h-index:
0
机构:
汕头大学计算机系
汕头大学计算机系
丘志宏
;
宫雷光
论文数:
0
引用数:
0
h-index:
0
机构:
IBM华生研究中心
汕头大学计算机系
宫雷光
.
中文信息学报,
2007,
(06)
:109
-115
[4]
一种基于主题的文本聚类方法
[J].
论文数:
引用数:
h-index:
机构:
赵世奇
;
论文数:
引用数:
h-index:
机构:
刘挺
;
论文数:
引用数:
h-index:
机构:
李生
.
中文信息学报,
2007,
(02)
:58
-62
[5]
文档聚类综述
[J].
论文数:
引用数:
h-index:
机构:
刘远超
;
论文数:
引用数:
h-index:
机构:
王晓龙
;
论文数:
引用数:
h-index:
机构:
徐志明
;
论文数:
引用数:
h-index:
机构:
关毅
.
中文信息学报,
2006,
(03)
:55
-62
[6]
Frequent pattern mining: current status and future directions.[J] Jiawei Han;Hong Cheng;Dong Xin;Xifeng Yan Data Min. Knowl. Discov. 2007,
←
1
→
共 6 条
[1]
基于后缀树的Web检索结果聚类标签生成方法
[J].
论文数:
引用数:
h-index:
机构:
骆雄武
;
论文数:
引用数:
h-index:
机构:
万小军
;
杨建武
论文数:
0
引用数:
0
h-index:
0
机构:
北京大学计算机科学技术研究所
杨建武
;
论文数:
引用数:
h-index:
机构:
吴於茜
.
中文信息学报,
2009,
23
(02)
:83
-88
[2]
搜索引擎中的聚类浏览技术
[J].
论文数:
引用数:
h-index:
机构:
李红梅
;
论文数:
引用数:
h-index:
机构:
丁振国
;
论文数:
引用数:
h-index:
机构:
周水生
;
周利华
论文数:
0
引用数:
0
h-index:
0
机构:
西安电子科技大学计算机学院
西安电子科技大学计算机学院
周利华
.
中文信息学报,
2008,
(03)
:56
-63
[3]
利用上下文提高文本聚类的效果
[J].
丘志宏
论文数:
0
引用数:
0
h-index:
0
机构:
汕头大学计算机系
汕头大学计算机系
丘志宏
;
宫雷光
论文数:
0
引用数:
0
h-index:
0
机构:
IBM华生研究中心
汕头大学计算机系
宫雷光
.
中文信息学报,
2007,
(06)
:109
-115
[4]
一种基于主题的文本聚类方法
[J].
论文数:
引用数:
h-index:
机构:
赵世奇
;
论文数:
引用数:
h-index:
机构:
刘挺
;
论文数:
引用数:
h-index:
机构:
李生
.
中文信息学报,
2007,
(02)
:58
-62
[5]
文档聚类综述
[J].
论文数:
引用数:
h-index:
机构:
刘远超
;
论文数:
引用数:
h-index:
机构:
王晓龙
;
论文数:
引用数:
h-index:
机构:
徐志明
;
论文数:
引用数:
h-index:
机构:
关毅
.
中文信息学报,
2006,
(03)
:55
-62
[6]
Frequent pattern mining: current status and future directions.[J] Jiawei Han;Hong Cheng;Dong Xin;Xifeng Yan Data Min. Knowl. Discov. 2007,
←
1
→