KNN-FCM聚类算法在中文搜索引擎文本过滤中的应用

被引:9
作者
张俊丽
张帆
机构
[1] 华中师范大学信息管理系
关键词
搜索引擎; KNN; 模糊C均值; 文本过滤;
D O I
暂无
中图分类号
TP391.3 [检索机];
学科分类号
080201 [机械制造及其自动化];
摘要
目前,大多数搜索引擎都是用相关度或page-rank或HITS(Hyperlink-Induced Topic Search)算法对匹配的结果进行排序,然后以列表的方式呈现给用户。事实表明:其索引质量不高,对所收集的信息缺乏有效的分类处理,用户面对成千上万的搜索结果无法一一查看,而真正符合需要的搜索结果常常因为排在后面而被漏检,返回的结果只有极少部分得到了用户的有效利用。文章提出运用基于K近邻的模糊C均值算法(以下简称KNN-FCM)对搜索引擎的初始结果进行自动聚类,系统再针对用户作出的适时反馈进行相应的输出调整,从而方便用户查找信息。
引用
收藏
页码:48 / 51+62 +62
页数:5
相关论文
共 5 条
[1]
聚类质量的评价方法 [J].
张惟皎 ;
刘春煌 ;
李芳玉 .
计算机工程, 2005, (20) :10-12
[2]
聚类分析在搜索引擎中的应用 [J].
陶跃华 ;
陈丽萍 ;
王泳 ;
不详 .
计算机工程与应用 , 2003, (21) :180-182
[3]
Fuzzy clustering based on K-nearest-neighbours rule [J].
Zahid, N ;
Abouelala, O ;
Limouri, M ;
Essaid, A .
FUZZY SETS AND SYSTEMS, 2001, 120 (02) :239-247
[4]
Unsupervised fuzzy clustering [J].
Zahid, N ;
Abouelala, O ;
Limouri, M ;
Essaid, A .
PATTERN RECOGNITION LETTERS, 1999, 20 (02) :123-129
[5]
信息组织学.[M].张帆主编;.科学出版社.2005,