针对小文本的Web数据挖掘技术及其应用

被引:10
作者
彭曙蓉
王耀南
机构
[1] 湖南大学电气与信息工程学院
关键词
智能搜索; Web数据挖掘; 小文本; 用户兴趣;
D O I
暂无
中图分类号
TP311.13 [];
学科分类号
1201 ;
摘要
现有搜索引擎技术返回给用户的信息太多太杂,为此提出一种针对小文本的基于近似网页聚类算法的Web文本数据挖掘技术,该技术根据用户的兴趣程度形成词汇库,利用模糊聚类方法获得分词词典组,采用MD5算法去除重复页面,采用近似网页聚类算法对剩余页面聚类,并用马尔可夫Web序列挖掘算法对聚类结果排序,从而提供用户感兴趣的网页簇序列,使用户可以迅速找到感兴趣的页面。实验证明该算法在保证查全率和查准率的基础上大大提高了搜索效率。由于是针对小文本的数据挖掘,所研究的算法时间和空间复杂度都不高,因此有望成为一种实用、有效的信息检索技术。
引用
收藏
页码:203 / 205
页数:3
相关论文
共 3 条
[1]   MD5算法在消除重复网页算法中的应用 [J].
彭曙蓉 ;
章兢 ;
杨文忠 .
电脑知识与技术, 2005, (29) :15-16
[2]   数据挖掘中聚类分析的技术方法 [J].
汤效琴 ;
戴汝源 .
微计算机信息, 2003, (01) :3-4
[3]  
模糊数学原理及应用.[M].杨纶标;高英仪编著;.华南理工大学出版社.2005,