网页内容获取及基于意图的聚类

被引:0
作者
张强
机构
[1] 北京邮电大学
关键词
意图分析; REBVIPS; 页面挖掘; k-均值聚类; k-中心聚类; TR特征提取; VSM;
D O I
暂无
年度学位
2010
学位类型
硕士
导师
摘要
基于意图的信息检索研究如何针对用户查询意图进行检索结果的提交,是信息检索智能化的一个热门课题,具有重要的发展前景。本文针对意图信息检索中的网页内容获取和基于意图的网页聚类进行研究。主要工作如下: 1.元搜索引擎平台的搭建 本文首先设计并实现了一个对多个搜索引擎检索结果的信息进行抓取和结构化存储的元搜索引擎,为进一步获取检索结果数据奠定基础。 2.基于VIPS(VIsion-based Page Segmentation)原理的REBVIPS(Regular Expression Based on VIPS)算法模型 本文基于VIPS技术提出了一种利用正则表达式建立视觉页面同标签属性关系矩阵的网页内容获取算法REBVIPS,实现了网页的结构化抓取模式,同时通过对属性标签的分析实现了网页噪声干扰处理。实验表明,该方法具有较好的网页内容获取性能。 3.基于TR(Topic Rank)相似意图网页聚类 本文在总结现有网页意图分类标准和人工评测模型的基础上,采用TR特征进行面向网页意图的聚类分析。其中包括: (1)分别采用k-均值和k-中心聚类算法,分别考察了采用TR特征与采用一般序列特征的聚类性能。实验表明,基于TR特征的聚类比基于通常特征聚类具有更好的意图聚类性能。 (2)比较了所采用的聚类算法中的距离度量对于意图聚类的影响。通过实验,分析了闵可夫斯基距离度量中p范数对于聚类结果的鲁棒性影响。
引用
收藏
页数:60
共 33 条
[1]
基于地理位置的路由算法——GPSR-AD [J].
李道全 ;
刘海燕 ;
曹齐光 ;
王怀彩 .
计算机应用, 2009, 29 (12) :3215-3217
[2]
基于直觉模糊等价相异矩阵的聚类方法 [J].
蔡茹 ;
雷英杰 ;
申晓勇 ;
雷阳 .
计算机应用, 2009, 29 (01) :123-126
[3]
基于密度复杂簇聚类算法研究与实现 [J].
宋宇辰 ;
宋飞燕 ;
孟海东 .
计算机工程与应用 , 2007, (35) :162-165
[4]
数据挖掘中聚类算法的综述 [J].
胡庆林 ;
叶念渝 ;
朱明富 .
计算机与数字工程, 2007, (02) :17-20+188
[5]
基于主题和态度分类的文本过滤系统 [J].
闵锦 ;
黄萱菁 .
计算机工程, 2007, (02) :163-164+179
[6]
基于免参数据挖掘的相异度度量研究 [J].
文娟娟 ;
柴玉梅 .
计算机应用, 2006, (12) :2982-2984
[7]
基于相关性分析及遗传算法的高维数据特征选择 [J].
任江涛 ;
黄焕宇 ;
孙婧昊 ;
印鉴 .
计算机应用, 2006, (06) :1403-1405
[8]
基于特征向量的分布式聚类算法 [J].
李锁花 ;
孙志挥 ;
周晓云 .
计算机应用, 2006, (02) :379-382
[9]
基于用户聚类分析的网站导航结构智能优化研究与实现 [J].
郑玲霞 ;
李大学 .
重庆邮电学院学报(自然科学版), 2005, (06) :763-767
[10]
基于领域本体的半结构化文本知识自动获取方法的设计和实现 [J].
王海涛 ;
曹存根 ;
高颖 .
计算机学报, 2005, (12) :2010-2018