基于网页框架和规则的网页噪音去除方法

被引:17
作者
时达明
林鸿飞
杨志豪
机构
[1] 大连理工大学计算机科学与工程系
关键词
信息检索; 网页噪音; 页面框架;
D O I
暂无
中图分类号
TP393.092 [];
学科分类号
080402 ;
摘要
提出了一种基于网页框架和规则的网页去除噪音的新方法,该方法根据网页中HTML标签将网页分成若干部分,对各个table的长宽比属性进行比较,去掉长宽比很大的部分,并对其余table中的内容进行分析,根据内部是否存在和段落文字有关的标签或等来区分主题内容和噪音内容,在此基础上去除噪音内容。对来自CWT200G语料的132 559个网页进行测试后的结果表明,该方法可以有效地去除网页噪音,使索引文件减少约75%,大大地提高了检索速度,准确度也得到一定提高。 更多 还原 AbstractFilter('ChDivSummary', 'ChDivSummaryMore', 'ChDivSummaryReset'); 关键词: 信息检索;网页噪音;页面框架; 基金资助: 国家自然科学基金资助项目(60373095); 专辑: 信息科技 专题: 互联网技术 分类号: TP393.092 在线公开时间: 2007-11-12(知网平台在线公开时间,不代表文献的发表时间) 观看视频: 手机阅读 原版阅读 CAJ下载 PDF下载 AI 辅助阅读 个人成果免费下载 学位论文投稿 下载:388 页码:276-278 页数:3 大小:182K 相关服务推荐 CNKI学术情报 > 智能审校 > 论文智能排版 > 学术评价支撑平台 > 引文网络 参考文献 引证文献 共引文献 同被引文献 二级参考文献 二级引证文献 相关文献推荐 相似文献 读者推荐 相关基金文献 关联作者 相关视频 批量下载 CAJ下载 PDF下载 原版阅读
引用
收藏
页码:276 / 278
页数:3
相关论文
共 6 条
[1]  
HTML使用指南.[M].王映雪等编著;.清华大学出版社.1997,
[2]   含有位置坐标树的Web页面分析和内容提取框架 [J].
封化民 ;
刘飚 ;
刘艳敏 ;
方勇 ;
宋国森 .
清华大学学报(自然科学版), 2005, (S1) :1767-1771
[3]   模板化网页主题信息的提取方法 [J].
欧健文 ;
董守斌 ;
蔡斌 .
清华大学学报(自然科学版), 2005, (S1) :1743-1747
[4]   基于可视布局信息的网页噪音去除算法 [J].
荆涛 ;
左万利 .
华南理工大学学报(自然科学版), 2004, (S1) :84-87
[5]   基于统计的网页正文信息抽取方法的研究 [J].
孙承杰 ;
关毅 .
中文信息学报, 2004, (05) :17-22
[6]  
一种HTML网页净化方法.[J].张志刚;陈静;李晓明;.情报学报.2004, 04