Web正文信息抽取与面向层次结构的分类技术研究

被引:0
作者
郭力
机构
[1] 华南理工大学
关键词
网页正文; 层次结构; 领域知识库; 网页分类;
D O I
暂无
年度学位
2011
学位类型
硕士
导师
摘要
随着互联网的发展,网络信息资源急剧膨胀,同时也带来了一些负面效应:一方面,网页正文信息周围夹杂了许多与主题无关的“噪音信息”,干扰了用户的视觉;另一方面,信息的杂乱无章给网页聚类和热点信息监控带来了计算效率和准确度问题。本文对Web正文信息抽取和面向层次结构的分类技术进行了研究,并通过实验进行了验证分析。具体来说,本文主要的工作和取得的成果如下: 1.通过对Web正文信息抽取研究现状分析,给出了基于DOM树和部分超链接过滤的网页正文信息抽取算法。算法通过网页预处理模块和正文信息抽取模块实现对不同结构网页的正文信息抽取,弥补了已有算法对正文结点类型限定、单一阈值依赖或受限于特定模板页面等不足。实验表明,算法可取得较高的查准率和召回率,为一种通用有效的正文信息抽取算法。 2.根据综合门户站点按照自身的分类体系组织站点上的资讯这一特征,通过构建虚拟站点层次关系树并抽取出真实站点的层次结构,提出了基于站点层次结构的网页分类技术,实现网页分类抓取。 3.对于无分类信息的站点,由于网页标题包含丰富分类信息,给出了基于标题的网页分类技术,其中包括领域知识库和基于《知网》的词语语义相似度计算等模块。 4.领域知识库主要由常规领域特征词组成。针对传统? 2统计量特征选择算法的不足,提出了改进的基于? 2统计量的特征选择算法,引入了归一化的词频密度和类内覆盖度两个修正因子,完成领域特征词自动构建。 5.网页标题用语随意且组织形式多变,对于未在领域知识库命中的标题,利用《知网》语义相似度计算模型,将标题预处理后的特征词与各类别特征词向量进行语义相似度计算,以确定网页类别。实现结果表明:该方法具有良好的分类效果。
引用
收藏
页数:83
共 24 条
[1]
基于视觉特征和领域本体的Web信息抽取 [J].
张鑫 ;
陈梅 ;
王翰虎 ;
王嫣然 .
计算机技术与发展, 2011, 21 (02) :58-61+65
[2]
基于《知网》的词语相似度算法研究 [J].
刘青磊 ;
顾小丰 .
中文信息学报, 2010, (06) :31-36
[3]
基于本体和DOM树的Web信息抽取技术研究 [J].
吴恒亮 .
情报科学 , 2010, (07) :1055-1059
[4]
基于内容与链接特征的中文垃圾网页分类 [J].
刘卫红 ;
方卫东 ;
董守斌 ;
张凌 .
微计算机信息, 2010, 26 (09) :6-8
[5]
基于内容相似度的网页正文提取 [J].
王利 ;
刘宗田 ;
王燕华 ;
廖涛 .
计算机工程, 2010, 36 (06) :102-104
[6]
基于统计与正文特征的中文网页正文抽取研究 [J].
周佳颖 ;
朱珍民 ;
高晓芳 .
中文信息学报, 2009, (05) :80-85
[7]
基于逻辑行和最大接纳距离的网页正文抽取 [J].
张霞亮 ;
陈家骏 .
计算机工程与应用, 2009, 45 (25) :125-128+147
[8]
节点频度和语义距离相结合的网页正文信息抽取 [J].
孟军 ;
刘秋水 ;
王秀坤 .
计算机工程与应用, 2009, 45 (01) :140-143
[9]
网页结构模板生成新方法研究 [J].
冯少卿 ;
都云程 .
北京机械工业学院学报, 2007, (03) :15-19
[10]
基于分块的网页正文信息提取算法研究 [J].
黄文蓓 ;
杨静 ;
顾君忠 .
计算机应用, 2007, (S1) :24-26+30