学术探索
学术期刊
学术作者
新闻热点
数据分析
智能评审
灵活结构网页的正文提取
被引:4
作者
:
论文数:
引用数:
h-index:
机构:
殷彬
论文数:
引用数:
h-index:
机构:
杨会志
机构
:
[1]
电子科技大学中山学院
来源
:
计算机技术与发展
|
2011年
/ 21卷
/ 09期
关键词
:
Web数据挖掘;
网页内容提取;
正文节点;
超链接节点;
节点权值;
链接密度;
D O I
:
暂无
中图分类号
:
TP393.092 [];
学科分类号
:
摘要
:
在Web数据挖掘中,由于网页大多都含有指向其他页面的超链接等噪音信息,为了减少噪音信息对Web数据挖掘效果的影响,有必要对网页进行净化处理,提取其中的正文,同时,现实中很多网页的代码结构不是特别规范,对此,提出一种对灵活结构网页适用的正文抽取算法。将网页用HTML标签分割成节点形式,找出其中含有正文内容的一个节点,以此节点为基础向前和向后进行余下正文内容的抽取。实验结果表明,本算法的适用性强、正确率较高。
引用
收藏
页码:111 / 113+117 +117
页数:4
相关论文
共 7 条
[1]
网页正文信息抽取新方法
[J].
论文数:
引用数:
h-index:
机构:
宋明秋
;
论文数:
引用数:
h-index:
机构:
张瑞雪
;
吴新涛
论文数:
0
引用数:
0
h-index:
0
机构:
大连理工大学系统工程研究所
吴新涛
;
论文数:
引用数:
h-index:
机构:
李文立
.
大连理工大学学报,
2009,
49
(04)
:594
-597
[2]
节点频度和语义距离相结合的网页正文信息抽取
[J].
论文数:
引用数:
h-index:
机构:
孟军
;
刘秋水
论文数:
0
引用数:
0
h-index:
0
机构:
大连理工大学计算机科学与工程系
刘秋水
;
论文数:
引用数:
h-index:
机构:
王秀坤
.
计算机工程与应用,
2009,
45
(01)
:140
-143
[3]
网页信息抽取及其自动文本分类的实现
[J].
论文数:
引用数:
h-index:
机构:
赵金仿
;
论文数:
引用数:
h-index:
机构:
赵艳
;
论文数:
引用数:
h-index:
机构:
缪建明
.
计算机技术与发展,
2008,
(10)
:37
-39
[4]
基于XML的信息抽取和多层向量空间技术研究
[J].
仲华
论文数:
0
引用数:
0
h-index:
0
机构:
苏州大学计算机科学与技术学院
仲华
;
论文数:
引用数:
h-index:
机构:
崔志明
.
计算机技术与发展,
2007,
(07)
:49
-52
[5]
基于HTML模式代数的Web信息提取方法
[J].
论文数:
引用数:
h-index:
机构:
李石君
;
论文数:
引用数:
h-index:
机构:
于俊清
;
论文数:
引用数:
h-index:
机构:
欧伟杰
.
计算机研究与发展,
2006,
(09)
:1644
-1650
[6]
半结构化文档集的结构模式提取的研究与实现
[J].
杨建武
论文数:
0
引用数:
0
h-index:
0
机构:
北京大学计算机研究所文字信息处理技术国家重点实验室,北京大学计算机研究所文字信息处理技术国家重点实验室北京,北京
杨建武
;
论文数:
引用数:
h-index:
机构:
陈晓鸥
.
计算机工程,
2001,
(10)
:19
-21+113
[7]
从WEB文档中构造半结构化信息的抽取器
[J].
黄豫清
论文数:
0
引用数:
0
h-index:
0
机构:
南京大学多媒体计算机研究所!南京
黄豫清
;
戚广志
论文数:
0
引用数:
0
h-index:
0
机构:
南京大学多媒体计算机研究所!南京
戚广志
;
论文数:
引用数:
h-index:
机构:
张福炎
.
软件学报,
2000,
(01)
:73
-78
←
1
→
共 7 条
[1]
网页正文信息抽取新方法
[J].
论文数:
引用数:
h-index:
机构:
宋明秋
;
论文数:
引用数:
h-index:
机构:
张瑞雪
;
吴新涛
论文数:
0
引用数:
0
h-index:
0
机构:
大连理工大学系统工程研究所
吴新涛
;
论文数:
引用数:
h-index:
机构:
李文立
.
大连理工大学学报,
2009,
49
(04)
:594
-597
[2]
节点频度和语义距离相结合的网页正文信息抽取
[J].
论文数:
引用数:
h-index:
机构:
孟军
;
刘秋水
论文数:
0
引用数:
0
h-index:
0
机构:
大连理工大学计算机科学与工程系
刘秋水
;
论文数:
引用数:
h-index:
机构:
王秀坤
.
计算机工程与应用,
2009,
45
(01)
:140
-143
[3]
网页信息抽取及其自动文本分类的实现
[J].
论文数:
引用数:
h-index:
机构:
赵金仿
;
论文数:
引用数:
h-index:
机构:
赵艳
;
论文数:
引用数:
h-index:
机构:
缪建明
.
计算机技术与发展,
2008,
(10)
:37
-39
[4]
基于XML的信息抽取和多层向量空间技术研究
[J].
仲华
论文数:
0
引用数:
0
h-index:
0
机构:
苏州大学计算机科学与技术学院
仲华
;
论文数:
引用数:
h-index:
机构:
崔志明
.
计算机技术与发展,
2007,
(07)
:49
-52
[5]
基于HTML模式代数的Web信息提取方法
[J].
论文数:
引用数:
h-index:
机构:
李石君
;
论文数:
引用数:
h-index:
机构:
于俊清
;
论文数:
引用数:
h-index:
机构:
欧伟杰
.
计算机研究与发展,
2006,
(09)
:1644
-1650
[6]
半结构化文档集的结构模式提取的研究与实现
[J].
杨建武
论文数:
0
引用数:
0
h-index:
0
机构:
北京大学计算机研究所文字信息处理技术国家重点实验室,北京大学计算机研究所文字信息处理技术国家重点实验室北京,北京
杨建武
;
论文数:
引用数:
h-index:
机构:
陈晓鸥
.
计算机工程,
2001,
(10)
:19
-21+113
[7]
从WEB文档中构造半结构化信息的抽取器
[J].
黄豫清
论文数:
0
引用数:
0
h-index:
0
机构:
南京大学多媒体计算机研究所!南京
黄豫清
;
戚广志
论文数:
0
引用数:
0
h-index:
0
机构:
南京大学多媒体计算机研究所!南京
戚广志
;
论文数:
引用数:
h-index:
机构:
张福炎
.
软件学报,
2000,
(01)
:73
-78
←
1
→