学术探索
学术期刊
学术作者
新闻热点
数据分析
智能评审
基于本体和DOM相结合的Web信息抽取器
被引:5
作者
:
论文数:
引用数:
h-index:
机构:
柳佳刚
陈山
论文数:
0
引用数:
0
h-index:
0
机构:
湖南工学院计算机科学系
陈山
论文数:
引用数:
h-index:
机构:
贺令亚
机构
:
[1]
湖南工学院计算机科学系
来源
:
现代图书情报技术
|
2009年
/ 05期
关键词
:
信息抽取;
包装器;
本体;
文档对象模型;
归纳学习;
D O I
:
暂无
中图分类号
:
TP391.1 [文字信息处理];
学科分类号
:
120506
[数字人文]
;
摘要
:
针对基于Web页面信息本体的信息抽取不能准确划定抽取区域的缺点,设计基于本体和DOM相结合的Web信息抽取器。利用DOM树设计对样本页面信息项路径进行归纳学习的算法,该算法能准确划定信息抽取区域,降低页面噪声,实现对Web页面的预处理。实验表明,改进后的抽取方法提高了Web信息的抽准率。
引用
收藏
页码:44 / 49
页数:6
相关论文
共 13 条
[1]
基于模板流程配置的Web信息抽取
[J].
刘辉
论文数:
0
引用数:
0
h-index:
0
机构:
西安电子科技大学软件工程研究所
刘辉
;
论文数:
引用数:
h-index:
机构:
陈静玉
;
论文数:
引用数:
h-index:
机构:
徐学洲
.
计算机工程,
2008,
(20)
:55
-57
[2]
近两年国外本体应用研究进展
[J].
论文数:
引用数:
h-index:
机构:
徐静
;
论文数:
引用数:
h-index:
机构:
孙坦
;
论文数:
引用数:
h-index:
机构:
黄飞燕
.
图书馆建设,
2008,
(08)
:84
-90
[3]
基于XML的自动学习Web信息抽取
[J].
论文数:
引用数:
h-index:
机构:
冀高峰
;
汤庸
论文数:
0
引用数:
0
h-index:
0
机构:
中山大学计算机科学系
汤庸
;
道炜
论文数:
0
引用数:
0
h-index:
0
机构:
中山大学计算机科学系
道炜
;
吴桂宾
论文数:
0
引用数:
0
h-index:
0
机构:
中山大学计算机科学系
吴桂宾
;
论文数:
引用数:
h-index:
机构:
黄帆
;
论文数:
引用数:
h-index:
机构:
王鹏
.
计算机科学,
2008,
(03)
:87
-90
[4]
一种基于XQuery的优化Web信息抽取方法
[J].
支宗良
论文数:
0
引用数:
0
h-index:
0
机构:
河北省烟草专卖局烟草经济信息中心
支宗良
;
陈少飞
论文数:
0
引用数:
0
h-index:
0
机构:
河北省烟草专卖局烟草经济信息中心
陈少飞
.
计算机应用,
2008,
(01)
:152
-154+158
[5]
基于本体关系匹配的信息抽取
[J].
何召卫
论文数:
0
引用数:
0
h-index:
0
机构:
北京邮电大学网络与交换技术国家重点实验室
何召卫
;
论文数:
引用数:
h-index:
机构:
陈俊亮
.
计算机工程,
2007,
(21)
:207
-209
[6]
基于DOM的Web信息抽取规则的构造与实现
[J].
论文数:
引用数:
h-index:
机构:
杨敬伟
;
论文数:
引用数:
h-index:
机构:
杨文柱
;
高悦
论文数:
0
引用数:
0
h-index:
0
机构:
信息产业部电信研究院
河北大学科技处
高悦
.
河北大学学报(自然科学版),
2007,
(02)
:209
-212
[7]
领域Ontology概念描述体系构建方法探析
[J].
论文数:
引用数:
h-index:
机构:
刘耀
;
论文数:
引用数:
h-index:
机构:
穗志方
.
大学图书馆学报,
2006,
(05)
:28
-33
[8]
Web信息的自主抽取方法
[J].
论文数:
引用数:
h-index:
机构:
许建潮
;
侯锟
论文数:
0
引用数:
0
h-index:
0
机构:
长春工业大学计算机科学与工程学院,长春工业大学计算机科学与工程学院 长春
侯锟
.
计算机工程与应用,
2005,
(14)
:185
-189+198
[9]
基于本体论的Web信息抽取
[J].
论文数:
引用数:
h-index:
机构:
周明建
;
论文数:
引用数:
h-index:
机构:
高济
;
李飞
论文数:
0
引用数:
0
h-index:
0
机构:
浙江大学人工智能研究所,浙江大学人工智能研究所,浙江大学人工智能研究所杭州,杭州,杭州
李飞
.
计算机辅助设计与图形学学报,
2004,
(04)
:535
-541
[10]
基于Ontology的Web内容二阶段半自动提取方法
[J].
论文数:
引用数:
h-index:
机构:
高军
;
论文数:
引用数:
h-index:
机构:
王腾蛟
;
论文数:
引用数:
h-index:
机构:
杨冬青
;
唐世渭
论文数:
0
引用数:
0
h-index:
0
机构:
北京大学信息科学技术学院,北京大学视觉与听觉处理国家重点实验室北京,北京
唐世渭
.
计算机学报,
2004,
(03)
:310
-318
←
1
2
→
共 13 条
[1]
基于模板流程配置的Web信息抽取
[J].
刘辉
论文数:
0
引用数:
0
h-index:
0
机构:
西安电子科技大学软件工程研究所
刘辉
;
论文数:
引用数:
h-index:
机构:
陈静玉
;
论文数:
引用数:
h-index:
机构:
徐学洲
.
计算机工程,
2008,
(20)
:55
-57
[2]
近两年国外本体应用研究进展
[J].
论文数:
引用数:
h-index:
机构:
徐静
;
论文数:
引用数:
h-index:
机构:
孙坦
;
论文数:
引用数:
h-index:
机构:
黄飞燕
.
图书馆建设,
2008,
(08)
:84
-90
[3]
基于XML的自动学习Web信息抽取
[J].
论文数:
引用数:
h-index:
机构:
冀高峰
;
汤庸
论文数:
0
引用数:
0
h-index:
0
机构:
中山大学计算机科学系
汤庸
;
道炜
论文数:
0
引用数:
0
h-index:
0
机构:
中山大学计算机科学系
道炜
;
吴桂宾
论文数:
0
引用数:
0
h-index:
0
机构:
中山大学计算机科学系
吴桂宾
;
论文数:
引用数:
h-index:
机构:
黄帆
;
论文数:
引用数:
h-index:
机构:
王鹏
.
计算机科学,
2008,
(03)
:87
-90
[4]
一种基于XQuery的优化Web信息抽取方法
[J].
支宗良
论文数:
0
引用数:
0
h-index:
0
机构:
河北省烟草专卖局烟草经济信息中心
支宗良
;
陈少飞
论文数:
0
引用数:
0
h-index:
0
机构:
河北省烟草专卖局烟草经济信息中心
陈少飞
.
计算机应用,
2008,
(01)
:152
-154+158
[5]
基于本体关系匹配的信息抽取
[J].
何召卫
论文数:
0
引用数:
0
h-index:
0
机构:
北京邮电大学网络与交换技术国家重点实验室
何召卫
;
论文数:
引用数:
h-index:
机构:
陈俊亮
.
计算机工程,
2007,
(21)
:207
-209
[6]
基于DOM的Web信息抽取规则的构造与实现
[J].
论文数:
引用数:
h-index:
机构:
杨敬伟
;
论文数:
引用数:
h-index:
机构:
杨文柱
;
高悦
论文数:
0
引用数:
0
h-index:
0
机构:
信息产业部电信研究院
河北大学科技处
高悦
.
河北大学学报(自然科学版),
2007,
(02)
:209
-212
[7]
领域Ontology概念描述体系构建方法探析
[J].
论文数:
引用数:
h-index:
机构:
刘耀
;
论文数:
引用数:
h-index:
机构:
穗志方
.
大学图书馆学报,
2006,
(05)
:28
-33
[8]
Web信息的自主抽取方法
[J].
论文数:
引用数:
h-index:
机构:
许建潮
;
侯锟
论文数:
0
引用数:
0
h-index:
0
机构:
长春工业大学计算机科学与工程学院,长春工业大学计算机科学与工程学院 长春
侯锟
.
计算机工程与应用,
2005,
(14)
:185
-189+198
[9]
基于本体论的Web信息抽取
[J].
论文数:
引用数:
h-index:
机构:
周明建
;
论文数:
引用数:
h-index:
机构:
高济
;
李飞
论文数:
0
引用数:
0
h-index:
0
机构:
浙江大学人工智能研究所,浙江大学人工智能研究所,浙江大学人工智能研究所杭州,杭州,杭州
李飞
.
计算机辅助设计与图形学学报,
2004,
(04)
:535
-541
[10]
基于Ontology的Web内容二阶段半自动提取方法
[J].
论文数:
引用数:
h-index:
机构:
高军
;
论文数:
引用数:
h-index:
机构:
王腾蛟
;
论文数:
引用数:
h-index:
机构:
杨冬青
;
唐世渭
论文数:
0
引用数:
0
h-index:
0
机构:
北京大学信息科学技术学院,北京大学视觉与听觉处理国家重点实验室北京,北京
唐世渭
.
计算机学报,
2004,
(03)
:310
-318
←
1
2
→