学术探索
学术期刊
学术作者
新闻热点
数据分析
智能评审
基于模板流程配置的Web信息抽取
被引:13
作者
:
刘辉
论文数:
0
引用数:
0
h-index:
0
机构:
西安电子科技大学软件工程研究所
刘辉
论文数:
引用数:
h-index:
机构:
陈静玉
论文数:
引用数:
h-index:
机构:
徐学洲
机构
:
[1]
西安电子科技大学软件工程研究所
来源
:
计算机工程
|
2008年
/ 20期
关键词
:
Web信息抽取;
模板流程配置;
包装器;
框架;
D O I
:
暂无
中图分类号
:
TP393.092 [];
学科分类号
:
摘要
:
针对Web信息抽取中存在的包装器构造复杂及抽取精度等问题,提出并实现了一种基于模板流程配置的Web信息抽取框架。将用户请求、访问和获取Web页面的动作进行分解,抽取其中的动作模式,并映射到流程配置模板中的节点。通过流程解析器对用户创建的流程配置XML描述文档进行解析,抽取感兴趣的信息。试验结果表明,系统可快速、准确地实现抽取。
引用
收藏
页码:55 / 57
页数:3
相关论文
共 3 条
[1]
Extracting Web Data Using Instance-Based Learning..[J].Yanhong Zhai;Bing Liu.World Wide Web.2007, 2
[2]
Building intelligent Web applications using lightweight wrappers
[J].
Sahuguet, A
论文数:
0
引用数:
0
h-index:
0
机构:
Univ Penn, Dept Comp & Informat Sci, Philadelphia, PA 19104 USA
Sahuguet, A
;
Azavant, F
论文数:
0
引用数:
0
h-index:
0
机构:
Univ Penn, Dept Comp & Informat Sci, Philadelphia, PA 19104 USA
Azavant, F
.
DATA & KNOWLEDGE ENGINEERING,
2001,
36
(03)
:283
-316
[3]
基于Ontology的Web内容二阶段半自动提取方法
[J].
论文数:
引用数:
h-index:
机构:
高军
;
论文数:
引用数:
h-index:
机构:
王腾蛟
;
论文数:
引用数:
h-index:
机构:
杨冬青
;
唐世渭
论文数:
0
引用数:
0
h-index:
0
机构:
北京大学信息科学技术学院,北京大学视觉与听觉处理国家重点实验室北京,北京
唐世渭
.
计算机学报,
2004,
(03)
:310
-318
←
1
→
共 3 条
[1]
Extracting Web Data Using Instance-Based Learning..[J].Yanhong Zhai;Bing Liu.World Wide Web.2007, 2
[2]
Building intelligent Web applications using lightweight wrappers
[J].
Sahuguet, A
论文数:
0
引用数:
0
h-index:
0
机构:
Univ Penn, Dept Comp & Informat Sci, Philadelphia, PA 19104 USA
Sahuguet, A
;
Azavant, F
论文数:
0
引用数:
0
h-index:
0
机构:
Univ Penn, Dept Comp & Informat Sci, Philadelphia, PA 19104 USA
Azavant, F
.
DATA & KNOWLEDGE ENGINEERING,
2001,
36
(03)
:283
-316
[3]
基于Ontology的Web内容二阶段半自动提取方法
[J].
论文数:
引用数:
h-index:
机构:
高军
;
论文数:
引用数:
h-index:
机构:
王腾蛟
;
论文数:
引用数:
h-index:
机构:
杨冬青
;
唐世渭
论文数:
0
引用数:
0
h-index:
0
机构:
北京大学信息科学技术学院,北京大学视觉与听觉处理国家重点实验室北京,北京
唐世渭
.
计算机学报,
2004,
(03)
:310
-318
←
1
→