基于模板流程配置的Web信息抽取

被引:13
作者
刘辉
陈静玉
徐学洲
机构
[1] 西安电子科技大学软件工程研究所
关键词
Web信息抽取; 模板流程配置; 包装器; 框架;
D O I
暂无
中图分类号
TP393.092 [];
学科分类号
摘要
针对Web信息抽取中存在的包装器构造复杂及抽取精度等问题,提出并实现了一种基于模板流程配置的Web信息抽取框架。将用户请求、访问和获取Web页面的动作进行分解,抽取其中的动作模式,并映射到流程配置模板中的节点。通过流程解析器对用户创建的流程配置XML描述文档进行解析,抽取感兴趣的信息。试验结果表明,系统可快速、准确地实现抽取。
引用
收藏
页码:55 / 57
页数:3
相关论文
共 3 条
[1]
Extracting Web Data Using Instance-Based Learning..[J].Yanhong Zhai;Bing Liu.World Wide Web.2007, 2
[2]
Building intelligent Web applications using lightweight wrappers [J].
Sahuguet, A ;
Azavant, F .
DATA & KNOWLEDGE ENGINEERING, 2001, 36 (03) :283-316
[3]
基于Ontology的Web内容二阶段半自动提取方法 [J].
高军 ;
王腾蛟 ;
杨冬青 ;
唐世渭 .
计算机学报, 2004, (03) :310-318