基于本体和DOM相结合的Web信息抽取器

被引:5
作者
柳佳刚
陈山
贺令亚
机构
[1] 湖南工学院计算机科学系
关键词
信息抽取; 包装器; 本体; 文档对象模型; 归纳学习;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
120506 [数字人文];
摘要
针对基于Web页面信息本体的信息抽取不能准确划定抽取区域的缺点,设计基于本体和DOM相结合的Web信息抽取器。利用DOM树设计对样本页面信息项路径进行归纳学习的算法,该算法能准确划定信息抽取区域,降低页面噪声,实现对Web页面的预处理。实验表明,改进后的抽取方法提高了Web信息的抽准率。
引用
收藏
页码:44 / 49
页数:6
相关论文
共 13 条
[1]
基于模板流程配置的Web信息抽取 [J].
刘辉 ;
陈静玉 ;
徐学洲 .
计算机工程, 2008, (20) :55-57
[2]
近两年国外本体应用研究进展 [J].
徐静 ;
孙坦 ;
黄飞燕 .
图书馆建设, 2008, (08) :84-90
[3]
基于XML的自动学习Web信息抽取 [J].
冀高峰 ;
汤庸 ;
道炜 ;
吴桂宾 ;
黄帆 ;
王鹏 .
计算机科学, 2008, (03) :87-90
[4]
一种基于XQuery的优化Web信息抽取方法 [J].
支宗良 ;
陈少飞 .
计算机应用, 2008, (01) :152-154+158
[5]
基于本体关系匹配的信息抽取 [J].
何召卫 ;
陈俊亮 .
计算机工程, 2007, (21) :207-209
[6]
基于DOM的Web信息抽取规则的构造与实现 [J].
杨敬伟 ;
杨文柱 ;
高悦 .
河北大学学报(自然科学版), 2007, (02) :209-212
[7]
领域Ontology概念描述体系构建方法探析 [J].
刘耀 ;
穗志方 .
大学图书馆学报, 2006, (05) :28-33
[8]
Web信息的自主抽取方法 [J].
许建潮 ;
侯锟 .
计算机工程与应用, 2005, (14) :185-189+198
[9]
基于本体论的Web信息抽取 [J].
周明建 ;
高济 ;
李飞 .
计算机辅助设计与图形学学报, 2004, (04) :535-541
[10]
基于Ontology的Web内容二阶段半自动提取方法 [J].
高军 ;
王腾蛟 ;
杨冬青 ;
唐世渭 .
计算机学报, 2004, (03) :310-318