一种改进的基于本体的Web信息抽取

被引:15
作者
柳佳刚
陈山
黄樱
机构
[1] 湖南工学院计算机科学系
关键词
信息抽取; 本体; 归纳学习; 文档对象模型;
D O I
暂无
中图分类号
TP393.09 [];
学科分类号
摘要
以Web页面信息项本体定义为基础,对单个样本页面信息项路径进行启发式学习,对所有样本页面集中信息块路径进行归纳学习,识别结构相似的信息块子树位置,以准确划定信息抽取区域,降低页面噪声。将经过噪声处理的样本页面自动解析成页面的结构本体。比较Web页面信息项本体和页面的结构本体,通过归纳学习算法生成抽取规则,提高Web信息的抽准率。
引用
收藏
页码:39 / 41+44 +44
页数:4
相关论文
共 3 条
[1]
领域Ontology概念描述体系构建方法探析 [J].
刘耀 ;
穗志方 .
大学图书馆学报, 2006, (05) :28-33
[2]
基于本体论的Web信息抽取 [J].
周明建 ;
高济 ;
李飞 .
计算机辅助设计与图形学学报, 2004, (04) :535-541
[3]
基于路径学习的信息自动抽取方法 [J].
于琨 ;
蔡智 ;
糜仲春 ;
蔡庆生 .
小型微型计算机系统, 2003, (12) :2147-2149