一种自适应的Web信息抽取规则自动生成方法

被引：5

作者：

黄锋 ^{[1
,2
]}

吴华瑞 ^{[1
,2
]}

机构：

[1] 国家农业信息化工程技术研究中心

[2] 农业部农业信息技术重点开放实验室

来源：

广西师范大学学报(自然科学版) | 2010年 / 28卷 / 01期

关键词：

信息抽取; 语义分析; 自适应方法;

D O I：

10.16088/j.issn.1001-6600.2010.01.024

中图分类号：

TP391.1 [文字信息处理];

学科分类号：

081203 ; 0835 ;

摘要：

提出一种自适应的Web信息抽取规则自动生成方法,通过多样本页面对比模式和单样本重复模式提取Web上复合类型的数据并进行迭代修正,基于语义分析的规则方法进行动态抽取。实验结果表明,该方法具有较好的精确性和鲁棒性。

引用

页码：127 / 130

页数：4

共 6 条

[1] 网页信息抽取方法的研究 [J].

徐铁 ;

耿佳宁 .

信息技术, 2009, 33 (04) :112-115

[2] 基于分块的网页主题文本抽取 [J].

任玉 ;

樊勇 ;

郑家恒 .

广西师范大学学报(自然科学版), 2009, 27 (01) :141-144

[3] 基于Web的信息抽取研究 [J].

李洋 .

吉林工程技术师范学院学报, 2007, (12) :70-71

[4] 基于本体关系匹配的信息抽取 [J].

何召卫 ;

陈俊亮 .

计算机工程, 2007, (21) :207-209

[5] 面向专题的智能化中文搜索引擎 [J].

陈华 ;

梁循 ;

杨健 .

广西师范大学学报(自然科学版), 2007, (02) :103-106

[6] 基于语料的Web页面抽取器的研究与实现 [J].

陆剑江 ;

钱培德 .

计算机工程, 2003, (06) :34-35+152

← 1 →