一种自适应的Web信息抽取规则自动生成方法

被引:5
作者
黄锋 [1 ,2 ]
吴华瑞 [1 ,2 ]
机构
[1] 国家农业信息化工程技术研究中心
[2] 农业部农业信息技术重点开放实验室
关键词
信息抽取; 语义分析; 自适应方法;
D O I
10.16088/j.issn.1001-6600.2010.01.024
中图分类号
TP391.1 [文字信息处理];
学科分类号
081203 ; 0835 ;
摘要
提出一种自适应的Web信息抽取规则自动生成方法,通过多样本页面对比模式和单样本重复模式提取Web上复合类型的数据并进行迭代修正,基于语义分析的规则方法进行动态抽取。实验结果表明,该方法具有较好的精确性和鲁棒性。
引用
收藏
页码:127 / 130
页数:4
相关论文
共 6 条
[1]   网页信息抽取方法的研究 [J].
徐铁 ;
耿佳宁 .
信息技术, 2009, 33 (04) :112-115
[2]   基于分块的网页主题文本抽取 [J].
任玉 ;
樊勇 ;
郑家恒 .
广西师范大学学报(自然科学版), 2009, 27 (01) :141-144
[3]   基于Web的信息抽取研究 [J].
李洋 .
吉林工程技术师范学院学报, 2007, (12) :70-71
[4]   基于本体关系匹配的信息抽取 [J].
何召卫 ;
陈俊亮 .
计算机工程, 2007, (21) :207-209
[5]   面向专题的智能化中文搜索引擎 [J].
陈华 ;
梁循 ;
杨健 .
广西师范大学学报(自然科学版), 2007, (02) :103-106
[6]   基于语料的Web页面抽取器的研究与实现 [J].
陆剑江 ;
钱培德 .
计算机工程, 2003, (06) :34-35+152