一种基于可信度分析的Web页面新属性发现方法

被引:3
作者
胡国晴
李建华
机构
[1] 中南大学信息科学与工程学院
关键词
可信度; 分装器; 信息抽取; 新属性发现;
D O I
暂无
中图分类号
TP393.092 [];
学科分类号
摘要
分装器已经越来越多地应用到Web信息抽取中,但是当Web页面出现新的待抽取属性并且页面结构发生变化时,目前并没有一个完善的分装器能根据这种情况而做出相应调整从而抽取出新的属性信息。文中根据待抽取属性自身结构和内容的特点,通过定义一系列规则和证据,提出了一种基于可信度分析发现Web页面新属性的方法,并建立了该方法的模型。通过在实际网站中选取网页对本方法进行了实验分析,取得了较好的效果,具有现实可行性。
引用
收藏
页码:56 / 59
页数:4
相关论文
共 5 条
  • [1] 基于网页结构树的Web信息抽取方法
    陈琼
    苏文健
    [J]. 计算机工程, 2005, (20) : 54 - 55+140
  • [2] 人工智能及其应用[M]. 清华大学出版社 , 蔡自兴,徐光〓[编著], 1996
  • [3] A brief survey of Web data extraction tools
    Laender, AHF
    Ribeiro-Neto, BA
    da Silva, AS
    Teixeira, JS
    [J]. SIGMOD RECORD, 2002, 31 (02) : 84 - 93
  • [4] Building intelligent Web applications using lightweight wrappers
    Sahuguet, A
    Azavant, F
    [J]. DATA & KNOWLEDGE ENGINEERING, 2001, 36 (03) : 283 - 316
  • [5] Visual web information extraction with Lixto. Baumgartner R,Flesca S,Gottlob G. Proceedings of the 27th International Conference on Very Large Data Bases . 2001