带模板的结构化HTML文档深度标注框架

被引:3
作者
廖述梅 [1 ]
徐升华 [1 ]
陶皖 [2 ]
机构
[1] 江西财经大学信息管理学院
[2] 安徽工程科技学院计算机工程系
关键词
语义网; 深度标注; 信息抽取; 映射规则;
D O I
10.16511/j.cnki.qhdxxb.2006.s1.007
中图分类号
TP312.2 [];
学科分类号
081202 ; 0835 ;
摘要
将现有W eb提升为语义W eb的有效方法之一就是标注W eb页。当前W eb上,动态生成页面的规模有静态页面的500倍之多,标注从数据库动态生成的页面是深度标注方法之一。针对数据库生成的W eb页面具有模板和结构化的特征,在对带模板的结构化HTM L文档和本体形式化表示之后,提出了两段式的深度标注框架,即第一阶段解析HTM L文档,抽取结构化信息,第二阶段指定实例与词汇间的映射,标注自动生成。与其他标注方法相比,该方法能明显降低标注过程的工作量。
引用
收藏
页码:936 / 941
页数:6
相关论文
共 3 条
[1]   基于本体的语义标注原型评述 [J].
廖述梅 .
计算机工程与科学, 2006, (09) :123-125+128
[2]   信息网格中基于本体的信息共享全局视图构建方法研究 [J].
张英朝 ;
张维明 ;
肖卫东 ;
黄金才 .
计算机研究与发展, 2004, (10) :1856-1863
[3]   Ontology研究综述 [J].
邓志鸿 ;
唐世渭 ;
张铭 ;
杨冬青 ;
陈捷 .
北京大学学报(自然科学版), 2002, (05) :730-738