共 3 条
带模板的结构化HTML文档深度标注框架
被引:3
作者:
廖述梅
[1
]
徐升华
[1
]
陶皖
[2
]
机构:
[1] 江西财经大学信息管理学院
[2] 安徽工程科技学院计算机工程系
来源:
关键词:
语义网;
深度标注;
信息抽取;
映射规则;
D O I:
10.16511/j.cnki.qhdxxb.2006.s1.007
中图分类号:
TP312.2 [];
学科分类号:
081202 ;
0835 ;
摘要:
将现有W eb提升为语义W eb的有效方法之一就是标注W eb页。当前W eb上,动态生成页面的规模有静态页面的500倍之多,标注从数据库动态生成的页面是深度标注方法之一。针对数据库生成的W eb页面具有模板和结构化的特征,在对带模板的结构化HTM L文档和本体形式化表示之后,提出了两段式的深度标注框架,即第一阶段解析HTM L文档,抽取结构化信息,第二阶段指定实例与词汇间的映射,标注自动生成。与其他标注方法相比,该方法能明显降低标注过程的工作量。
引用
收藏
页码:936 / 941
页数:6
相关论文