基于网页上下文的Deep Web数据库分类

被引:31
作者
马军
宋玲
韩晓晖
闫泼
机构
[1] 山东大学计算机科学与技术学院
基金
高等学校博士学科点专项科研基金;
关键词
deep Web; 隐式Web; 数据库分类; 内容文本抽取; 语义分类;
D O I
暂无
中图分类号
TP311.13 [];
学科分类号
1201 ;
摘要
讨论了提高Deep Web数据库分类准确性的若干新技术,其中包括利用HTML网页的内容文本作为理解数据库内容的上下文和把数据库表的属性标记词归一的过程.其中对网页中的内容文本的发现算法是基于对网页文本块的多种统计特征.而对数据库属性标记词的归一过程是把同义标记词用代表词进行替代的过程.给出了采用分层模糊集合对给定学习实例所发现的领域和语言知识进行表示和基于这些知识对标记词归一化算法.基于上述预处理,给出了计算Deep Web数据库的K-NN(k nearest neighbors)分类算法,其中对数据库之间语义距离计算综合了数据库表之间和含有数据库表的网页的内容文本之间的语义距离.分类实验给出算法对未预处理的网页和经过预处理后的网页在数据库分类精度、查全率和综合F1等测度上的分类结果比较.
引用
收藏
页码:267 / 274
页数:8
相关论文
共 4 条
[1]   含有位置坐标树的Web页面分析和内容提取框架 [J].
封化民 ;
刘飚 ;
刘艳敏 ;
方勇 ;
宋国森 .
清华大学学报(自然科学版), 2005, (S1) :1767-1771
[2]  
Automatic integration of Web search interfaces with WISE-Integrator[J] . Hai He,Weiyi Meng,Clement Yu,Zonghuan Wu.The VLDB Journal . 2004 (3)
[3]  
QProber[J] . Luis Gravano,Panagiotis G. Ipeirotis,Mehran Sahami.ACM Transactions on Information Systems (TOIS) . 2003 (1)
[4]  
GlOSS[J] . Luis Gravano,Héctor García-Molina,Anthony Tomasic.ACM Transactions on Database Systems (TODS) . 1999 (2)