中文深度万维网数据库的现状研究

被引:7
作者
刘玉奎
周立柱
范举
机构
[1] 清华大学计算机科学与技术系
基金
国家自然科学基金重点项目;
关键词
中文深度万维网; 数据库; 分类; 统计; 查询接口;
D O I
暂无
中图分类号
TP311.13 [];
学科分类号
1201 ;
摘要
深度万维网(Deep Web)已成为万维网上十分重要的资源,是数据库领域的研究热点.目前已有的多数研究主要集中在深度万维网发现、查询接口集成以及查询结果处理等技术层面.然而对于这个超出表面万维网所涵盖信息数百倍的宝贵资源,人们目前还缺乏足够的了解和认识.对于一些基本问题,例如:(1)中文深度万维网的具体规模有多大;(2)中文深度万维网在各个领域上的分布如何等,目前还没有人能给出一个明确的回答.针对这一状况,文中采用数据挖掘中的分类技术,对中文万维网上的深度万维网进行识别,并将其按所在领域的不同进行划分,对以上提到的两个基本问题给出了客观的度量,并对中文深度万维网的现状作了一些相关的统计.文中将主要介绍以100万中文万维网网站首页数据为基础,如何采用分类的技术来解答以上提到的两个问题.实验结果表明,当前中文万维网上,拥有60多万个深度万维网查询接口,其中一半以上属于商业领域,这比较客观地反应了当前我国万维网的使用现状.同时,中文深度万维网中复杂查询接口和简单查询接口约各占一半,而当前的研究主要集中在对复杂查询接口上,对简单查询接口的研究却相对较少,这一结论提醒我们在今后要加强对简单查询接口的相关研究.
引用
收藏
页码:360 / 370
页数:11
相关论文
共 6 条
[1]   基于简单查询接口的Web数据库模式识别 [J].
林玲 ;
周立柱 .
清华大学学报(自然科学版), 2010, 50 (04) :551-555
[2]   关于中国Deep Web的规模、分布和结构 [J].
赵朋朋 ;
崔志明 ;
高岭 ;
仲华 .
小型微型计算机系统, 2007, (10) :1799-1802
[3]   Deep Web数据集成研究综述 [J].
刘伟 ;
孟小峰 ;
孟卫一 .
计算机学报, 2007, (09) :1475-1489
[4]   Clustering e-commerce search engines based on their search interface pages using WISE-Cluster [J].
Lu, Yiyao ;
He, Hai ;
Peng, Qian ;
Meng, Weiyi ;
Yu, Clement .
DATA & KNOWLEDGE ENGINEERING, 2006, 59 (02) :231-246
[5]  
Structured databases on the web[J] . Kevin Chen-Chuan Chang,Bin He,Chengkai Li,Mitesh Patel,Zhen Zhang.ACM SIGMOD Record . 2004 (3)
[6]  
QProber[J] . Luis Gravano,Panagiotis G. Ipeirotis,Mehran Sahami.ACM Transactions on Information Systems (TOIS) . 2003 (1)