一种基于语义及统计分析的Deep Web实体识别机制

被引:17
作者
寇月 [1 ]
申德荣 [1 ]
李冬 [2 ]
聂铁铮 [1 ]
机构
[1] 东北大学信息科学与工程学院
[2] 东软集团有限公司商用软件事业部
关键词
deep Web; 数据集成; 实体识别; 数据消重; 表象整合;
D O I
暂无
中图分类号
TP393.09 [];
学科分类号
080402 ;
摘要
分析了常见的实体识别方法,提出了一种基于语义及统计分析的实体识别机制(deep Web entity identification mechanism based on semantics and statistical analysis,简称SS-EIM),能够有效解决Deep Web数据集成中数据纠错、消重及整合等问题.SS-EIM主要由文本匹配模型、语义分析模型和分组统计模型组成,采用文本粗略匹配、表象关联关系获取以及分组统计分析的三段式逐步求精策略,基于文本特征、语义信息及约束规则来不断精化识别结果;根据可获取的有限的实例信息,采用静态分析、动态协调相结合的自适应知识维护策略,构建和完善表象关联知识库,以适应Web数据的动态性并保证表象关联知识的完备性.通过实验验证了SS-EIM中所采用的关键技术的可行性和有效性.
引用
收藏
页码:194 / 208
页数:15
相关论文
共 6 条
[1]   基于属性权重的Fuzzy C Mean算法 [J].
王丽娟 ;
关守义 ;
王晓龙 ;
王熙照 .
计算机学报, 2006, (10) :1797-1803
[2]   一种改进的相似重复记录检测方法 [J].
朱恒民 ;
王宁生 .
控制与决策 , 2006, (07) :805-808+813
[3]   基于直方图的XPath含值谓词路径选择性代价估计 [J].
王宇 ;
孟小峰 ;
王珊 .
计算机研究与发展, 2006, (02) :288-294
[4]   数据质量和数据清洗研究综述 [J].
郭志懋 ;
周傲英 .
软件学报, 2002, (11) :2076-2082
[5]  
Structured databases on the web[J] . Kevin Chen-Chuan Chang,Bin He,Chengkai Li,Mitesh Patel,Zhen Zhang.ACM SIGMOD Record . 2004 (3)
[6]  
Record linkage:Similarity measures and algorithms .2 Koudas N,Sarawagi S,Srivastava D. Proc.of the ACM SIGMOD Int’l Conf.on Management of Data . 2006