一种基于语义及统计分析的Deep Web实体识别机制

被引：17

作者：

寇月 ^{[1
]}

申德荣 ^{[1
]}

李冬 ^{[2
]}

聂铁铮 ^{[1
]}

机构：

[1] 东北大学信息科学与工程学院

[2] 东软集团有限公司商用软件事业部

来源：

软件学报 | 2008年 / 02期

关键词：

deep Web; 数据集成; 实体识别; 数据消重; 表象整合;

D O I：

暂无

中图分类号：

TP393.09 [];

学科分类号：

080402 ;

摘要：

分析了常见的实体识别方法,提出了一种基于语义及统计分析的实体识别机制(deep Web entity identification mechanism based on semantics and statistical analysis,简称SS-EIM),能够有效解决Deep Web数据集成中数据纠错、消重及整合等问题.SS-EIM主要由文本匹配模型、语义分析模型和分组统计模型组成,采用文本粗略匹配、表象关联关系获取以及分组统计分析的三段式逐步求精策略,基于文本特征、语义信息及约束规则来不断精化识别结果;根据可获取的有限的实例信息,采用静态分析、动态协调相结合的自适应知识维护策略,构建和完善表象关联知识库,以适应Web数据的动态性并保证表象关联知识的完备性.通过实验验证了SS-EIM中所采用的关键技术的可行性和有效性.

引用

页码：194 / 208

页数：15

共 6 条

[1] 基于属性权重的Fuzzy C Mean算法 [J].