基于同义实体识别的Web信息集成

被引:5
作者
徐喆昊
吴共庆
胡学钢
机构
[1] 合肥工业大学计算机系
关键词
Web信息集成; 同义实体识别; 相似度计算; 搜索引擎;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
120506 [数字人文];
摘要
准确有效地集成海量Web信息,是Web信息动态聚合、市场情报分析、舆情分析、商业智能等分析型应用的重要基础.针对数据集成过程中不同实体指代同一实体的问题,利用搜索引擎返回的页面摘要信息,设计并实现了一种基于搜索引擎的同义实体识别算法FSE,并提出了一种基于同义实体识别的Web信息集成框架.在医院信息集成测试数据集上的实验结果表明,FSE算法效果优于基于Varient Dice、Varient Cosine、Varient Jaccard、Varient Overlap相似度计算的同义实体识别算法.
引用
收藏
页码:35 / 42
页数:8
相关论文
共 1 条
[1]
Collective entity resolution in relational data.[J].Indrajit Bhattacharya;Lise Getoor.ACM Transactions on Knowledge Discovery from Data (TKDD).2007, 1