数据ETL过程中的实体识别方法

被引:3
作者
彭银桥
甘元驹
邓锐
彭凌西
机构
[1] 湛江海洋大学信息学院
[2] 湛江海洋大学信息学院 湛江
[3] 湛江
关键词
数据ETL; 相似重复记录; 实体识别算法; 实体识别过程框架;
D O I
10.13274/j.cnki.hdzj.2005.02.008
中图分类号
TP311.13 [];
学科分类号
1201 ;
摘要
实体识别是根据记录所包含的各种描述信息来确定与之相对应的现实实体,记录的相似匹配是数据集成中最具挑战的工作。分析了常见实体识别算法,提出了实体识别过程框架,用以实现数据ETL的数据规约功能。在开发的实现了语义数据集成的联通统一客户资料系统(UCIS)中,用实体识别算法进行测试,得到的平均返回率和精度分别为86.3%,96.5%,能够满足工程应用的要求。
引用
收藏
页码:22 / 24
页数:3
相关论文
共 1 条
[1]   数据ETL工具通用框架设计 [J].
周宏广 ;
周继承 ;
彭银桥 ;
龙思锐 .
计算机应用, 2003, (12) :96-98