一种检测汉语相似重复记录的有效方法

被引:8
作者
程国达
苏杭丽
机构
[1] 南京财经大学信息工程学院
关键词
汉语相似重复记录; 排序字段; 二维链表;
D O I
暂无
中图分类号
TP391.4 [模式识别与装置];
学科分类号
0811 ; 081101 ; 081104 ; 1405 ;
摘要
消除重复记录可以提高数据质量。提出了按字段值种类数选择排序字段的方法。在相似重复记录的检测中,用第1个排序字段建立存储相似重复记录的二维链表,然后再用第2、第3个排序字段对二维链表中的记录进行排序—比较,以提高检测效果。为了正确地匹配汉字串,研究了由于缩写所造成的不匹配和读音、字型相似造成的输入错误。通过查找“相似汉字表”解决部分输入错误的问题,计算相似度函数判断被比较的记录是否是重复记录。实验表明,提出的方法能有效的检测汉语相似重复记录。
引用
收藏
页码:1362 / 1365
页数:4
相关论文
共 3 条
  • [1] Advances in record-linkage methodology as applied tomatching the 1985 census ofTampa, Florida .2 JARO MA. Journal ofAm. StatisticalAssoc . 1989
  • [2] Data cleaning: problems and current approaches .2 RAHM E,HONG HD. IEEE Data Engineering Bulletin . 2000
  • [3] Identifying and Merging Related Bibliographic Records .2 Hylton J A. MITInstitute of Technology . 1996