一种检测汉语相似重复记录的有效方法

被引：8

作者：

程国达

苏杭丽

机构：

[1] 南京财经大学信息工程学院

来源：

计算机应用 | 2005年 / 06期

关键词：

汉语相似重复记录; 排序字段; 二维链表;

D O I：

暂无

中图分类号：

TP391.4 [模式识别与装置];

学科分类号：

0811 ; 081101 ; 081104 ; 1405 ;

摘要：

消除重复记录可以提高数据质量。提出了按字段值种类数选择排序字段的方法。在相似重复记录的检测中,用第1个排序字段建立存储相似重复记录的二维链表,然后再用第2、第3个排序字段对二维链表中的记录进行排序—比较,以提高检测效果。为了正确地匹配汉字串,研究了由于缩写所造成的不匹配和读音、字型相似造成的输入错误。通过查找“相似汉字表”解决部分输入错误的问题,计算相似度函数判断被比较的记录是否是重复记录。实验表明,提出的方法能有效的检测汉语相似重复记录。

引用

页码：1362 / 1365

页数：4