学术探索
学术期刊
新闻热点
数据分析
智能评审
立即登录
一种基于VSM的检测相似重复记录的方法
被引:9
作者
:
张昌年
论文数:
0
引用数:
0
h-index:
0
机构:
北京科技大学信息工程学院
张昌年
机构
:
[1]
北京科技大学信息工程学院
来源
:
微电子学与计算机
|
2008年
/ 08期
基金
:
北京市自然科学基金;
关键词
:
空间向量模型;
聚类;
相似重复记录;
权重;
优先队列;
D O I
:
10.19304/j.cnki.issn1000-7180.2008.08.048
中图分类号
:
TP311.13 [];
学科分类号
:
1201 ;
摘要
:
相似重复记录是数据集成系统中影响数据质量的关键问题之一.为了提高检测精度和效率,综合一些已有的传统方法并加以改进:(1)在字段间进行比较时,根据不同情况逐字符进行比较,使得算法能够适应不同的语言环境,具有较好的通用性.(2)在记录间进行比较时,为不同的字段赋予不同的权重,并采用了基于向量空间模型VSM的向量距离算法,提高了相似重复记录检测的精度.(3)在聚类的过程中采用优先队列策略,减少了记录间比较的次数,提高了检测的效率.理论分析和实验证明文中所提出的相似重复记录检测方法是有效的.
引用
收藏
页码:184 / 187
页数:4
相关论文
共 5 条
[1]
一种检测汉语相似重复记录的有效方法
论文数:
引用数:
h-index:
机构:
程国达
论文数:
引用数:
h-index:
机构:
苏杭丽
[J].
计算机应用,
2005,
(06)
: 1362
-
1365
[2]
数据质量和数据清洗研究综述
郭志懋
论文数:
0
引用数:
0
h-index:
0
机构:
复旦大学计算机科学与工程系
郭志懋
周傲英
论文数:
0
引用数:
0
h-index:
0
机构:
复旦大学计算机科学与工程系
周傲英
[J].
软件学报,
2002,
(11)
: 2076
-
2082
[3]
一种检测多语言文本相似重复记录的综合方法
俞荣华
论文数:
0
引用数:
0
h-index:
0
机构:
复旦大学计算机系
俞荣华
田增平
论文数:
0
引用数:
0
h-index:
0
机构:
复旦大学计算机系
田增平
周傲英
论文数:
0
引用数:
0
h-index:
0
机构:
复旦大学计算机系
周傲英
[J].
计算机科学,
2002,
(01)
: 118
-
121
[4]
一种高效的检测相似重复记录的方法
论文数:
引用数:
h-index:
机构:
邱越峰
论文数:
引用数:
h-index:
机构:
田增平
论文数:
引用数:
h-index:
机构:
季文贇
周傲英
论文数:
0
引用数:
0
h-index:
0
机构:
复旦大学计算机科学系!上海
周傲英
[J].
计算机学报,
2001,
(01)
: 69
-
77
[5]
Data cleaning: problems and current approaches. RAHM E, HONG HD. IEEE Transactions on Knowledge and Data Engineering . 2000
←
1
→
共 5 条
[1]
一种检测汉语相似重复记录的有效方法
论文数:
引用数:
h-index:
机构:
程国达
论文数:
引用数:
h-index:
机构:
苏杭丽
[J].
计算机应用,
2005,
(06)
: 1362
-
1365
[2]
数据质量和数据清洗研究综述
郭志懋
论文数:
0
引用数:
0
h-index:
0
机构:
复旦大学计算机科学与工程系
郭志懋
周傲英
论文数:
0
引用数:
0
h-index:
0
机构:
复旦大学计算机科学与工程系
周傲英
[J].
软件学报,
2002,
(11)
: 2076
-
2082
[3]
一种检测多语言文本相似重复记录的综合方法
俞荣华
论文数:
0
引用数:
0
h-index:
0
机构:
复旦大学计算机系
俞荣华
田增平
论文数:
0
引用数:
0
h-index:
0
机构:
复旦大学计算机系
田增平
周傲英
论文数:
0
引用数:
0
h-index:
0
机构:
复旦大学计算机系
周傲英
[J].
计算机科学,
2002,
(01)
: 118
-
121
[4]
一种高效的检测相似重复记录的方法
论文数:
引用数:
h-index:
机构:
邱越峰
论文数:
引用数:
h-index:
机构:
田增平
论文数:
引用数:
h-index:
机构:
季文贇
周傲英
论文数:
0
引用数:
0
h-index:
0
机构:
复旦大学计算机科学系!上海
周傲英
[J].
计算机学报,
2001,
(01)
: 69
-
77
[5]
Data cleaning: problems and current approaches. RAHM E, HONG HD. IEEE Transactions on Knowledge and Data Engineering . 2000
←
1
→