一种检测多语言文本相似重复记录的综合方法

被引：22

作者：

俞荣华

田增平

周傲英

机构：

[1] 复旦大学计算机系

[2] 复旦大学计算机系上海

[3] 上海

来源：

计算机科学 | 2002年 / 01期

关键词：

Approximate duplicates records; Clustering; Pairwise comparison; Priority queue;

D O I：

暂无

中图分类号：

TP311.13 [];

学科分类号：

1201 ;

摘要：

<正> 1.前言随着信息技术的广泛应用,如何有效利用不断激增的数据成为企业的迫切问题。数据仓库和数据挖掘技术为企业从浩瀚的数据海洋中获取有用的知识提供了一种有效的手段。然而,现实世界中的数据往往存在着大量的质量问题,从简单的数据输入错误到相对较复杂的数据间的语义不一致性。如果数据的质量达不到要求,那么数据挖掘这类技术产生的结果也不会理想,甚至产生错误的分析结果,从而误导决策。可见提高数据质量的重要性。

引用

页码：118 / 121

页数：4