一种基于Token匹配的中文数据清洗方法

被引：7

作者：

刘嘉

张璟

李军怀

机构：

[1] 西安理工大学计算机科学与工程学院

来源：

计算机应用与软件 | 2009年 / 26卷 / 11期

关键词：

中文数据清洗; Token; 拼写错误; 缩写;

D O I：

暂无

中图分类号：

TP311.13 [];

学科分类号：

1201 ;

摘要：

拼写错误和缩写问题是中文数据清洗的核心问题,目前相关研究还很欠缺。提出了一种基于Token匹配的中文数据清洗方法,将中文字符串转换成拼音字符串,采用Token匹配算法检测处理中文数据中的"脏数据"。实验表明,提出的方法能够有效地提高数据的准确度,大大减少了人工工作量。

引用

收藏

页码：43 / 45+53 +53

页数：4

相关论文

共 1 条

[1]

Advances in record-linkage methodology as applied tomatching the 1985 census ofTampa, Florida .2 JARO MA. Journal ofAm. StatisticalAssoc . 1989