一种基于Token匹配的中文数据清洗方法

被引:7
作者
刘嘉
张璟
李军怀
机构
[1] 西安理工大学计算机科学与工程学院
关键词
中文数据清洗; Token; 拼写错误; 缩写;
D O I
暂无
中图分类号
TP311.13 [];
学科分类号
1201 ;
摘要
拼写错误和缩写问题是中文数据清洗的核心问题,目前相关研究还很欠缺。提出了一种基于Token匹配的中文数据清洗方法,将中文字符串转换成拼音字符串,采用Token匹配算法检测处理中文数据中的"脏数据"。实验表明,提出的方法能够有效地提高数据的准确度,大大减少了人工工作量。
引用
收藏
页码:43 / 45+53 +53
页数:4
相关论文
共 1 条
[1]  
Advances in record-linkage methodology as applied tomatching the 1985 census ofTampa, Florida .2 JARO MA. Journal ofAm. StatisticalAssoc . 1989