学术探索
学术期刊
新闻热点
数据分析
智能评审
立即登录
一种基于Token匹配的中文数据清洗方法
被引:7
作者
:
论文数:
引用数:
h-index:
机构:
刘嘉
张璟
论文数:
0
引用数:
0
h-index:
0
机构:
西安理工大学计算机科学与工程学院
张璟
论文数:
引用数:
h-index:
机构:
李军怀
机构
:
[1]
西安理工大学计算机科学与工程学院
来源
:
计算机应用与软件
|
2009年
/ 26卷
/ 11期
关键词
:
中文数据清洗;
Token;
拼写错误;
缩写;
D O I
:
暂无
中图分类号
:
TP311.13 [];
学科分类号
:
1201 ;
摘要
:
拼写错误和缩写问题是中文数据清洗的核心问题,目前相关研究还很欠缺。提出了一种基于Token匹配的中文数据清洗方法,将中文字符串转换成拼音字符串,采用Token匹配算法检测处理中文数据中的"脏数据"。实验表明,提出的方法能够有效地提高数据的准确度,大大减少了人工工作量。
引用
收藏
页码:43 / 45+53 +53
页数:4
相关论文
共 1 条
[1]
Advances in record-linkage methodology as applied tomatching the 1985 census ofTampa, Florida .2 JARO MA. Journal ofAm. StatisticalAssoc . 1989
←
1
→
共 1 条
[1]
Advances in record-linkage methodology as applied tomatching the 1985 census ofTampa, Florida .2 JARO MA. Journal ofAm. StatisticalAssoc . 1989
←
1
→