学术探索
学术期刊
学术作者
新闻热点
数据分析
智能评审
基于拼音索引的中文模糊匹配算法
被引:44
作者
:
论文数:
引用数:
h-index:
机构:
曹犟
[
1
,
2
]
邬晓钧
论文数:
0
引用数:
0
h-index:
0
机构:
清华信息科学技术国家实验室技术创新和开发部语音和语言技术中心
清华大学计算机科学与技术系
邬晓钧
[
2
]
夏云庆
论文数:
0
引用数:
0
h-index:
0
机构:
清华信息科学技术国家实验室技术创新和开发部语音和语言技术中心
清华大学计算机科学与技术系
夏云庆
[
2
]
郑方
论文数:
0
引用数:
0
h-index:
0
机构:
清华信息科学技术国家实验室技术创新和开发部语音和语言技术中心
清华大学计算机科学与技术系
郑方
[
2
]
机构
:
[1]
清华大学计算机科学与技术系
[2]
清华信息科学技术国家实验室技术创新和开发部语音和语言技术中心
来源
:
清华大学学报(自然科学版)
|
2009年
/ 49(S1)卷
/ 自然科学版期
关键词
:
文件信息处理;
拼音索引;
模糊匹配;
查询扩展;
D O I
:
10.16511/j.cnki.qhdxxb.2009.s1.019
中图分类号
:
TP391.1 [文字信息处理];
学科分类号
:
120506
[数字人文]
;
摘要
:
主流商业搜索引擎主要基于关键词精确匹配技术。为提高在用户的输入错误时的检索效率,提出了有索引的汉语模糊匹配算法。该算法采用汉字、拼音和拼音改良的编辑距离这3种汉字相似程度的不同度量方式,对用户查询进行扩展,将模糊匹配转化为多个精确匹配,对精确匹配的结果按与查询串的相似程度进行排序。在实验中,将该方法应用于网页文本语料库中。在使用基于拼音改良的编辑距离度量方式时,在时间和空间复杂度增长不大的情况下,该方法取得了60.42%的准确率与50.41%召回率。
引用
收藏
页码:1328 / 1332
页数:5
相关论文
共 2 条
[1]
中文信息检索系统的模糊匹配算法研究和实现
[J].
王静帆
论文数:
0
引用数:
0
h-index:
0
机构:
清华大学计算机系清华信息科学与技术国家实验室技术创新和开发部语音和语言技术中心
王静帆
;
论文数:
引用数:
h-index:
机构:
邬晓钧
;
夏云庆
论文数:
0
引用数:
0
h-index:
0
机构:
清华大学计算机系清华信息科学与技术国家实验室技术创新和开发部语音和语言技术中心
夏云庆
;
论文数:
引用数:
h-index:
机构:
郑方
.
中文信息学报,
2007,
(06)
:59
-64
[2]
A guided tour to approximate string matching
[J].
论文数:
引用数:
h-index:
机构:
Navarro, G
.
ACM COMPUTING SURVEYS,
2001,
33
(01)
:31
-88
←
1
→
共 2 条
[1]
中文信息检索系统的模糊匹配算法研究和实现
[J].
王静帆
论文数:
0
引用数:
0
h-index:
0
机构:
清华大学计算机系清华信息科学与技术国家实验室技术创新和开发部语音和语言技术中心
王静帆
;
论文数:
引用数:
h-index:
机构:
邬晓钧
;
夏云庆
论文数:
0
引用数:
0
h-index:
0
机构:
清华大学计算机系清华信息科学与技术国家实验室技术创新和开发部语音和语言技术中心
夏云庆
;
论文数:
引用数:
h-index:
机构:
郑方
.
中文信息学报,
2007,
(06)
:59
-64
[2]
A guided tour to approximate string matching
[J].
论文数:
引用数:
h-index:
机构:
Navarro, G
.
ACM COMPUTING SURVEYS,
2001,
33
(01)
:31
-88
←
1
→