学术探索
学术期刊
学术作者
新闻热点
数据分析
智能评审
未登录词识别算法的改进
被引:18
作者
:
蔡勇智
论文数:
0
引用数:
0
h-index:
0
机构:
福州大学计算机系
蔡勇智
机构
:
[1]
福州大学计算机系
来源
:
福建电脑
|
2006年
/ 03期
关键词
:
未登录词;
同时识别;
中文分词;
D O I
:
暂无
中图分类号
:
TP391.1 [文字信息处理];
学科分类号
:
120506
[数字人文]
;
摘要
:
未登录词识别是中文分词系统的两大难题之一。它对提高中文分词最终的正确率和召回率起着重要的作用。本文提出一种改进的未登录词识别算法,通过统计分析大规模语料库及未登录词词表,对前人的成词规则进行改进,并结合限制性成分对所识别的未登录词进行纠正,得出较准确的未登录词识别结果。该算法是规则和统计相结合并且侧重于规则的识别算法,是中文分词中比较有效的未登录词识别算法之一。
引用
收藏
页码:116 / 117
页数:2
相关论文
共 4 条
[1]
基于最大匹配分词算法的中文词语粗分模型
[J].
蔡勇智
论文数:
0
引用数:
0
h-index:
0
机构:
福州大学计算机系福建福州
蔡勇智
.
福建电脑,
2005,
(09)
:39
-40
[2]
基于角色标注的中国人名自动识别研究
[J].
张华平
论文数:
0
引用数:
0
h-index:
0
机构:
中国科学院计算技术研究所
张华平
;
刘群
论文数:
0
引用数:
0
h-index:
0
机构:
中国科学院计算技术研究所
刘群
.
计算机学报,
2004,
(01)
:85
-91
[3]
基于分解与动态规划策略的汉语未登录词识别
[J].
论文数:
引用数:
h-index:
机构:
吕雅娟
;
论文数:
引用数:
h-index:
机构:
赵铁军
;
论文数:
引用数:
h-index:
机构:
杨沐昀
;
论文数:
引用数:
h-index:
机构:
于浩
;
论文数:
引用数:
h-index:
机构:
李生
.
中文信息学报,
2001,
(01)
:28
-33
[4]
中文姓名的自动辨识
[J].
论文数:
引用数:
h-index:
机构:
孙茂松
;
论文数:
引用数:
h-index:
机构:
黄昌宁
;
论文数:
引用数:
h-index:
机构:
高海燕
;
方捷
论文数:
0
引用数:
0
h-index:
0
机构:
清华大学计算机科学系,烟台大学计算机应用系
方捷
.
中文信息学报,
1995,
(02)
←
1
→
共 4 条
[1]
基于最大匹配分词算法的中文词语粗分模型
[J].
蔡勇智
论文数:
0
引用数:
0
h-index:
0
机构:
福州大学计算机系福建福州
蔡勇智
.
福建电脑,
2005,
(09)
:39
-40
[2]
基于角色标注的中国人名自动识别研究
[J].
张华平
论文数:
0
引用数:
0
h-index:
0
机构:
中国科学院计算技术研究所
张华平
;
刘群
论文数:
0
引用数:
0
h-index:
0
机构:
中国科学院计算技术研究所
刘群
.
计算机学报,
2004,
(01)
:85
-91
[3]
基于分解与动态规划策略的汉语未登录词识别
[J].
论文数:
引用数:
h-index:
机构:
吕雅娟
;
论文数:
引用数:
h-index:
机构:
赵铁军
;
论文数:
引用数:
h-index:
机构:
杨沐昀
;
论文数:
引用数:
h-index:
机构:
于浩
;
论文数:
引用数:
h-index:
机构:
李生
.
中文信息学报,
2001,
(01)
:28
-33
[4]
中文姓名的自动辨识
[J].
论文数:
引用数:
h-index:
机构:
孙茂松
;
论文数:
引用数:
h-index:
机构:
黄昌宁
;
论文数:
引用数:
h-index:
机构:
高海燕
;
方捷
论文数:
0
引用数:
0
h-index:
0
机构:
清华大学计算机科学系,烟台大学计算机应用系
方捷
.
中文信息学报,
1995,
(02)
←
1
→