未登录词识别算法的改进

被引:18
作者
蔡勇智
机构
[1] 福州大学计算机系
关键词
未登录词; 同时识别; 中文分词;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
120506 [数字人文];
摘要
未登录词识别是中文分词系统的两大难题之一。它对提高中文分词最终的正确率和召回率起着重要的作用。本文提出一种改进的未登录词识别算法,通过统计分析大规模语料库及未登录词词表,对前人的成词规则进行改进,并结合限制性成分对所识别的未登录词进行纠正,得出较准确的未登录词识别结果。该算法是规则和统计相结合并且侧重于规则的识别算法,是中文分词中比较有效的未登录词识别算法之一。
引用
收藏
页码:116 / 117
页数:2
相关论文
共 4 条
[1]
基于最大匹配分词算法的中文词语粗分模型 [J].
蔡勇智 .
福建电脑, 2005, (09) :39-40
[2]
基于角色标注的中国人名自动识别研究 [J].
张华平 ;
刘群 .
计算机学报, 2004, (01) :85-91
[3]
基于分解与动态规划策略的汉语未登录词识别 [J].
吕雅娟 ;
赵铁军 ;
杨沐昀 ;
于浩 ;
李生 .
中文信息学报, 2001, (01) :28-33
[4]
中文姓名的自动辨识 [J].
孙茂松 ;
黄昌宁 ;
高海燕 ;
方捷 .
中文信息学报, 1995, (02)