未登录词识别算法的改进

被引：18

作者：

蔡勇智

机构：

[1] 福州大学计算机系

来源：

福建电脑 | 2006年 / 03期

关键词：

未登录词; 同时识别; 中文分词;

D O I：

暂无

中图分类号：

TP391.1 [文字信息处理];

学科分类号：

120506 [数字人文];

摘要：

未登录词识别是中文分词系统的两大难题之一。它对提高中文分词最终的正确率和召回率起着重要的作用。本文提出一种改进的未登录词识别算法,通过统计分析大规模语料库及未登录词词表,对前人的成词规则进行改进,并结合限制性成分对所识别的未登录词进行纠正,得出较准确的未登录词识别结果。该算法是规则和统计相结合并且侧重于规则的识别算法,是中文分词中比较有效的未登录词识别算法之一。

引用

收藏

页码：116 / 117

页数：2

相关论文

共 4 条

[1]

基于最大匹配分词算法的中文词语粗分模型 [J].

蔡勇智 .

福建电脑, 2005, (09) :39-40

[2]

基于角色标注的中国人名自动识别研究 [J].

张华平 ;

刘群 .

计算机学报, 2004, (01) :85-91

[3]

基于分解与动态规划策略的汉语未登录词识别 [J].

吕雅娟 ;

赵铁军 ;

杨沐昀 ;

于浩 ;

李生 .

中文信息学报, 2001, (01) :28-33

[4]

中文姓名的自动辨识 [J].

孙茂松 ;

黄昌宁 ;

高海燕 ;

方捷 .

中文信息学报, 1995, (02)