自动分词中未登录词问题的一揽子解决方案

被引：101

作者：

陈小荷

机构：

[1] 北京语言文化大学

来源：

语言文字应用 | 1999年 / 03期

关键词：

D O I：

10.16499/j.cnki.1003-5397.1999.03.018

中图分类号：

TP391.1 [文字信息处理];

学科分类号：

120506 [数字人文];

摘要：

确定未登录词边界是汉语自动分析中特有的一个问题，未登录词的种类和数量之多，是处理大规模真实文本的严重障碍。本文分析了现有的解决未登录词问题的各种方案，提出两趟分词、在“分词碎片”中计算单字成词概率和未登录词概率的一揽子解决方案，并报告一个初步的、令人鼓舞的开放测试结果。

引用

收藏

页数：7

相关论文

共 4 条

[1]

中文机构名称的识别与分析 [J].

张小衡 ;

王玲玲 .

中文信息学报, 1997, (04)

[2]

汉语分词系统中的信息集成和最佳路径搜索方法 [J].

沈达阳 ;

孙茂松 ;

黄昌宁 .

中文信息学报, 1997, (02) :34-47

[3]

中文姓名的自动辨识 [J].

孙茂松 ;

黄昌宁 ;

高海燕 ;

方捷 .

中文信息学报, 1995, (02)

[4]

多语料库作法之中文姓名辨识 [J].

张俊盛 ;

陈舜德 ;

郑萦 ;

刘显仲 ;

柯淑津 .

中文信息学报, 1992, (03) :7-15