自动分词中未登录词问题的一揽子解决方案

被引:101
作者
陈小荷
机构
[1] 北京语言文化大学
关键词
D O I
10.16499/j.cnki.1003-5397.1999.03.018
中图分类号
TP391.1 [文字信息处理];
学科分类号
120506 [数字人文];
摘要
确定未登录词边界是汉语自动分析中特有的一个问题,未登录词的种类和数量之多,是处理大规模真实文本的严重障碍。本文分析了现有的解决未登录词问题的各种方案,提出两趟分词、在“分词碎片”中计算单字成词概率和未登录词概率的一揽子解决方案,并报告一个初步的、令人鼓舞的开放测试结果。
引用
收藏
页数:7
相关论文
共 4 条
[1]
中文机构名称的识别与分析 [J].
张小衡 ;
王玲玲 .
中文信息学报, 1997, (04)
[2]
汉语分词系统中的信息集成和最佳路径搜索方法 [J].
沈达阳 ;
孙茂松 ;
黄昌宁 .
中文信息学报, 1997, (02) :34-47
[3]
中文姓名的自动辨识 [J].
孙茂松 ;
黄昌宁 ;
高海燕 ;
方捷 .
中文信息学报, 1995, (02)
[4]
多语料库作法之中文姓名辨识 [J].
张俊盛 ;
陈舜德 ;
郑萦 ;
刘显仲 ;
柯淑津 .
中文信息学报, 1992, (03) :7-15