基于标记的规则统计模型与未登录词识别算法

被引:50
作者
苏菲
王丹力
戴国忠
不详
机构
[1] 中国科学院软件所人机交互技术与智能信息处理实验室
[2] 中国科学院软件所人机交互技术与智能信息处理实验室 北京
[3] 北京
基金
国家自然科学基金重点项目;
关键词
歧义标记; 规则统计模型; n元语法; 词加权算法;
D O I
暂无
中图分类号
TP391.2 [翻译机];
学科分类号
080201 [机械制造及其自动化];
摘要
该文针对小型词库,提出了基于规则统计模型的消歧方法和识别未登录词的词加权算法。通过大量语料库学习获取歧义高频字,作为歧义标记,利用规则统计模型对标记的上下文信息分类处理,剩下的部分进行正向或逆向动态最大匹配,对连续单字串使用词加权算法来判断其是否为未登录多字词。经过实验测试,该系统的准确率为98.88%,召回率为98.32%。
引用
收藏
页码:43 / 45+91 +91
页数:4
相关论文
共 3 条
[1]
现状和设想——试论中文信息处理与现代汉语研究 [J].
许嘉璐 .
中国语文, 2000, (06) :490-496
[2]
高频最大交集型歧义切分字段在汉语自动分词中的作用 [J].
孙茂松 ;
左正平 ;
邹嘉彦 .
中文信息学报, 1999, (01)
[3]
基于三元统计模型的汉语分词及标注一体化研究[A] 高山;张艳;徐波;宗成庆;韩兆兵; 全国第六届计算语言学联合学术会议 2001,