基于标记的规则统计模型与未登录词识别算法

被引：50

作者：

苏菲

王丹力

戴国忠

不详

机构：

[1] 中国科学院软件所人机交互技术与智能信息处理实验室

[2] 中国科学院软件所人机交互技术与智能信息处理实验室北京

[3] 北京

来源：

计算机工程与应用 | 2004年 / 15期

基金：

国家自然科学基金重点项目;

关键词：

歧义标记; 规则统计模型; n元语法; 词加权算法;

D O I：

暂无

中图分类号：

TP391.2 [翻译机];

学科分类号：

080201 [机械制造及其自动化];

摘要：

该文针对小型词库,提出了基于规则统计模型的消歧方法和识别未登录词的词加权算法。通过大量语料库学习获取歧义高频字,作为歧义标记,利用规则统计模型对标记的上下文信息分类处理,剩下的部分进行正向或逆向动态最大匹配,对连续单字串使用词加权算法来判断其是否为未登录多字词。经过实验测试,该系统的准确率为98.88%,召回率为98.32%。

引用

页码：43 / 45+91 +91

页数：4