学术探索
学术期刊
学术作者
新闻热点
数据分析
智能评审
基于标记的规则统计模型与未登录词识别算法
被引:50
作者
:
苏菲
论文数:
0
引用数:
0
h-index:
0
机构:
中国科学院软件所人机交互技术与智能信息处理实验室
苏菲
王丹力
论文数:
0
引用数:
0
h-index:
0
机构:
中国科学院软件所人机交互技术与智能信息处理实验室
王丹力
戴国忠
论文数:
0
引用数:
0
h-index:
0
机构:
中国科学院软件所人机交互技术与智能信息处理实验室
戴国忠
不详
论文数:
0
引用数:
0
h-index:
0
机构:
中国科学院软件所人机交互技术与智能信息处理实验室
不详
机构
:
[1]
中国科学院软件所人机交互技术与智能信息处理实验室
[2]
中国科学院软件所人机交互技术与智能信息处理实验室 北京
[3]
北京
来源
:
计算机工程与应用
|
2004年
/ 15期
基金
:
国家自然科学基金重点项目;
关键词
:
歧义标记;
规则统计模型;
n元语法;
词加权算法;
D O I
:
暂无
中图分类号
:
TP391.2 [翻译机];
学科分类号
:
080201
[机械制造及其自动化]
;
摘要
:
该文针对小型词库,提出了基于规则统计模型的消歧方法和识别未登录词的词加权算法。通过大量语料库学习获取歧义高频字,作为歧义标记,利用规则统计模型对标记的上下文信息分类处理,剩下的部分进行正向或逆向动态最大匹配,对连续单字串使用词加权算法来判断其是否为未登录多字词。经过实验测试,该系统的准确率为98.88%,召回率为98.32%。
引用
收藏
页码:43 / 45+91 +91
页数:4
相关论文
共 3 条
[1]
现状和设想——试论中文信息处理与现代汉语研究
[J].
许嘉璐
论文数:
0
引用数:
0
h-index:
0
机构:
全国人大常委会
许嘉璐
.
中国语文,
2000,
(06)
:490
-496
[2]
高频最大交集型歧义切分字段在汉语自动分词中的作用
[J].
论文数:
引用数:
h-index:
机构:
孙茂松
;
论文数:
引用数:
h-index:
机构:
左正平
;
邹嘉彦
论文数:
0
引用数:
0
h-index:
0
机构:
清华大学智能技术与系统国家重点实验室,香港城市大学语言资讯科学研究中心
邹嘉彦
.
中文信息学报,
1999,
(01)
[3]
基于三元统计模型的汉语分词及标注一体化研究[A] 高山;张艳;徐波;宗成庆;韩兆兵; 全国第六届计算语言学联合学术会议 2001,
←
1
→
共 3 条
[1]
现状和设想——试论中文信息处理与现代汉语研究
[J].
许嘉璐
论文数:
0
引用数:
0
h-index:
0
机构:
全国人大常委会
许嘉璐
.
中国语文,
2000,
(06)
:490
-496
[2]
高频最大交集型歧义切分字段在汉语自动分词中的作用
[J].
论文数:
引用数:
h-index:
机构:
孙茂松
;
论文数:
引用数:
h-index:
机构:
左正平
;
邹嘉彦
论文数:
0
引用数:
0
h-index:
0
机构:
清华大学智能技术与系统国家重点实验室,香港城市大学语言资讯科学研究中心
邹嘉彦
.
中文信息学报,
1999,
(01)
[3]
基于三元统计模型的汉语分词及标注一体化研究[A] 高山;张艳;徐波;宗成庆;韩兆兵; 全国第六届计算语言学联合学术会议 2001,
←
1
→