一个改进的汉语词性标注系统

被引:7
作者
屈刚
陆汝占
机构
[1] 上海交通大学计算机科学与工程系
关键词
词性标注; 隐马尔可夫模型; 自然语言处理;
D O I
10.16183/j.cnki.jsjtu.2003.06.024
中图分类号
TP391.12 [];
学科分类号
摘要
汉语词性标注的难点在于确定具有多个词类的词 (兼类词 )在上下文中的词性 .基于兼类词在词典中仅占很小的比例 (约为 3% ) ,提出了具有双重状态的隐马尔可夫模型 ,它不但有一个常规的状态转移概率矩阵 ,还在逻辑上为每个具有多个词类的词保留一个专有的状态转移概率矩阵 ,使模型从一个状态转移到另一个状态的概率不再和观察无关 ,提高了模型的精确性
引用
收藏
页码:897 / 900
页数:4
相关论文
共 4 条
[1]  
A maximum entropy approach to natrual language processing. Berger A L,Della P,Pietra S A,et al. Computational Linguistics . 1996
[2]  
Class-based N-gram models onatural language. Brown R F,Della-Pietray V J,de Sousa P V,et al. Computational Linguistics . 1992
[3]  
Tagging english text with a problistic model. Morialdo B. Computational Linguistics . 1994
[4]  
Adaptive statistical language modeling:a maximum entropy approch. Rosenfeld R. . 1994