融合聚类触发对特征的最大熵词性标注模型

被引:20
作者
赵岩
王晓龙
刘秉权
关毅
机构
[1] 哈尔滨工业大学计算机科学与技术学院
关键词
词性标注; 最大熵模型; 矢量空间模型; 语义相似度计算; 触发对;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
081203 ; 0835 ;
摘要
为解决传统HMM词性标注模型不能包含远距离词特征的问题,提出了形如“WA→WB/TB”的触发对来承载远距离词特征信息,并采用平均互信息量度对触发对特征进行选择·在最大熵框架下,将选择后的触发对特征加入到词性标注系统中·利用矢量空间模型提供的语义相似度计算功能进行词语聚类,聚类的结果和语义词典融合,建立聚类触发对特征用来解决触发词“WA”的数据稀疏问题·实验结果表明,与HMM相比,融合了聚类触发对特征的最大熵模型标注错误率减少了34%·
引用
收藏
页码:268 / 274
页数:7
相关论文
empty
未找到相关数据