基于无向图序列标注模型的中文分词词性标注一体化系统

被引:13
作者
朱聪慧
赵铁军
郑德权
机构
[1] 教育部-微软语言语音重点实验室哈尔滨工业大学
关键词
中文分词; 词性标注; 一体化系统; 无向图模型;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
摘要
在中文词法分析中,分词是词性标注必须经历的阶段。为了能在分词阶段就充分利用词性标注的信息和减少两阶段错误的累计,最好的方法是将两个阶段,整合到一个架构中。该文以无向图模型为基础,将分词和词性标注有机地统一在一个序列标注模型中。由于可以采用更深层次的依赖关系作为特征,一体化系统在1998年人民日报语料上取得了97.19%的分词精确率和95.34%的词性标注精确率,是目前同类系统,在这一语料上取得的最好结果。
引用
收藏
页码:700 / 704
页数:5
相关论文
共 2 条