中文分词和词性标注模型

被引:10
作者
刘遥峰
王志良
王传经
机构
[1] 北京科技大学信息工程学院
基金
北京市自然科学基金;
关键词
分词; 词性标注; 最短路径;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
081203 ; 0835 ;
摘要
构造一种中文分词和词性标注的模型,在分词阶段确定N个最佳结果作为候选集,通过未登录词识别和词性标注,从候选结果集中选优得到最终结果,并基于该模型实现一个中文自动分词和词性自动标注的中文词法分析器。经不同大小训练集下的测试证明,该分析器的分词准确率和词性标注准确率分别达到98.34%和96.07%,证明了该方法的有效性。
引用
收藏
页码:17 / 19
页数:3
相关论文
empty
未找到相关数据