汉语短语的自动划分和标注

被引:19
作者
周强
机构
[1] 北京大学计算语言学研究所
关键词
短语自动划分和标注,语料库加工;
D O I
暂无
中图分类号
H146.3 [句法];
学科分类号
摘要
考虑到传统的基于规则的汉语分析器对大规模真实文本的分析所遇到的困难,本文在使用统计方法进行汉语自动句法分析方面作了一些探索,提出了一套基于统计的汉语短语自动划分和标注算法。它分为预测划分点、括号匹配和分析树生成等三个处理阶段,其间利用了从人工标注的树库中统计得到的各种数据进行自动句法排歧,最终得到一棵最佳句法分析树,从而可以自顶向下地完成对一句句子的短语自动划分和标注,对一千多句句子的封闭测试结果表明,短语划分的正确率约为86%,短语标注的正确率约为92%,处理效果还是比较令人满意的。
引用
收藏
页码:1 / 10
页数:10
相关论文
empty
未找到相关数据