基于边界点词性特征统计的韵律短语切分

被引:13
作者
牛正雨
柴佩琪
机构
[1] 同济大学计算机科学与工程系!上海
关键词
韵律短语切分; 自动词性标注; 语料库; 统计方法;
D O I
暂无
中图分类号
TP391.4 [模式识别与装置];
学科分类号
0811 ; 081101 ; 081104 ; 1405 ;
摘要
由于基于规则方法的文本处理系统在系统建立时需要总结大量的规则 ,而且很难保证它在处理大规模真实文本时的强壮性 ,因此本文在使用统计方法进行韵律短语切分方面做了一些有益的探索。先对文本进行自动分词和自动词性标注 ,然后利用从已经经过人工标注的语料库中得到的韵律短语切分点的边界模式以及概率信息 ,对文本中的韵律短语切分点进行自动预测 ,最后利用规则进行适当的纠错。通过对一千句的真实文本进行封闭和开放测试 ,词性标注的正确率在 95%左右 ,韵律短语切分的召回率在 6 0 %左右 ,正确率达到了 80 %。
引用
收藏
页码:19 / 25
页数:7
相关论文
共 5 条