引入标点处理的层次化汉语长句句法分析方法

被引:22
作者
李幸
宗成庆
机构
[1] 中国科学院自动化研究所模式识别国家重点实验室
关键词
人工智能; 自然语言处理; 句法分析; 标点符号; 层次化分析方法;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
081203 ; 0835 ;
摘要
在分析汉语标点符号用法和句法功能的基础上,本文提出了一种新的面向汉语长句的层次化句法分析方法。这种方法和传统的不考虑标点符号的一遍分析方法的主要区别在于两个方面:第一,利用部分标点符号的特殊功能将复杂长句分割成子句序列,从而把整句的句法分析分成两级来进行。这种“分而治之”的策略大大降低了在传统的一遍分析方法中同时识别子句或短语之间的句法关系以及子句和短语内部成分的句法关系的困难。第二,从大规模树库中提取包含所有标点符号的语法规则和相应概率分布信息,有利于句法分析和歧义消解。实验证明我们的方法与传统的一遍图表(chart)分析方法相比,能够大大减少时间消耗和歧义边的个数,并且提高了复杂长句分析的正确率和召回率约7%。
引用
收藏
页码:8 / 15
页数:8
相关论文
共 3 条
[1]   汉语句法树库标注体系 [J].
周强 .
中文信息学报 , 2004, (04) :1-8
[2]   基于多策略分析的复杂长句翻译处理算法 [J].
黄河燕 ;
陈肇雄 .
中文信息学报, 2002, (03) :1-7
[3]  
Current approaches to punctuation in computational linguistics[J] . B. Say,V. Akman.Computers and the Humanities . 1997 (6)