基于标点符号分割的汉语句法分析算法

被引:7
作者
毛奇
连乐新
周文翠
袁春风
机构
[1] 南京大学计算机软件新技术国家重点实验室
关键词
计算机应用; 中文信息处理; 句法解析器; 单独解析块; 决策树(Id3);
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
摘要
目前大部分句法解析器都忽略标点符号这一重要的句法特征或者只进行非常简单的处理。本文根据标点符号的句法结构特性,提出单独解析块的概念,并且根据标点符号在句子中的特有特征和位置关系,给出了基于决策树算法(Id3)单独解析块识别方法,将标点融入汉语句法分析中。本文所用的实验数据(包括训练集和测试集)均来自中文宾州树库5.0。对句长大于40个词的汉语长句单独进行了实验,句法分析精度和召回率分别提高1.59%和0.93%,同时时间开销降低了近2/3。实验结果表明,标点对汉语长句句法分析非常有利,系统性能获得了较大提高。
引用
收藏
页码:29 / 34
页数:6
相关论文
共 2 条
[1]   汉语句子的组块分析体系 [J].
周强 ;
孙茂松 ;
黄昌宁 .
计算机学报, 1999, (11) :1158-1165
[2]  
A statistical model for parsing andword-sense disambiguation .2 Daniel M Bikel. Joint SIGDATConference on Empirical Methods in Natural LanguageProcessing and Very Large Corpora . 2000