基于逗号的汉语子句识别研究

被引:22
作者
李艳翠 [1 ,2 ]
冯文贺 [3 ]
周国栋 [1 ]
朱坤华 [2 ]
机构
[1] 苏州大学计算机科学与技术学院
[2] 河南科技学院信息工程学院
[3] 河南科技学院人文学院
关键词
逗号; 汉语子句; 子句识别;
D O I
10.13209/j.0479-8023.2013.002
中图分类号
TP391.1 [文字信息处理];
学科分类号
081203 ; 0835 ;
摘要
根据篇章分析的任务和实践,结合传统研究,提出汉语的基本篇章单位为子句,并从结构、功能、形式等方面给出其定义。分析了逗号与子句的关系,并在标注语料上进行了基于逗号的汉语子句识别研究。首先手工标注了CTB6.0中前100篇文档的逗号是否为子句边界的信息,在标注结果中抽取句法、词汇、长度等特征进行实验,子句识别准确率为90%。然后利用信息增益选出贡献最大的9个特征,使用它们也可获得较高的子句识别准确率。最后仅使用词法信息,子句识别准确率可达84.5%。实验证明子句的定义合理,基于逗号的子句识别在理论上和实验上均可行。
引用
收藏
页码:7 / 14
页数:8
相关论文
共 10 条
[1]   现代汉语小句的研究现状及存在的问题 [J].
王文格 .
汉语学习, 2010, (01) :67-76
[2]   引入标点处理的层次化汉语长句句法分析方法 [J].
李幸 ;
宗成庆 .
中文信息学报, 2006, (04) :8-15
[3]   小句是汉语语法基本的动态单位 [J].
储泽祥 .
汉语学报, 2004, (02) :48-55+96
[4]   基于多策略分析的复杂长句翻译处理算法 [J].
黄河燕 ;
陈肇雄 .
中文信息学报, 2002, (03) :1-7
[5]   小句中枢说 [J].
邢福义 .
中国语文, 1995, (06) :420-428
[6]  
汉语篇章语法.[M].(美) 屈承熹; 著.北京语言大学出版社.2006,
[7]  
汉语复句研究.[M].邢福义著;.商务印书馆.2001,
[8]  
汉语语法分析问题.[M].吕叔湘 著.商务印书馆.1979,
[9]  
汉语口语语法.[M].吕叔湘译;赵元任著;.商务印书馆.1979,
[10]  
标点符号用法.[S].国家语委语言文字应用研究所《标点符号用法》课题组.龚千炎;刘一玲.1995,