现代汉语书面语中跨标点句句法关系约束条件的研究

被引:0
作者
张瑞朋
机构
[1] 北京语言大学
关键词
标点句; 共享成分; 句法关系; 约束条件;
D O I
暂无
年度学位
2007
学位类型
博士
导师
摘要
目前,汉语的句法分析研究基本上以单句为对象,但在真实语料中,汉语单句边界的自动确定是很困难的。在句子层面上,主要的形式标记是标点。计算机处理汉语的前提是汉语的形式化,因此标点句自然而然就成了计算机处理汉语句子的基本单位。标点句的边界是清楚的,但很多标点句的句法成分不完整,需要到上下文语境中去寻找。但跨标点句的句法分析问题尚无系统性方法,这就使得汉语长句分析和长句生成效果很差,并已经成为汉外机器翻译和汉语理解等深层次汉语处理应用系统的瓶颈。为了解决这个问题,首先要对汉语跨标点句的句法关系作一番仔细的调查分析,总结出一些规律和约束条件。 本项工作是在跨标点句句法关系的理论框架下展开的,主要目的是解决跨标点句共享成分的识别问题,找出这类句法关系在满足栈形规律之外,还应满足哪些可以形式化的约束规则,以便计算机处理。 本文的工作包括两方面: (1)语料库标注、调查和统计。 标注了钱钟书《围城》全文,共计22,6641字,2,4115个标点句。标注内容包括跨标点句间的句法关系类型、共享成分、标点句的内部的浅层句法结构,从中得到了标记语料中各种跨标点句句法关系的统计数据。笔者还借助文本检索工具对数千万字的中国现代小说、当代小说进行了多项专门调查和统计。 (2)约束条件挖掘。 在标注语料和专项调查的基础上,分列大小一百多方面总结出跨标点句句法关系发生的各种约束条件。重点研究原配句和续配句同源并且是正序关系的情况。涉及的内容包括: 名词或代词开始的标点句主语是否缺失。 主动宾结构的标点句,续配句主语是原配句主语还是宾语。其中讨论了原配句为感知动词句、“有”字句、句宾动词句、连动结构、“像”字句、“V着”句、“V完”句的情况以及一些关联词、副词、形容词、名词对于共享成分的影响。 续配句共享原配句状语的认定,涉及多种形式的状语,专章讨论了否定词的跨标点句管辖的判断。 续配句共享原配句定语的认定,涉及量词、形容词、代词、名词和名词短语的情况。 原配句是把字句、被字句时,句内成分被共享的情况。 “跟”与“和”连接的名词短语被续配句整体共享或部分共享的区分。 原配句是兼语句时,句内成分被共享的情况。 本文的工作在如下方面是有特色的: (1)研究范围方面,除了前人已有的研究跨越标点句的主谓关系之外,还研究了跨越标点句的定中关系、状中关系、述宾关系、述补关系、介宾关系等,全面铺开了跨标点句的句法体系的研究。 (2)研究角度方面,侧重于约束条件中的形式化特征,研究成果具有较强的可操作性,为计算机自动进行跨标点句句法关系的分析打下了一定的基础。 (3)研究方法方面,不满足于举例说明。除了使用传统的自省方法,寻找语言规律的认知理据外,重视真实语料的语言现象统计,以统计数据作为规律可靠性的佐证。 本文的创新性主要表现在语言特征的多角度的深入挖掘方面。择要列举如下: 原配句是主动宾结构的情况下,关于缺主语的续配句共享原配句主语还是宾语,本文指出了几种重要的区别特征: 指出区别主语话题与宾语话题的主要标志之一是静态句、动态句,从形式上界定了这两种标点句,指出了这两种标点句同主语话题和宾语话题的关系。 根据动词对施事、受事的影响,把动词划分为只对施事产生影响的动词和对施事、受事都产生影响的动词,用以区别主语是否转换。 提出信息量的概念,指出原配句是“有”字句以及续配句是中间态形容词谓语句时,续配句的主语确定同原配句宾语的信息量有关,宾语信息量越小,宾语作为续配句主语的可能性越大。 把标点句分为独立标点句和不独立标点句,用于解决标点句之间是否发生共享关系。 把名词从总体上分为独立名词和不独立名词,用于判断标点句的完整与否。对于一些主-副型的连动谓语句,本文采用句型变换的方法归结为主动宾型的单谓语句,再决定续配句的主语认定问题。 把动词和形容词作谓语的情况总体划分为方向性谓语和非方向性谓语,用于解决并列名词短语被整体共享还是部分共享的问题。 把副词、时间词等状语总体划分为句子状语和词语状语,用于解决状语成分是否被共享的问题。 对于各种词性的词语从语义角度进行了细致的分类,用于解决跨标点句共享成分的确定问题。这些词类多数曾散见于多种语言学文献中,但界定方法和使用目标不同,有些是本文首次提出的。本文将这些词类综合使用,有些进行了重新界定,并在高频词范围内给出了这些词类的词表。其中包括: 动词词类:存现动词、准存现动词、感官动词、关系动词、认知动词、心理动词、行为动词、使令动词、身体行为动词; 名词词类:器官名词(部件名词)、属性名词、亲属名词、心理名词; 形容词词类:动态形容词、静态形容词、中间态形容词; 副词词类:短暂动作副词、心理副词、情态副词、时间副词、关联副词、评注性副词、范围副词、程度副词等; 提出了心理词的概念,包括心理名词、心理动词、心理形容词、心理副词。 其中本文首次提出的词类有:中间态形容词、短暂动作副词、心理词、心理副词、心理形容词。 语言学文献中出现过,但界定方法和范畴不同的有:准存现动词、动态形容词、静态形容词、情态副词。 使用平行结构的方法判断成分共享。等等。 在跨标点句句法关系领域,本文的工作是相当初步的。由于时间的关系,许多问题还未涉及到,许多问题只是开了一个头。研究成果还比较零乱,系统性不够,更未涉及算法化、程序化的工作。这些工作将在今后逐步展开。
引用
收藏
页数:160
共 32 条
[1]
现代汉语省略系统研究 [D]. 
夏军 .
山西大学,
2004
[2]
基于标点符号分割的汉语句法分析算法 [J].
毛奇 ;
连乐新 ;
周文翠 ;
袁春风 .
中文信息学报, 2007, (02) :29-34
[4]
引入标点处理的层次化汉语长句句法分析方法 [J].
李幸 ;
宗成庆 .
中文信息学报, 2006, (04) :8-15
[5]
从回指确认的角度看汉语叙述体篇章中的主题标示 [J].
许余龙 .
当代语言学, 2005, (02) :122-131+189
[6]
主语承非主语省略探讨 [J].
华宏仪 .
烟台师范学院学报(哲学社会科学版), 2002, (02) :88-95
[7]
基于多策略分析的复杂长句翻译处理算法 [J].
黄河燕 ;
陈肇雄 .
中文信息学报, 2002, (03) :1-7
[8]
现代汉语的指称形式及其在篇章中的运用 [J].
黄南松 .
世界汉语教学, 2001, (02) :28-37
[9]
主语承主语省略探讨 [J].
华宏仪 .
烟台师范学院学报(哲学社会科学版), 2001, (01) :83-89
[10]
汉英机器翻译中描述型复句的关系识别与处理 [J].
鲁松 ;
宋柔 .
软件学报, 2001, (01) :83-93