基于“动态流通语料库”的“有效字符串”提取研究

被引:0
作者
隋岩
机构
[1] 北京语言大学
关键词
语料库,动态语言知识更新,流通度,有效字符串,捆绑;
D O I
暂无
年度学位
2004
学位类型
博士
导师
摘要
本文提出了一个新的语言处理单位“有效字符串(Valid String,VSt)”并以“动态流通语料库(DCC)”为依托,以“流通度”理论为支点,对“有效字符串(VSt)”的提取进行了初步的研究。 本文定义的“有效字符串(VSt)”是一种语言理解单位,而不是单纯的语法单位。从语用的角度看,语法研究中的各级单位(例如词、词组/短语、组块等)在一定语用条件下都可以单独完成语言理解和交际任务,本质上也是“有效字符串(VSt)”的一种形式。而关于这些传统语法单位人们已经作了深入细致的研究,并且取得了丰硕的成果,因此,本文更专注于比这些传统语法单位空间跨度更大的“有效字符串(VSt)”的提取研究。 从形式上看,本文所要提取的“有效字符串(VSt)”也是由上述传统语法单位构成的,它涵盖了从词一直到语块的全部可能的“表达/理解”单位。所不同的是,这些字符串跟语用的要求更加接近,它们不是静态的、备用的语法单位,而是动态的、备用的语用单位,通过对“有效字符串(VSt)”在大规模真实文本中使用情况监控,就可以间接实现对语言使用情况的监控,也就是“语用监控”,进而达到“语言知识动态更新”的终极目标。 为了实现这一目标,本研究建造了以“句碎片”库为核心的“动态流通语料库(DCC)”,并把“流通度”理论作为整个研究的指导,从“有效字符串(VSt)”的提取入手,试图从一个全新的角度对大规模真实文本的加工处理进行一次探索。 在这个过程中,本文考察了已有的相关研究成果并从中汲取丰富的营养。参考了认知心理学、大众传播学等的相关理论,对“有效字符串(VSt)”进行了严格的定义,对字符串“频度、使用度、流通度”曲线走势模式进行了初步的分析和归纳,为“有效字符串(VSt)”的自动提取做好了准备。 在语料具体处理过程中,本文引进了“全捆绑”的策略,从经过分词处理的“句碎片”库中“捆绑”出“备选字符串”,把它们与字符串曲线走势模式进行匹配,从而提取出“有效字符串(VSt)”。 本研究建造的“动态流通语料库(DCC)”包含2003年10种报纸1-6月的全部语料,8,687,925条记录,平均“句碎片”长度为16字,总语料规模为8,687,925*16=139,006,800字。全部语料都按照时间序列存储。 为了处理语料和提取“有效字符串(VSt)”,我们开发了“DCC’处理软系统件”。包括“句碎片’切分、分词”模块、“X串’剥离”模块、“备选字符串’捆绑”模块、“有效字符串(VSt)’提取”模块和“有效字符串(VSt)’后处理”模块。 以这个规模的语料库为中心,本研究作了157,661条“有效字符串(VSt)”提取实验,正确率为80.21%。 本文主要有以下四方面创新: 1、从认知的角度定义了语言的理解和交际单位“有效字符串(VSt)”。 2、分析并确定“有效字符串(VSt)”的曲线走势图模式(三种)。 3、提出了基于“曲线走势图”的“流通度”评估方法并提取“有效字符串(VSt)”。 4、建造基于“句碎片”库的“动态流通语料库(DCC)”。
引用
收藏
页数:183
共 67 条
[1]
中文信息处理若干重要问题.[M].徐波等主编;.科学出版社.2003,
[2]
应用语言学实验研究方法.[M].林连书著;.中山大学出版社.2001,
[3]
现代汉语语用平面研究.[M].温锁林著;.北京图书馆出版社.2001,
[4]
学生汉语阅读过程的眼动研究.[M].沈德立主编;.教育科学出版社.2001,
[5]
面向中文信息处理的现代汉语短语结构规则研究.[M].詹卫东著;.广西科学技术出版社.2000,
[6]
中文文本自动分词和标注.[M].刘开瑛著;.商务印书馆.2000,
[7]
社会调查研究原理与方法.[M].侯亚非等编著;.华文出版社.1998,
[8]
汉语如是观.[M].史有为著;.北京语言文化大学出版社.1997,
[9]
现代汉语语法探索.[M].吴葆棠著;.青岛海洋大学出版社.1991,
[10]
汉语语法论文集.[M].吕叔湘著;.商务印书馆.1984,