语言资源的建设一直是计算语言学研究领域的基础性课题。作为语言资源的一种重要形式,带标语料库不仅是各种自然语言处理系统评测的金本位,而且也是带有特定语言信息的知识库。目前已经形成资源的汉语带标语料库包括分词、词性标注语料库,短语及句法标注语料库。面向文本中的事件信息的标注语料库还处于起步阶段,其标注的对象、形式、标注方法等都有待于研究。
本文从信息提取的角度,对突发事件新闻报道进行事件信息标注的研究,从微观、中观、宏观三个层面,对真实文本中表达事件信息的语言单位进行分析研究,在此基础上将文本中的事件以结构化的形式标注,形成事件的信息结构,以期为文本信息提取、信息检索、文本分类服务。
本文的主要工作有:
一、对真实文本中表达事件信息的语言单位进行分析,用“意义单元”来概括统称,对其形式、性质、类别、关联方式等进行研究;
二、确定了一套事件信息的标注体系,定义了标注内容、标注形式、标注方法,并设计了相应的辅助标注工具;
三、根据标注体系对一定量的文本进行标注,并对标注结果进行分析,标注结果表明目前的标注体系能够对文本中的事件信息进行有效的标注。