随着语料库技术的不断发展以及语料库管理系统的广泛应用,语料库中存储的数据量急剧增大。但目前大多数语料库系统所能做到的只是对语料库中已有的语料进行存取,人们通过这些语料所获得的信息量仅仅是整个语料库所包含的信息量的一部分,因为目前用于对这些语料库进行分析处理的工具很少,又有局限性。然而,隐藏在这些语料数据之后的更重要的信息还没有被挖掘出来。这些语料信息往往对语言学家以及自然语言处理有着重要的参考价值。
目前山西大学管理学院构建的法律框架网络本体语料库系统,是一个基于本体的语料库,可以实现对法律框架本体的管理,并存储了大量本体的实例——生语料和标注后的熟语料。本文以此为基础对法律框架网络本体语料库的知识发现进行了研究。
本文共分七章,第一章和第二章阐述知识发现的相关理论以及知识发现模型,按照知识发现的过程模型对语料库中的语料数据进行知识发现;第三章介绍法律框架网络本体语料库系统的构建,提出了系统构建的原则,探讨了系统的模型结构和数据库设计并介绍了系统的五大功能;第四章是本文的重点,阐述基于生语料的知识发现过程和方法,采用提取文本特征词、文本自动分类和文本相似度计算三种形式对生语料进行知识发现,并展示相关实验过程和结果;第五章也是本文的重点,阐述基于熟语料的知识发现,将生语料进行标注形成熟语料后,统计本体中框架、框架元素以及词元语义特征的使用情况并给出了实验和结论;第六章对系统的实现做了简单的介绍。在最后一章对系统进行总结并对今后的工作提出建议和展望。
通过对法律框架网络本体语料库系统的知识发现研究,将有助于法律语言学以及自然语言处理更深入的研究,为今后的知识推理和知识问答系统奠定基础。