目前,本体作为一种知识共享与重用的概念化模型在知识工程与人工智能等领域得到了广泛的应用,然而手工构建本体繁琐费时,容易造成知识获取瓶颈。因此,基于自然语言处理与机器学习等技术,自动、半自动的构建本体的本体学习技术成为当前研究的热点。领域概念的获取是本体学习的基础与重点,由于中文的词法构成复杂,所以对中文文本的本体学习中概念抽取较为困难。
本文针对单纯使用统计学方法无法抽取多词短语概念以及低频概念的不足,提出了一种基于语言学与统计学的多策略的概念抽取方法。本文主要工作如下:(1)对领域语料文档进行分词预处理,包括:分词、词性标注、过滤停用词;(2)针对传统词频反文档频率(TFIDF)方法可能抽取到仅出现在个别文档中的领域无关高频词的问题,通过引入信息熵考察词在领域文档的分布情况,对传统TFIDF方法进行了改进,提出了TFIDFE方法;(3)根据词性组合规则构建术语匹配模板,提出了模板匹配法。使用语言学的模板匹配法从领域文档中抽取多词短语概念以及低频概念;(4)通过模板匹配法与TFIDFE结合构建了多策略概念抽取验证系统。
实验结果表明本文提出的基于语言学的模板匹配法实现了对多词短语概念的抽取;而TFIDFE方法比传统的TFIDF方法抽取的领域概念准确性更高,更具有领域代表性;模板匹配法与TFIDFE方法相结合的多策略概念抽取方法解决了单纯使用统计学无法抽取多词短语概念和低频概念的不足,提高了概念抽取的准确度,对领域概念的抽取具有较好的效果。