当今,随着互联网技术的飞速发展,电子形式的文档资源正以指数级的速度快速增长。面对如此庞大的电子信息,如何从海量的信息中抽取人们所需要的关键信息以及非结构化数据的结构化等问题变得尤其突出,针对此问题本文提出了一种基于信息抽取的语义框架填充技术的研究课题,本课题具有非常重要的研究意义和使用价值。
本课题的研究工作主要分为以下几个部分:
1.深入研究了信息抽取中抽取规则问题,针对传统方法研究存在的缺点,本文给出了一种基于知网的文本关键信息抽取算法。依据知网对概念实体的描述,通过对“义原”相似度比较,完成了词语、句子的相似度比较,以此为基础,实现了文本关键信息的抽取。
2.针对传统信息抽取方法抽取结果表现的非结构化问题,本文结合语义框架,提出了一种基于关键信息进行语义框架填充模型。该方法能使知识运用语义框架来表示,将非结构化文本转化为结构化文本的表示形式。
3.对关键信息填充进行语义框架的语义槽匹配时,给出了一种基于相似度比较的语义槽匹配算法。通过对语义槽对应的特征词与对应关键句子的相似度比较,实现对关键信息的语义槽匹配填充。
4.本文给出了基于规则的推理算法,采用这种算法可以实现语义框架中对缺失的语义槽信息的挖掘。基于描述逻辑的推理方法在表达能力和执行效率上存在这很大的局限性,在推理过程中添加基于规则的推理机制可屏蔽所有可产生矛盾的推理规则、增加系统的表达能力,进而保证了推理的一致性。
最后,通过与传统信息抽取的方法,本文提出的方法的信息抽取效率较高。同时,也证明了课题的有效性,并为以后信息抽取领域更深入的研究奠定基础。