科技文献是科研成果的重要体现,是从事科研工作的重要参考和学习资料。对海量科技文献进行自动化处理,抽取重要信息,对于科技文献的计算机检索、文献库建设和管理、新知识的发现有着重要的意义。目前,对于科技文献的计算机处理主要涉及到主题词的提取、文本聚类、利用主题词进行知识发现等几个领域。在处理中,对特征词进行抽取,用合理的方法对科技文献进行表示是对科技文献进行进一步处理的基础。目前,对文本特征进行抽取还没有一个统一的、得到广泛认可的方法,尤其是对科技文献的文本特征抽取。
针对科技文献的特点和文本表示方式,本文主要完成了以下工作:
(1)详细分析了信息抽取和文本特征抽取的主要方法,在总结方法的基础上,分析了各自的优点和局限性;
(2)详细分析了科技文献的文本结构,以车牌识别领域的科技文献为基础,分析了科技文献中各个文本块的信息分布情况;
(3)详细分析了科技文献的文本表示方式,重点分析了科技文献中影响候选特征的各个因素,并对各个影响因素进行量化,建立CRF模型进行处理;
(4)引入CRF模型对科技文献的文本块进行了标注,并对各个文本块进行了特征抽取,重点介绍了用CRF模型对标题中的特征进行抽取和对候选特征进行重要性排序的方法;
(5)提出了科技文献文本特征抽取实验的改进方法和应用。