命名实体识别是信息处理任务的前提和基础,在命名实体中机构名占有相当大的比重,而且是最难识别的一部分。与英文、中文命名实体识别取得的成绩相比,维吾尔文命名实体识别还处于一个初步研究的阶段。维吾尔文机构名具有独特的语法和语义特性,因此维吾尔文机构名的识别并不是英语和汉语中广泛使用的技术的简单移植。
本文初步的研究了维吾尔文机构名的识别方法,并通过分析维吾尔文机构名的结构特点,分别采用基于语法语义知识的维吾尔文机构名识别方法和基于条件随机场的维吾尔文机构名识别方法对机构名识别进行初步探讨。最后总结了这两种方法的优点和缺点。
首先,根据维吾尔文机构名的语法和语义特性,总结出简单机构名和复杂机构名的构成规律,设计出有效的识别规则和相应的知识库,并设计了基于状态转移原理的高效的识别算法。我们从天山网新闻数据中选取有代表性的实例构建机构名识别的测试集,实验结果显示我们的机构名识别系统具有很高的处理速度和精度,F值为86.06%。
其次,进行机构名识别时,把问题转换为序列标注的问题来解决,即用统计的方法来进行机构名识别。由于条件随机场模型能够使用更复杂的特征进行训练和推理,它不仅能够充分利用上下文信息作为特征,还能够任意添加其他的外部特征,目前它是最优秀的序列标注模型之一。因此,本文选择条件随机场来进行机构名识别。本文将传统的词形特征、词性特征以及使用前一个方法时所建立的机构名特征词库、修饰词库和地名词库作为词典特征来进行机构名识别。实验证明,采用CRF识别机构名时,这些特征的有效性基本令人满意,在新疆维吾尔自治区广播电台的新闻语料进行测试,F值为83.92%。