维吾尔文机构名识别研究

被引:0
作者
米日姑·肉孜
机构
[1] 新疆大学
关键词
命名实体识别; 维吾尔文机构名识别; 知识库; 规则匹配; 条件随机场; 特征; 特征模板;
D O I
暂无
年度学位
2013
学位类型
硕士
摘要
命名实体识别是信息处理任务的前提和基础,在命名实体中机构名占有相当大的比重,而且是最难识别的一部分。与英文、中文命名实体识别取得的成绩相比,维吾尔文命名实体识别还处于一个初步研究的阶段。维吾尔文机构名具有独特的语法和语义特性,因此维吾尔文机构名的识别并不是英语和汉语中广泛使用的技术的简单移植。 本文初步的研究了维吾尔文机构名的识别方法,并通过分析维吾尔文机构名的结构特点,分别采用基于语法语义知识的维吾尔文机构名识别方法和基于条件随机场的维吾尔文机构名识别方法对机构名识别进行初步探讨。最后总结了这两种方法的优点和缺点。 首先,根据维吾尔文机构名的语法和语义特性,总结出简单机构名和复杂机构名的构成规律,设计出有效的识别规则和相应的知识库,并设计了基于状态转移原理的高效的识别算法。我们从天山网新闻数据中选取有代表性的实例构建机构名识别的测试集,实验结果显示我们的机构名识别系统具有很高的处理速度和精度,F值为86.06%。 其次,进行机构名识别时,把问题转换为序列标注的问题来解决,即用统计的方法来进行机构名识别。由于条件随机场模型能够使用更复杂的特征进行训练和推理,它不仅能够充分利用上下文信息作为特征,还能够任意添加其他的外部特征,目前它是最优秀的序列标注模型之一。因此,本文选择条件随机场来进行机构名识别。本文将传统的词形特征、词性特征以及使用前一个方法时所建立的机构名特征词库、修饰词库和地名词库作为词典特征来进行机构名识别。实验证明,采用CRF识别机构名时,这些特征的有效性基本令人满意,在新疆维吾尔自治区广播电台的新闻语料进行测试,F值为83.92%。
引用
收藏
页数:64
共 24 条
[1]
基于多模板HMM的中文命名实体识别 [D]. 
蓝雁玲 .
华南理工大学,
2011
[2]
基于Chart算法的维吾尔语句法分析系统的设计与实现 [D]. 
哈里旦木·阿布都克里木 .
新疆大学,
2010
[3]
SVM和最大熵相结合的中文机构名自动识别 [D]. 
杨德来 .
大连理工大学,
2006
[4]
基于条件随机场的中文命名实体识别 [D]. 
向晓雯 .
厦门大学,
2006
[5]
维吾尔语词法中音变现象的自动还原模型 [J].
麦热哈巴艾力 ;
姜文斌 ;
吐尔根依布拉音 .
中文信息学报, 2012, 26 (01) :91-96
[6]
维吾尔语中汉族人名的识别及翻译 [J].
李佳正 ;
刘凯 ;
麦热哈巴艾力 ;
吕雅娟 ;
刘群 ;
吐尔根依布拉音 .
中文信息学报, 2011, 25 (04) :82-87
[7]
维吾尔语KP短语的句法分析研究 [J].
阿力木江·托乎提 .
计算机应用与软件, 2010, 27 (11) :184-187
[8]
基于M3N的中文分词与命名实体识别一体化 [J].
乔维 ;
孙茂松 .
清华大学学报(自然科学版), 2010, 50 (05) :758-762+767
[9]
维吾尔语名词构形词缀有限状态自动机的构造 [J].
早克热·卡德尔 ;
艾山·吾买尔 ;
吐尔根·依布拉音 ;
艾斯卡尔·艾木都拉 .
中文信息学报, 2009, (06) :116-121
[10]
基于多层条件随机场的中文命名实体识别 [J].
胡文博 ;
都云程 ;
吕学强 ;
施水才 .
计算机工程与应用, 2009, 45 (01) :163-165+227